Ben mi, kanser mi? Üç melanomdan birini atlayan ve koyu tenli hastaları göz ardı eden algoritma.

Zaman paradır. Özellikle en tehlikeli cilt kanseri olan melanom söz konusu olduğunda: Bu tümörü mümkün olduğunca erken teşhis etmek, hayat kurtarmak için neredeyse diğer tüm kanser türlerinden daha önemlidir. İspanya'da, 2025 yılına kadar, hızla yayılabilen ve sadece birkaç ay içinde metastaza neden olabilen oldukça agresif bir tümör olan melanomun yaklaşık 9.400 vakası olacağı tahmin ediliyor . Bu gerçekleştiğinde, prognoz genellikle kötüdür, bu nedenle tespitte herhangi bir hata ölümcül olabilir.
Tam da bu aciliyet Bask Ülkesi'ni yapay zekaya (AI) yatırım yapmaya yöneltti. Bask Sağlık Hizmetleri, Osakidetza, kamu sağlık merkezlerinin ve hastanelerinin melanom dahil cilt kanseri riskini teşhis etmek için tasarlanmış bir algoritma olan Quantus Skin'i entegre etmesini sağlamak için çalışıyor. Teoride, süreci kolaylaştırmayı vaat ediyor: birincil bakımdan, aile hekimleri şüpheli lezyonların görüntülerini, algoritma tarafından otomatik olarak hesaplanan kötü huylu olma olasılığıyla birlikte hastanenin dermatoloji bölümüne gönderebilecekler. Bask Hükümeti'nin fikri, şu anda test edilen Quantus Skin'in hangi hastaların önce tedavi edilmesi gerektiğine karar vermeye yardımcı olması.
Ancak veriler endişe verici bir gerçeği ortaya koyuyor. Quantus Skin'i pazarlayan şirket olan Transmural Biotech, ümit verici sonuçlar veren bir ilk çalışma yürüttü ancak önemli sınırlamaları vardı: tamamen çevrimiçi olarak yürütüldü ve hiçbir akademik dergide yayınlanmadı, yani bilimde gerekli olan olağan kalite kontrolünden geçmedi.
Daha sonra, Madrid'deki Ramón y Cajal Hastanesi'nden dermatologlar ve Complutense Üniversitesi'nden profesörler, Quantus Skin'in gerçek hayattaki klinik etkinliğini değerlendirmek için yayınlanan ikinci bir çalışma yürüttüler. Transmural Biotech tarafından finanse edilen ve desteklenen bu çalışma daha kötü sonuçlar gösterdi: algoritma üç melanomdan birini kaçırdı. Duyarlılığı %69'dur, yani bu potansiyel olarak ölümcül kanserin gerçek vakalarının %31'ini kaçırdığı anlamına gelir.
Civio'nun ikinci çalışmayla ilgili sorusuna, Transmural Biotech'in CEO'su David Fernández Rodríguez, e-postayla kaçamak bir yanıt verdi: "Şu anda hangisi olduğunu bilmiyorum." Telefonu kapattıktan sonra, hikayesini değiştirdi: "Yaptığımız şey, potansiyel uygulama sorunlarını tespit etmek için test etmekti." Ve görüşmenin sonunda, Fernández Rodríguez, Quantus Skin'in "çalışmayı bırakmadığını, çok daha kötü çalıştığını, ancak nedenini bulmamız gerektiğini" kabul etti.
Transmural Biotech CEO'su, bu daha zayıf sonuçları Quantus Skin'in talimatlarını takip etmeme nedeniyle görüntü yakalamadaki eksikliklere bağlıyor. Bu, Bask Bölgesi denemelerinde de gözlemledikleri bir şey. "Birincil bakım doktorları görüntü alma konusunda iyi eğitilmemişler" diyor ve bu da "hekimlerin eğitilmesi" ihtiyacını vurguluyor. Ancak ikinci çalışma, daha sonraki teşhis için şüpheli lezyonları fotoğraflama konusunda uzmanlaşmış dermatologları içeriyordu. Fernández Rodríguez'e göre, "görüntüler dikkatlice kırpıldıktan" sonra güvenilirlik arttı çünkü "talimatları tam olarak takip etmiyorlardı".
Bağımsız kaynaklarca eleştirildi“Cilt kanseri için %70'lik bir duyarlılık çok kötüdür. Çok kötü. Bunu melanom olup olmadığını söylemesi için birine verirseniz ve üçte birini yanlış yaparsa, birincil bakım ortamında cilt kanseri taraması için yeterli değildir; daha fazlasını istemeniz gerekir,” diye açıklıyor Barselona'daki Hospital Clínic'in Cilt Kanseri Ünitesi müdürü Dr. Josep Malvehy Guilera . Mallorca'daki Son Llàtzer Hastanesi'nde dermatolog ve Dermapixel adlı uzman blogun yazarı Dr. Rosa Taberner Ferrer'e göre, “%31 yanlış negatif en hafif tabirle tehlikeli geliyor. Bir tarama testi olarak, bu bir kestane.”
Ancak, Transmural Biotech CEO'su, Quantus Skin'in düşük duyarlılığından bahsetmekten kaçınarak yalnızca ürününü destekleyen verilere odaklanarak sorunu en aza indirmeye çalışıyor. Klinik etkinliğini analiz eden aynı çalışmaya göre, sistem iki noktada da başarısız oluyor: özgüllüğü %19,8'lik yanlış pozitif oranıyla sonuçlanıyor, yani beş iyi huylu benden birini melanomla karıştırıyor. Bu, Quantus Skin'in kullanılmasının tedavi edilen hastaların neredeyse %20'si için gereksiz yönlendirmelere yol açacağı anlamına gelir.
Çalışmada yazarlar (Madrid'deki Ramón y Cajal Hastanesi'nde dermatologlar ve Madrid Complutense Üniversitesi'nde profesörler) Quantus Skin'in düşük duyarlılık (daha fazla yanlış negatif) pahasına bile yüksek özgüllüğe (az sayıda yanlış pozitif) sahip olmasının tercih edilebilir olduğunu savunuyorlar, çünkü kesin tanı için değil, tarama için, yani vakaları birincil bakımdan filtrelemeye yardımcı olmak için kullanılacak. Hipotezlerine göre, bu, uzman konsültasyonlarının doygun hale gelmesini önleyebilir ve bekleme listelerini ve ilişkili tıbbi masrafları azaltabilir.
Civio'nun danıştığı uzmanlar algoritmanın ardındaki stratejiyi sorguluyor. Kanser teşhisi için ideal bir standart olmamasına rağmen (kısmen her tümörün saldırganlığına bağlı olduğu için), Quantus Skin'in başardıkları kabul edilebilir olmaktan çok uzak. Malvehy Guilera, "Hızla büyüme ve hatta hastanın ölümüne yol açma potansiyeli olan lezyonlarda melanom teşhisi koyarak hata yaparlarsa, çok tahammülsüz olmak zorundayım. Zaten en azından %92, %93, %94'lük duyarlılıklar istemek zorundayım" diyor.
"Eğer bunu tarama için kullanmayı planlıyorlarsa, o zaman sistem biraz daha düşük özgüllük pahasına son derece yüksek bir duyarlılığa sahip olmalı," diye açıklıyor Taberner Ferrer. Başka bir deyişle, bu tür bir algoritmanın ihtiyatlı davranması tercih edilir: sağlıklı insanlarda yanlış alarmlar üreterek biraz hata yapmak, gerçek bir kanser vakasını kaçırmaktan daha iyidir.
Koyu ten, belirsiz tanıQuantus Skin'in sorunları düşük duyarlılığının ötesine geçiyor. Çalışma yalnızca melanomu teşhis etmedeki klinik etkinliğini değerlendirdi, ancak programın uygulanabileceği bazal hücreli karsinom ve skuamöz hücreli karsinom gibi daha yaygın ancak daha az agresif cilt kanseri türlerini analiz etmedi. Yazarlar ayrıca cilt renginin algoritmanın performansını nasıl etkilediğini incelemediler, ancak bunun araştırmalarının ana sınırlamalarından biri olduğunu kabul ediyorlar .
Sinir ağlarına dayanan Quantus Skin, cilt kanserini neredeyse yalnızca beyaz insanlarda tanımayı öğrendi. Algoritmaya ilk olarak, çoğunluğu açık tenli hastalara karşılık gelen, çoğunlukla Batılı hastaneler tarafından toplanan tıbbi fotoğrafların kamuya açık bir deposu olan Uluslararası Cilt Görüntüleme İşbirliği'nden (ISIC) 56.000'den biraz fazla görüntü verildi. Quantus Skin daha sonra, hepsi beyaz olan Madrid'deki Ramón y Cajal Hastanesi'nden 513 hastanın görüntüleri kullanılarak test edildi .
Quantus Skin'i beslemek için kullanılan veri kümesi "Kafkasyalı erkek ve kadınların" görüntülerini içeriyor, diyor Transmural Biotech'in genel müdürü. "Etnik azınlıklar ve benzeri konulara girmek istemiyorum çünkü araç Bask Ülkesi, Osakidetza (Bask Ulusal İstatistik ve Nüfus Sayımı Enstitüsü) tarafından kullanılıyor. Benim kullanıma sunduğum şey, sınırlamaları olan bir araç," diyor Fernández Rodríguez. Bask Hükümeti, Bask Ülkesi'nin algoritmalar ve yapay zeka sistemleri kataloğunda yer alan Quantus Skin dosyasına göre, koyu ten renklerinde eğitim eksikliğine rağmen "eşitlik ve ayrımcılık yapmamayı teşvik etmek" için herhangi bir önlem "uygulamanın" gerekli olmadığını belirtiyor. Ancak, sinir ağları neredeyse yalnızca beyaz insanların görüntüleriyle eğitildiği için, Roman etnik kökenliler veya Latin Amerika ve Afrika'dan gelen göçmenler gibi koyu ten renklerinde daha sık başarısız olma olasılıkları daha yüksek.
Teksas Üniversitesi'nde dermatoloji profesörü olan Adewole Adamson , Civio'ya "Algoritmaların başarısızlığa uğraması çok kolay," dedi. 2018'de yapay zekanın kapsayıcı ve çeşitli bir şekilde geliştirilmemesi durumunda yol açabileceği ayrımcılık konusunda uyardı ; bu sorun Quantus Skin'in ötesine geçiyor.
Tahminleri doğrulandı. Dermatolojide, algoritmalar öncelikle beyaz hastaların görüntüleriyle beslendiğinde, Taberner Ferrer'e göre "daha koyu ten tonlarında tanısal güvenilirlik" azalıyor. İsveçli şirket First Derm'in, öncelikle beyaz ten fotoğrafları üzerinde eğitilen Cilt Görüntü Arama algoritması, daha koyu tenli kişilerde test edildiğinde doğruluğunun %70'ten %17'ye düştüğünü gördü . Daha yakın tarihli araştırmalar, bu tür algoritmaların siyah insanlarda daha kötü performans gösterdiğini doğruladı; bunun nedeni teknik sorunlar değil, eğitim verilerindeki çeşitlilik eksikliğiydi .
Melanom beyaz insanlarda çok daha yaygın bir kanser olmasına rağmen, daha koyu tenli kişilerin genel sağ kalım oranları önemli ölçüde daha düşüktür . Amerikalı mühendis Avery Smith bu rakamların gayet farkındadır. Partneri Latoya Smith, evlendikten sadece bir buçuk yıl sonra melanom teşhisi aldı. “Etnik kökene göre sağ kalım oranlarına gerçekten şaşırdım. Afrika kökenli Amerikalı olan Latoya en alttaydı. Otobüs çarpmış gibi hissedene kadar bunu bilmiyordum. Çok korkutucuydu,” diyor Civio'ya. Teşhisten bir süre sonra, 2011'in sonlarında Latoya öldü.
O zamandan beri Avery Smith daha kapsayıcı bir dermatoloji elde etmek ve algoritmaların eşitsizlikleri artırmamasını sağlamak için çalışıyor. Özellikle savunmasız gruplar üzerinde yaratabilecekleri "etkiyi" vurgulamak için Smith, yapay zekadan "makas"mış gibi bir "araç" olarak bahsetmeyi reddediyor: "Bu bir pazarlama terimi, insanların anlamasını sağlamanın bir yolu. Ama çok daha fazlası."
Tüketiciler ve Kullanıcılar Federasyonu ( CECU ) sözcüsü hukuk uzmanı Anabel K. Arias da bu etkilerden bahsediyor: "Erken teşhis için kullanmayı düşündüğünüzde, nüfusun yeterince temsil edilmeyen bir kısmı olabilir. Bu durumda, teşhis hatalı olabilir ve kişinin sağlığı üzerinde bir etkiye sahip olabilir. Hatta zarar bile düşünülebilir."
Bir algoritmanın gözünden kaçan hastalarDeusto Üniversitesi'nde deneysel psikoloji profesörü olan Helena Matute Greño , "İnsanlar yapay zekaya çok güvenme eğiliminde, ona gerçek olmayan nesnellik nitelikleri atfediyoruz" diyor. Herhangi bir yapay zeka, aldığı bilgileri kararlar almak için kullanır. Bu girdi verileri iyi veya eksik değilse, başarısız olabilir. Sistematik hatalar yaptığında, algoritma önyargı adını verdiğimiz hatalar yapar. Ve eğer bunlar belirli bir insan grubunu daha fazla etkiliyorsa (kökenleri, ten renkleri, cinsiyetleri veya yaşları nedeniyle) ayrımcı önyargılardan bahsediyoruz.
Journal of Clinical Epidemiology'de yayınlanan bir inceleme , tıpta AI üzerine yapılan çalışmaların yalnızca %12'sinin önyargılı olup olmadığını analiz ettiğini gösterdi. Ve önyargılı olduklarında, en yaygın önyargı ırksal önyargıydı, bunu cinsiyet ve yaş takip ediyordu ve büyük çoğunluğu tarihsel olarak ayrımcılığa uğramış grupları etkiliyordu. Eğitim verileri yeterince çeşitli ve dengeli değilse bu hatalar meydana gelebilir: algoritmalar yalnızca nüfusun bir kısmından öğrenirse, farklı veya azınlık gruplarında daha kötü performans gösterirler.
Hatalar yalnızca ten rengiyle sınırlı değildir. Ticari yüz tanıma teknolojileri, siyah kadınları sınıflandırırken çok daha fazla başarısız oluyor çünkü kadınlar tarihsel olarak beyaz adamların görüntüleri üzerinde eğitilmiş oluyor. Göğüs röntgenlerini analiz eden veya kardiyovasküler hastalığı tahmin eden algoritmalarda da benzer bir durum yaşanıyor; eğitim verileri dengesizse bu algoritmaların tanı performansı kadınlarda daha kötü oluyor . Bu arada, karaciğer hastalığını tahmin etmek için en yaygın kullanılan veri kümelerinden biri tamamen önyargılı -verilerin %75'i erkeklerden oluşuyor- bu nedenle onu kullanan algoritmalar kadınlarda çok daha sık başarısız oluyor . Birleşik Krallık'ta, nakilleri önceliklendiren algoritma genç insanlara karşı ayrımcılık yapıyordu. Nedeni? Sadece önümüzdeki beş yıldaki hayatta kalmayı hesaba katan ve yeni bir organ alan hastaların kazanabileceği tüm yaşamı hesaba katmayan sınırlı veriler üzerinde eğitilmişti.
"Eğitim için kullanılan veriler, daha sonra kullanılacağı tüm nüfusu temsil etmelidir," diye açıklıyor İspanyol Tıbbi Onkoloji Derneği ( SEOM ) sözcüsü ve Malaga'daki Virgen de la Victoria Üniversitesi Hastanesi'nde onkolog olan Dr. Nuria Ribelles Entrena . "Sadece belirli bir hasta grubuyla eğitim yaparsam, o grupta çok etkili olur, ancak başka bir grupta olmaz," diye ekliyor.
Önyargılardan kaçınmak, bir engel parkuruÖnyargıdan kaçınmanın çözümü var: "Eğitim seti mümkün olduğunca geniş olmalı," diye açıklıyor López Rueda. Ancak bu her zaman doğrulanamaz. Şimdiye kadar, tıbbi görüntüler kullanan İspanya'da uygulanan yapay zeka sistemlerinin çoğu genellikle eğitim verisi yayınlamıyor. Bu, ilk önce Kuyruksal sağlık alanında etkinleştirilecek ve ardından tüm Asturias Prensliği'ne genişletilecek olan isimleri bilinmeyen iki dermatoloji cihazı için geçerlidir. Aynı şey, Vic Üniversitesi Hastanesi'nde (Barselona) uygulanan diyabetik ayak ülserlerini tespit etmek için kullanılan ticari uygulama ClinicGram için de geçerlidir; veya Madrid Topluluğu, Asturias Prensliği ve Valensiya Topluluğu'ndaki bazı hastanelerde faaliyet gösteren BoneView ve ChestView veya Lunit gibi çeşitli özel radyoloji sistemleri için de geçerlidir.
Veri kümeleri erişilebilir olduğunda, bir diğer engel de köken, cinsiyet, yaş veya cilt tipi gibi meta verileri içermemeleridir; bu da kapsayıcı ve dengeli olup olmadıklarını kontrol etmemize olanak tanır. Dermatolojide , çoğu kamu veri kümesi genellikle hastaların kökenlerini veya cilt tonlarını etiketlemez . Bu bilgilerin dahil edildiği yerlerde, çalışmalar sürekli olarak Siyahi insanların önemli ölçüde az temsil edildiğini göstermektedir. Profesör Adamson, "Sorunun farkındalığı artıyor ve algoritma geliştiricileri bu eksiklikleri gidermeye çalıştılar. Ancak, hala yapılması gereken işler var" diyor.
2022'de Osakidetza, "en az" %85 duyarlılık ve özgüllük gerektiren tıbbi görüntülemede yapay zeka algoritmalarını uygulamak için Transmural Biotech'e yaklaşık 1,6 milyon avro değerinde bir sözleşme verdi. Barselona Üniversitesi ve Hospital Clínic'in bir yan kuruluşu olan şirket, özel sigorta şirketi Asisa'ya aittir. Osakidetza'ya göre, spesifikasyonların birkaç algoritmayı içermesine rağmen, nihayetinde "daha büyük sağlık etkisi" ve "daha büyük sağlık performansı" nedeniyle Quantus Skin de dahil olmak üzere yalnızca ikisi seçildi. Civio'nun öğrendiği üzere, karar ilgili uzmanlara danışılmadan tek taraflı olarak alındı. Şubat ayında Osakidetza ayrıca Quantus Skin'in "doğrulama aşamalarını" geçtiğini ve "entegrasyon aşamasında" olduğunu belirtti. Civio'nun klinik etkinliği hakkındaki sorularına yanıt olarak, artık test edilmeye devam edildiğini ve "elde edilen sonuçlara dayanarak" kararlar alacağını belirtiyor. Ancak, Quantus Skin için yayınlanan klinik etkinlik verilerinin (69,1% duyarlılık ve 80,2% özgüllük) sözleşmenin gerektirdiği %85 eşiğinin altında olduğunun farkında olup olmadığını yanıtlamaktan kaçınıyor. Bask Bölgesi'ndeki ödülün dışında, Transmural Biotech'in radyolojide yapay zeka algoritmalarını sertifikalandırmak için Katalonya'da çok daha düşük bir miktara (25.000 €) sahip yalnızca bir başka kamu sözleşmesi daha var.
Bu makale ilk olarak kamu işleri konusunda derinlemesine araştırmalar yürüten bağımsız bir kar amacı gütmeyen haber odası olan Civio'da yayınlanmıştır . Tam metodolojiyi orada bulabilirsiniz .
EL PAÍS