Yeni bir çalışmaya göre, yapay zeka dil modelleri uygun bir erken tanı koymakta vakaların yüzde 80’inden fazlasında başarısız oluyor. Bu da henüz denetimsiz klinik kullanım için güvenli olmadıklarını gösteriyor.
Yeni bir araştırmaya göre üretken yapay zekâ (AI), klinikte
güvenli biçimde kullanılabilmesi için gereken muhakeme süreçlerinden hâlâ
yoksun.
Boston merkezli, kâr amacı gütmeyen bir hastane ve araştırma
ağı olan ve ABD'nin en büyük sağlık sistemlerinden biri sayılan Mass General
Brigham'daki araştırmacılara göre, AI sohbet botları kapsamlı klinik bilgiler
verildiğinde tanı koymadaki doğruluklarını artırdı, ancak uygun bir ayırıcı
tanı üretme konusunda vakaların yüzde 80'inden fazlasında yine de başarısız
oldu.
Açık erişimli tıp dergisi JAMA
Network Open'da yayımlanan çalışmanın sonuçları, büyük dil modellerinin
(LLM'ler) klinik kullanım için gereken muhakeme becerilerinin gerisinde
kaldığını ortaya koydu.
Çalışmanın ortak yazarı Marc Succi, "Süregelen
iyileştirmelere rağmen, hazır paket büyük dil modelleri gözetimsiz şekilde
klinik düzeyde devreye sokulmaya hazır değil." dedi.
Ayrıca, klinik muhakemenin merkezinde yer alan ve kendisinin
"tıbbın sanatı" olarak nitelendirdiği ayırıcı tanıyı yapay zekanın
henüz taklit edemediğini vurguladı.
Ayırıcı tanı, sağlık profesyonellerinin benzer belirtiler
gösteren diğer olgulardan ayırt ederek bir hastalığı saptamasında ilk adımı
oluşturuyor.
Modeller nasıl test
edildi?
Araştırma ekibi, Claude, DeepSeek, Gemini, GPT ve Grok'un en
güncel sürümlerinin de aralarında bulunduğu 21 büyük dil modelinin işleyişini
inceledi.
LLM'ler, PrIME-LLM adı verilen yeni geliştirilmiş bir araç
kullanılarak 29 standartlaştırılmış klinik vaka senaryosu üzerinden
değerlendirildi.
Bu araç, bir modelin klinik muhakemenin farklı
aşamalarındaki yetkinliğini değerlendiriyor: ilk tanının konulması, uygun
tetkiklerin istenmesi, kesin tanıya ulaşılması ve tedavinin planlanması.
Klinik vakaların nasıl ilerlediğini simüle etmek için
araştırmacılar, önce hastanın yaşı, cinsiyeti ve belirtileri gibi temel
bilgilerle başlayarak, ardından fizik muayene bulguları ve laboratuvar
sonuçlarını ekleyerek modellere kademeli olarak bilgi sundu.
Gerçek klinik ortamda bir sonraki aşamaya geçebilmek için
ayırıcı tanı kritik öneme sahip. Ancak çalışmada, ayırıcı tanı adımında
başarısız olsalar bile modellerin sıradaki aşamaya geçebilmesi için ek bilgiler
verildi.
Araştırmacılar, dil modellerinin kesin tanıda yüksek
doğruluk oranlarına ulaştığını, ancak ayırıcı tanı üretme ve belirsizlikle başa
çıkma konusunda zayıf performans sergilediğini tespit etti.
Çalışmanın yazarlarından Arya Rao, LLM'lerin adım adım
değerlendirilmesinin, onları birer sınav çözücüsü olarak görmekten öteye geçip
bir doktorun yerine koyduğunu belirtti.
Veriler tamamlandığında bu modellerin kesin tanıyı koymada
çok başarılı olduğunu, ancak bilginin sınırlı olduğu bir vakanın açık uçlu
başlangıç aşamasında zorlandığını da ekledi.
Araştırmacılar, tüm modellerin vakaların yüzde 80'inden
fazlasında uygun bir ayırıcı tanı üretemediğini ortaya koydu.
Kesin tanıda ise başarı oranları modele bağlı olarak yaklaşık
yüzde 60'tan yüzde 90'ın üzerine kadar değişti.
LLM'lerin çoğu, metne ek olarak laboratuvar sonuçları ve
görüntüleme verileri sağlandığında doğruluk oranlarını artırdı.
Sonuçlar, Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini
3.0 Flash ve Gemini 3.0 Pro'nun yer aldığı, performansı en yüksek modellerden
oluşan bir küme ortaya koydu.
Sağlık
profesyonellerinin rolü hâlâ belirleyici
Bununla birlikte yazarlar, sürümler arasındaki
iyileştirmelere ve muhakemeye yönelik optimize edilmiş modellerin avantajlarına
rağmen, hazır paket LLM'lerin güvenli biçimde kullanılabilmek için gereken zekâ
düzeyine henüz ulaşmadığını ve gelişmiş klinik muhakemeyi sergileme konusunda
sınırlı kaldığını vurguladı.
Succi, "Bulgularımız, sağlık alanında kullanılan büyük
dil modellerinin hâlâ sürece dâhil bir insana ve çok sıkı denetime ihtiyaç
duyduğunu bir kez daha gösteriyor." dedi.
Çalışmada yer almayan, İspanya Aile ve Toplum Hekimliği
Derneği'nin Yapay Zekâ ve Dijital Sağlık çalışma grubundan Susana Manso García
ise bulguların kamuoyu için net bir mesaj içerdiğini söyledi.
"Çalışmanın bizzat kendisi, bunların [dil modellerinin]
gözetim olmaksızın klinik kararlar almak için kullanılmaması gerektiğinde ısrar
ediyor. Bu nedenle yapay zeka umut verici bir araç olsa da insan klinik yargısı
vazgeçilmez olmaya devam ediyor." dedi.
"Kamuya yönelik öneri ise bu teknolojileri temkinli
kullanmak ve herhangi bir sağlık sorunuyla karşılaşıldığında mutlaka bir sağlık
profesyoneline başvurmak."
Kaynak: Euronews