
Harvard přišel se studií, kde prý AI poráží lékaře v diagnostice na urgentním příjmu. Zní to jako revoluce. Ale když se podíváme na data, metodiku a co to vlastně znamená, je to celé mnohem složitější.
Takže, co se přesně stalo? Výzkumníci vzali 76 reálných případů z urgentu v Bostonu a data z nich prohnali několika jazykovými modely, včetně neveřejného o1-preview od OpenAI. Výsledek? V úvodní fázi, tzv. triáži, kdy je dat naprosté minimum, AI určila správnou nebo téměř správnou diagnózu v 67 % případů. Lidé-lékaři se trefili jen zhruba v 50-55 %.
Na papíře to vypadá jako jasné vítězství stroje. Jenže není.
Je potřeba si vysvětlit, jak takový LLM vlastně „přemýšlí“. Představte si ho jako knihovníka, co přečetl absolutně všechny medicínské texty světa. Zná statistické pravděpodobnosti všech symptomů vedoucích ke všem nemocem. Ale nikdy neviděl pacienta.
Lékař je naproti tomu spíš zkušený mechanik. Nejenže zná manuál, ale slyší i ten sotva znatelný chrastivý zvuk v motoru, který v žádné příručce není. LLM zpracovává text a hledá korelace. Lékař pracuje s multimodálními daty – vidí, slyší, cítí, ptá se.
AI v harvardském testu excelovala v jedné věci: v generování finálního tipu na základě omezených vstupních dat. Je to logické. Model dokáže v milisekundách propočítat tisíce pravděpodobnostních vektorů, což lidský mozek prostě neumí.
Jenže medicína není tipovačka. Jádrem práce lékaře je diferenciální diagnostika – proces systematického vylučování možností. A tady, jak ukazují jiné studie, například ta z Mass General Brigham, modely naprosto selhávají. Sice trefí finální diagnózu, ale cesta k ní je z pohledu medicínské logiky nesmysl. Generují seznamy možných příčin, které nedávají klinický smysl.
Zásadní je také fakt, že výkon AI nebyl ani tak dán typem modelu, jako spíš charakterem případu. U jasně definovaných diagnóz s typickými příznaky měla AI úspěšnost přes 85 %. U nejasných, nespecifických případů, kde je potřeba právě ona lidská zkušenost, klesla úspěšnost na žalostných 31 %.
To jen podtrhuje, že současné modely jsou stále jen extrémně výkonné statistické nástroje. Jsou skvělé jako „našeptávač“ nepravděpodobných diagnóz, které by člověk mohl přehlédnout. Ale nahradit proces klinického uvažování? K tomu vede ještě hodně dlouhá a technicky trnitá cesta.