AI vs. Lékaři: Analýza studie z Harvardu | LLM v medicíně, limity a realita diagnostiky

Harvard přišel se studií, kde prý AI poráží lékaře v diagnostice na urgentním příjmu. Zní to jako revoluce. Ale když se podíváme na data, metodiku a co to vlastně znamená, je to celé mnohem složitější.

Čísla versus realita

Takže, co se přesně stalo? Výzkumníci vzali 76 reálných případů z urgentu v Bostonu a data z nich prohnali několika jazykovými modely, včetně neveřejného o1-preview od OpenAI. Výsledek? V úvodní fázi, tzv. triáži, kdy je dat naprosté minimum, AI určila správnou nebo téměř správnou diagnózu v 67 % případů. Lidé-lékaři se trefili jen zhruba v 50-55 %.

Na papíře to vypadá jako jasné vítězství stroje. Jenže není.

Knihovník versus mechanik

Je potřeba si vysvětlit, jak takový LLM vlastně „přemýšlí“. Představte si ho jako knihovníka, co přečetl absolutně všechny medicínské texty světa. Zná statistické pravděpodobnosti všech symptomů vedoucích ke všem nemocem. Ale nikdy neviděl pacienta.

Lékař je naproti tomu spíš zkušený mechanik. Nejenže zná manuál, ale slyší i ten sotva znatelný chrastivý zvuk v motoru, který v žádné příručce není. LLM zpracovává text a hledá korelace. Lékař pracuje s multimodálními daty – vidí, slyší, cítí, ptá se.

Problém diferenciální diagnózy

AI v harvardském testu excelovala v jedné věci: v generování finálního tipu na základě omezených vstupních dat. Je to logické. Model dokáže v milisekundách propočítat tisíce pravděpodobnostních vektorů, což lidský mozek prostě neumí.

Jenže medicína není tipovačka. Jádrem práce lékaře je diferenciální diagnostika – proces systematického vylučování možností. A tady, jak ukazují jiné studie, například ta z Mass General Brigham, modely naprosto selhávají. Sice trefí finální diagnózu, ale cesta k ní je z pohledu medicínské logiky nesmysl. Generují seznamy možných příčin, které nedávají klinický smysl.

Data, data a zase data

Zásadní je také fakt, že výkon AI nebyl ani tak dán typem modelu, jako spíš charakterem případu. U jasně definovaných diagnóz s typickými příznaky měla AI úspěšnost přes 85 %. U nejasných, nespecifických případů, kde je potřeba právě ona lidská zkušenost, klesla úspěšnost na žalostných 31 %.

To jen podtrhuje, že současné modely jsou stále jen extrémně výkonné statistické nástroje. Jsou skvělé jako „našeptávač“ nepravděpodobných diagnóz, které by člověk mohl přehlédnout. Ale nahradit proces klinického uvažování? K tomu vede ještě hodně dlouhá a technicky trnitá cesta.

AI v urgentu: Lepší než doktor? Harvard testoval LLM a čísla jsou divočejší, než se zdá

Čísla versus realita

Knihovník versus mechanik

Problém diferenciální diagnózy

Data, data a zase data

AI modely nestačí. Firmy teď hledají 'nasazené inženýry' a platí zlatem

Microsoft otáčí kormidlem: Jeden AI model nestačí, budoucnost je v jejich orchestraci

Řešíte podobnou věc?

AI v urgentu: Lepší než doktor? Harvard testoval LLM a čísla jsou divočejší, než se zdá

Čísla versus realita

Knihovník versus mechanik

Problém diferenciální diagnózy

Data, data a zase data

Další novinky

AI modely nestačí. Firmy teď hledají 'nasazené inženýry' a platí zlatem

Microsoft otáčí kormidlem: Jeden AI model nestačí, budoucnost je v jejich orchestraci

Řešíte podobnou věc?