Anthropic Claude Mythos: Analýza AI modelu, který odhaluje zero-day zranitelnosti

Anthropic představil Claude Mythos Preview. Nejde o dalšího chatbota, ale o specializovaný model, který objevil tisíce zero-day zranitelností v klíčovém softwaru. Z dobrého důvodu ho firma neuvolní veřejně.

Anthropic v tichosti ukázal model, který není určený pro generování básniček. Jmenuje se Claude Mythos Preview a jeho jediným úkolem je metodicky prohledávat kód a nacházet v něm bezpečnostní díry. A je v tom zatraceně dobrý.

Během interního testování v rámci projektu Glasswing našel tisíce dosud neznámých, takzvaných zero-day zranitelností. Objevil 27 let starou chybu v OpenBSD nebo 16 let starý bug v knihovně FFmpeg, který unikl všem automatizovaným nástrojům. Tohle není evoluce. Tohle je skok.

Firma mluví o „step change“, tedy o zásadní změně schopností. Nejde jen o hrubou sílu. Mythos prokazuje mnohem hlubší schopnost uvažování v kontextu kódu a dokáže sestavit komplexní řetězce útoků, které vyžadují několik na sebe navazujících kroků. To je disciplína, kde předchozí generace modelů selhávaly.

Je ale potřeba zachovat chladnou hlavu. Bezpečnostní výzkumníci upozorňují, že efektivita modelu je dramaticky závislá na přístupu, který dostane. Rozlišují mezi whitebox a greybox testováním. A právě tady se ukazuje skutečný limit.

Představte si to jako audit budovy. Whitebox test je, když dáte expertovi kompletní architektonické plány, klíče od všech dveří a přístupové kódy. Najde každou skulinu. Greybox je, když mu dáte jen adresu a necháte ho obcházet venku. Mythos exceluje v prvním scénáři, kdy má k dispozici zdrojový kód.

Schopnosti modelu jsou tak velké, že se Anthropic spojil s Googlem, Microsoftem a dalšími giganty. Cílem je potichu opravit nalezené díry dříve, než podobně schopný model postaví někdo bez etických zábran. Je to závod s časem, který teď běží na pozadí.

Veřejné uvolnění takového nástroje by bylo čiré šílenství. Debata se tak posouvá od „nahradí AI programátory?“ k mnohem palčivější otázce: dokážeme vůbec spravovat systémy, jejichž slabiny odhaluje AI řádově rychleji, než je lidé stíhají opravovat? Odpověď zatím neznáme.

Anthropic má AI, co nachází zranitelnosti a nechá si ji pro sebe