
Anthropic vypustil do testování Claude Mythos Preview, model zaměřený na kyberbezpečnost. Nejde o dalšího hloupého asistenta, který opravuje překlepy v kódu. Tahle věc umí autonomně nacházet a dokonce i zneužívat dosud neznámé zranitelnosti.
Představte si to jako architekta, který nejenže zná všechny známé způsoby, jak se vloupat do budovy, ale dokáže jen pohledem na plány vymyslet úplně nové. Přesně to dělá Mythos se softwarem. Analytici, kteří měli k modelu přístup, ho popisují jako „děsivý“.
Nejde o marketingovou nadsázku. Mythos v testech dokázal odhalit zero-day exploity, tedy chyby, o kterých nikdo neví a na které neexistuje záplata. To je svatý grál ofenzivní kyberbezpečnosti. A teď ho má v rukou AI.
Anthropic se snaží krotit jeho sílu v rámci projektu Glasswing, kde spolupracuje s giganty jako Google, Microsoft nebo Apple. Cílem je využít schopnosti modelu primárně k obraně – k prohledávání kritické open-source infrastruktury a záplatování děr dřív, než je najde někdo jiný.
Zní to skvěle. Ale je tu technický háček. Výzkumy ukazují, že i když je Mythos na špici, podobné schopnosti začínají vykazovat i open-source modely jako GPT-OSS nebo Qwen. Jsou sice o něco slabší, ale řádově levnější na provoz. Hra na kočku a myš se tak jen přesouvá na úroveň modelů.
Firma se samozřejmě zaštiťuje bezpečnostními pojistkami. Model by měl odmítat generovat škodlivý kód na vyžádání nebo provádět autonomní útoky. Jenže to jsou jen pravděpodobnostní mantinely, ne neprůstřelné zdi. Skutečná bezpečnost by vyžadovala tvrdé, deterministické kontroly na úrovni architektury.
Celá situace ukazuje, jak tenká je hranice mezi obranným a útočným nástrojem. Anthropic si to zjevně uvědomuje, když v minulosti odmítl spolupráci s Pentagonem na projektech zahrnujících sledování nebo autonomní zbraně.
S modelem, který překonává schopnosti špičkových lidských expertů na bezpečnost, se ale tyto etické červené linie stávají tím nejdůležitějším prvkem celé architektury. Protože tenhle džin už z lahve venku je.