Anthropic Fable 5: Dohrál Pokémona naslepo a má schizofrenní dvojče

Anthropic Fable 5: Dohrál Pokémona naslepo a má schizofrenní dvojče

Anthropic vypustil svůj nový vlajkový model Fable 5. Je to ale jen polovina příběhu. Ta druhá, výkonnější, se jmenuje Mythos 5 a dostanou se k ní jen vyvolení. A ano, tenhle model fakt dohrál Pokémona jen koukáním na obrazovku.

Takže, Anthropic má venku Fable 5, svůj nový nejchytřejší model. Ale rovnou si řekněme, že to není tak jednoduché. Firma totiž představila hned dva modely postavené na stejné architektuře třídy „Mythos“. Fable 5 je verze pro veřejnost, zatímco Mythos 5 je jeho odbržděné, syrové dvojče určené pro prověřené partnery.

Představte si to jako dva identické motory. Fable 5 má z výroby nainstalovaný omezovač otáček, který hlídá, abyste nepřekročili „bezpečné“ meze. Mythos 5 je ten samý motor, ale klíče od omezovače dostane jen certifikovaný mechanik pro jízdu na uzavřeném okruhu. Přesně tak funguje jejich klasifikátor, který rizikovější dotazy ve Fable 5 zablokuje, nebo je pošle na starší model Opus 4.8.

Největší rozruch ale způsobilo demo, kde Fable 5 dohrál Pokémon FireRed jen na základě surových screenshotů. Žádné mapy, žádné textové logy, žádné informace o stavu hry. Model se prostě díval na pixely a z nich odvozoval, co se děje, kam jít a co dělat. Tohle je obrovský skok v čistě vizuálním uvažování.

Není to jediný kousek. V jiném testu modelu stačily screenshoty webové aplikace k tomu, aby z nich zrekonstruoval její zdrojový kód. Další demo ukázalo hraní Slay the Spire, kde využití perzistentní paměti (schopnost ukládat si data mezi sessionami) dramaticky zlepšilo výkon. To ukazuje na sílu v práci s dlouhým kontextem a v softwarovém inženýrství.

Co se týče architektury, bavíme se o nové generaci, kterou Anthropic nazývá „Mythos-class“. Z technického hlediska je zajímavé hlavně chování označované jako „self-verification“. Model si po sobě v podstatě kontroluje práci. Než vygeneruje finální odpověď, provede interní revizi, jestli jeho vlastní úvahy dávají smysl. Je to jako inženýr, co si dvakrát přepočítá statiku, než odevzdá návrh.

Samozřejmě, je na místě zdravá skepse. Demo s Pokémonem je působivé, ale kolik výpočetního výkonu to stálo? A jak si model poradí s jinou, vizuálně odlišnou hrou? Máme tu fascinující laboratorní výsledek, ne hotový produkt. A protože je Fable 5 verze na vodítku, skutečný potenciál architektury Mythos 5 vidí jen pár vyvolených. Je to síla, ale kontrolovaná.