
Google se s Gemini Omni a projektem Astra znovu snaží o svatý grál AI – univerzální model, který zpracuje cokoliv. Technicky to zní impozantně. Ale je to skutečně nová architektura, nebo jen další iterace Transformeru nafouknutá do extrému?
Myšlenka je jednoduchá. Jeden model, který dokáže plynule přecházet mezi textem, obrázky, videem a zvukem. Ne jako parta specializovaných modelů propojených lepidlem z API volání, ale jako jediná, soudržná neuronová síť. To je vize, kterou Google naznačil už s architekturou Pathways.
Gemini Omni je zatím nejblíže realizaci. Cílem je, aby model chápal svět v reálném čase, pamatoval si kontext a reagoval na kombinaci vstupů. Ukážete mu video, položíte hlasový dotaz a on odpoví textem. Vše najednou.
Největší technická překážka? Data. Ne jejich množství, ale jejich forma. Transformer, architektura, na které to celé stojí, pracuje s takzvanými tokeny – numerickými reprezentacemi vstupních dat. Pro text je to snadné, slova a části slov se dají převést na čísla relativně přímočaře.
Ale co video? Nebo zvuk? Jak vytvoříte jednotný „jazyk“ pro pixely, zvukové vlny a písmena? Je to jako snažit se napsat Shakespeara pomocí not a barevných čtverečků. Musíte najít společný jmenovatel, univerzální tokenizér, který vše převede do jednoho formátu, aniž by ztratil klíčové informace.
Právě tady se láme chleba. Úspěch či neúspěch těchto modelů závisí na efektivitě této „datové Rosetty“. Pokud je převod ztrátový, model bude generovat nesmysly. Pokud je příliš komplexní, inference bude neúnosně pomalá.
Navzdory velkým slovům se nezdá, že by Google vynalezl něco fundamentálně nového. V jádru je to stále masivně škálovaný Transformer, architektura popsaná v legendárním paperu „Attention Is All You Need“. Google jen posouvá hranice toho, co je možné s ní udělat.
Nejde o revoluci v architektuře, ale o revoluci v inženýrství a objemu dat. Trénovací datasety pro takový model musí být nepředstavitelně obrovské a hlavně dokonale provázané. Potřebujete miliardy příkladů, kde je text spojen s odpovídajícím obrazem, zvukem a videem.
Provozovat takové monstrum je extrémně náročné. I když Google optimalizuje inferenci, fyzikální limity platí. Pro interakci v reálném čase, jakou slibuje projekt Astra, musí být latence v řádu milisekund. To je s takto komplexním modelem obrovská výzva.
Není to jen o hrubé síle. Je to o chytré kvantizaci, optimalizaci a možná i o specializovaném hardwaru. Univerzální model je skvělý, ale pokud na odpověď čekáte půl minuty, je prakticky nepoužitelný. A to je ta inženýrská realita, která stojí za marketingovými demy.