
Google konečně ukázal AI, která nejen mluví, ale i jedná. Gemini teď umí samo ovládat aplikace v telefonu. Je to sice pomalé a zatím spíš technologické demo, ale pod kapotou se rýsuje skutečná revoluce v tom, jak chápeme AI asistenty.
Viděl jsem to naživo na Pixelu 10 a Galaxy S26. Řeknete Gemini, ať vám objedná odvoz, a ono to... udělá. Otevře aplikaci, prokliká se rozhraním, vyplní cíl. Žádné API, žádná přímá integrace. Jen AI, která se dívá na obrazovku a používá aplikaci jako člověk. Fascinující.
A taky neuvěřitelně pomalé. Každý krok trvá. Přemýšlí. Někdy se zasekne. Je to kostrbaté. Problém, který by člověk vyřešil za deset sekund, trvá Gemini minutu. V současném stavu to není nic, co byste reálně chtěli používat. Ale o to tady teď nejde. Důležité je, co se děje v pozadí.
Jak to tedy funguje? Není to žádná magie. Je to vlastně docela hrubá síla, ale chytře provedená. Jádrem je nástroj, interně zvaný „Computer Use“, který funguje v opakující se smyčce.
A takhle pořád dokola. Po každé akci se udělá nový screenshot a celý cyklus se opakuje, dokud není úkol hotov. Ta latence, to je přesně ono. Není to přímé volání funkce, je to neustálá vizuální analýza a rozhodování, které sežere spoustu výpočetního času a tokenů. Model musí pokaždé znovu „pochopit“ celou obrazovku.
Google si je téhle topornosti dobře vědom. Současná implementace je jen první vlaštovka. Skutečný potenciál se odemyká až s architekturou, kterou budují okolo. Mluvím o věcech jako Gemini 3 a jeho agentních funkcích. Zavádějí totiž klíčový prvek: stavovost.
Díky šifrovaným „Thought Signatures“ si model dokáže pamatovat svůj myšlenkový pochod napříč několika kroky a voláními nástrojů. Už to není jen reaktivní smyčka, ale proces, který si udržuje kontext. To je absolutní základ pro řešení složitějších, vícekrokových úloh, které se větví a vyžadují paměť.
K tomu si přidejte Agent Development Kit (ADK), což je v podstatě open-source framework pro stavbu těchto agentních systémů ve velkém. Google tím dává vývojářům do ruky nástroje, jak si postavit vlastní „klikací“ AI pro firemní systémy. Cílem je efektivita a škálovatelnost.
Takže ano, dnes je to pomalé a nepraktické. Je to hračka. Ale architektura, která za tím stojí, je všechno, jen ne hračka. Je to metodický, inženýrský přístup k vytvoření první generace skutečných AI agentů. A to je mnohem zajímavější než to, jestli mi Uber přijede o minutu později.