Gemini se učí klikat. Je to pomalé, kostrbaté a fascinující.

Gemini se učí klikat. Je to pomalé, kostrbaté a fascinující.

Google konečně ukázal AI, která nejen mluví, ale i jedná. Gemini teď umí samo ovládat aplikace v telefonu. Je to sice pomalé a zatím spíš technologické demo, ale pod kapotou se rýsuje skutečná revoluce v tom, jak chápeme AI asistenty.

AI přestává být jen chatbotem

Viděl jsem to naživo na Pixelu 10 a Galaxy S26. Řeknete Gemini, ať vám objedná odvoz, a ono to... udělá. Otevře aplikaci, prokliká se rozhraním, vyplní cíl. Žádné API, žádná přímá integrace. Jen AI, která se dívá na obrazovku a používá aplikaci jako člověk. Fascinující.

A taky neuvěřitelně pomalé. Každý krok trvá. Přemýšlí. Někdy se zasekne. Je to kostrbaté. Problém, který by člověk vyřešil za deset sekund, trvá Gemini minutu. V současném stavu to není nic, co byste reálně chtěli používat. Ale o to tady teď nejde. Důležité je, co se děje v pozadí.

Pod kapotou: Snímky obrazovky a agentní smyčky

Jak to tedy funguje? Není to žádná magie. Je to vlastně docela hrubá síla, ale chytře provedená. Jádrem je nástroj, interně zvaný „Computer Use“, který funguje v opakující se smyčce.

  1. Analýza: Gemini pořídí snímek obrazovky aplikace.
  2. Rozhodnutí: Tento obrázek (a váš původní příkaz) pošle do modelu, který vyhodnotí, co je na obrazovce vidět a jaký je další logický krok. Třeba „kliknout na tlačítko 'Potvrdit'“ nebo „napsat 'Praha' do pole 'Cíl'“.
  3. Akce: Model vygeneruje konkrétní příkaz, typicky něco jako skript pro Playwright, který pak systém provede. Klikne. Napíše.

A takhle pořád dokola. Po každé akci se udělá nový screenshot a celý cyklus se opakuje, dokud není úkol hotov. Ta latence, to je přesně ono. Není to přímé volání funkce, je to neustálá vizuální analýza a rozhodování, které sežere spoustu výpočetního času a tokenů. Model musí pokaždé znovu „pochopit“ celou obrazovku.

Stavová logika a ADK: Cesta k dospělosti?

Google si je téhle topornosti dobře vědom. Současná implementace je jen první vlaštovka. Skutečný potenciál se odemyká až s architekturou, kterou budují okolo. Mluvím o věcech jako Gemini 3 a jeho agentních funkcích. Zavádějí totiž klíčový prvek: stavovost.

Díky šifrovaným „Thought Signatures“ si model dokáže pamatovat svůj myšlenkový pochod napříč několika kroky a voláními nástrojů. Už to není jen reaktivní smyčka, ale proces, který si udržuje kontext. To je absolutní základ pro řešení složitějších, vícekrokových úloh, které se větví a vyžadují paměť.

K tomu si přidejte Agent Development Kit (ADK), což je v podstatě open-source framework pro stavbu těchto agentních systémů ve velkém. Google tím dává vývojářům do ruky nástroje, jak si postavit vlastní „klikací“ AI pro firemní systémy. Cílem je efektivita a škálovatelnost.

Takže ano, dnes je to pomalé a nepraktické. Je to hračka. Ale architektura, která za tím stojí, je všechno, jen ne hračka. Je to metodický, inženýrský přístup k vytvoření první generace skutečných AI agentů. A to je mnohem zajímavější než to, jestli mi Uber přijede o minutu později.