Google DeepMind Genie a Street View: Analýza AI simulace reálného světa pro robotiku a hry

Google na I/O ukázal něco, co zní jako sci-fi. Jejich AI model Genie, který umí generovat interaktivní světy, teď dostal klíče od dvaceti let dat ze Street View. Tohle není jen další demo, tohle je základ pro digitální dvojčata našeho světa.

Na Google I/O keynote bylo tolik AI, že se v tom člověk skoro ztratil. Mezi všemi těmi agenty a vylepšeními Gemini se ale schovala jedna věc, která mi nedá spát. Projekt Genie od DeepMind. A hlavně jeho propojení se Street View.

Co se vlastně stalo?

Stručně řečeno, Google udělal to, co se dalo čekat, ale stejně to všem vyrazilo dech. Vzal svůj model Genie, který dokáže z obrázku nebo textu vygenerovat jednoduchý, ale plně interaktivní 2D svět – takovou mini hru –, a napojil ho na svou obří databázi Street View. Výsledek? Můžete si vybrat prakticky jakékoliv místo na světě, které Google zmapoval, a Genie vám z něj vytvoří explorable simulaci.

Není to jen statická 360° fotka. Je to dynamické prostředí. Můžete se v něm pohybovat. Zatím sice jen v 720p a s frameratem kolem 20-24 FPS, takže žádná pastva pro oči. Ale to je úplně vedlejší. Pointa je, že AI dokáže pochopit prostorovou logiku reálného světa a přetvořit ji v něco, s čím můžeme interagovat. Google tomu říká „Maps Imagery Grounding“. Já tomu říkám začátek konce rozdílu mezi realitou a simulací.

Robotika, ne jenom videohry

První, co každého napadne, jsou samozřejmě hry. Představte si indie vývojáře, který si 'stáhne' centrum Prahy jako základ pro svůj herní level. Bez nutnosti posílat tým grafiků do ulic. Obrovská demokratizace. Ale to je jen špička ledovce.

Ten skutečný game-changer je jinde. V robotice. Trénovat autonomní systémy – ať už jde o auta, drony, nebo humanoidní roboty – v reálném světě je neuvěřitelně drahé, pomalé a hlavně nebezpečné. Co když robot špatně vyhodnotí situaci a nabourá? Nebo někoho zraní? Proto se tolik investuje do simulátorů.

Jenže dosavadní simulátory byly buď příliš zjednodušené, nebo jejich tvorba stála miliony. Genie a Street View tenhle problém řeší od základu. Najednou máme k dispozici prakticky nekonečné množství tréninkových prostředí, která jsou ukotvená ve skutečnosti. Robot se může 'projít' po tisících křižovatek v různých městech, v různém počasí, zažít miliony okrajových situací, a to všechno v bezpečí serverovny. To je absolutní svatý grál pro kohokoliv, kdo se snaží postavit AI, která má fungovat ve fyzickém světě.

Kde je háček?

Samozřejmě to není dokonalé. Ani zdaleka. Jak jsem zmínil, rozlišení je nízké a plynulost taky. Model má jen krátkodobou vizuální paměť a interakce jsou zatím omezené. Geografická přesnost není stoprocentní a text na značkách nebo výlohách je často jen rozmazaný blábol. Je to první krok.

Navíc to Google nepouští mezi lidi jen tak. Bude to feature dostupná pro předplatitele Google AI Ultra. Logicky. Výpočetní náročnost musí být astronomická.

Ale i s těmihle omezeními je to fascinující. Trochu mě děsí, že si za chvíli budu moct 'zahrát' cestu do práce i s ranní zácpou. Ale zároveň vidím, jak se tu rodí nástroj, který může dramaticky zrychlit vývoj v robotice a autonomních systémech. Tohle nebyla jen další cool prezentace na konferenci. Tohle byl pohled do budoucnosti simulací.

Google pouští AI do ulic. Váš dům teď může být herní level.

Co se vlastně stalo?

Robotika, ne jenom videohry

Kde je háček?