General Intuition: Jak se z 2 miliard herních videí ročně trénují AI modely pro chápání 3D světa a robotiku

Startup General Intuition, odštěpený od herní platformy Medal.tv, má ambiciózní plán. Chce naučit AI skutečně chápat a interagovat s 3D světem pomocí analýzy dvou miliard herních klipů ročně. Nejde o další generátor obrázků, ale o fundamentální výzkum prostorové inteligence.

Myšlenka trénovat AI na videohrách není nová. Co je ale jiné v podání General Intuition, je jednak surová škála a hlavně typ dat. Mají přístup k datovému zlatému dolu: 2 miliardám klipů ročně od 10 milionů aktivních uživatelů Medal.tv.

Klíčové je, že to nejsou pasivní videa. Jde o záznamy z pohledu první osoby, které obsahují interakci. Model nevidí jen pixely, ale vidí akci a její okamžitý důsledek. Je to rozdíl jako mezi sledováním dopravy z mostu a sezením za volantem s přístupem k záznamu všech pohybů rukou a nohou řidiče.

Právě tato kauzalita je kritická pro trénink takzvaných „embodied agents“ – AI, které mají jednat v nějakém prostředí. Cílem je naučit model prostorově-časové uvažování. Laicky řečeno, aby AI chápala, že objekt, který zmizel za rohem, stále existuje, nebo že skok z útesu má nevratné následky.

Technicky na to jdou přes několik vrstev. Základem je foundation model trénovaný na vizuálních datech. Nad tím ale budují vlastní „world models“, což jsou v podstatě zjednodušené simulace reality, které si AI vytváří sama pro sebe. Je to její soukromé hřiště nebo snový svět, kde si může donekonečna zkoušet různé scénáře bez reálných následků.

Zajímavé je, že tyto world modely neplánují prodávat jako produkt. Slouží čistě jako interní tréninkový nástroj. Agent se učí v reálných datech z her, pak si své poznatky ověřuje a experimentuje v nasimulovaném světě, a pak se zase vrací k videím. Efektivní a výpočetně elegantní.

Samozřejmě, největší inženýrskou výzvou není samotný trénink, ale to před ním. Zpracovat a vyčistit petabajty video dat je monstrózní úkol. Musí filtrovat duplicity, chybné záznamy a nerelevantní obsah. Právě kvalita datové pipeline často rozhoduje o úspěchu celého projektu, ne jen fancy architektura modelu.

Svatým grálem je pak generalizace. Dokáže se model, který strávil tisíce hodin v prostředí Fortnite nebo Cyberpunku, naučit navigovat dron ve skladu nebo asistovat robotickému rameni? To je otázka za dvě miliardy dolarů. Pokud ano, nejde jen o lepší NPC do her, ale o základ pro autonomní systémy příští generace.

Miliardy herních videí jako trénink pro AI? General Intuition učí modely chápat 3D prostor