
Start-up Physical Intelligence představil π0.7, základní model pro robotiku, který vykazuje známky skutečné improvizace. Dokáže zero-shot ovládat různá ramena a plnit úkoly, na které nebyl explicitně trénován. Ano, včetně skládání prádla.
To, co Physical Intelligence ukazuje, se jmenuje kompoziční generalizace. A je to velká věc. Staré roboty se musely učit každý úkol zvlášť. Uvařit kávu? Jeden model. Podat hrnek? Jiný model. Bylo to neefektivní a křehké.
π0.7 funguje jinak. Představte si to jako kuchaře. Nenaučí se nazpaměť tisíc receptů. Naučí se základní techniky: krájet, smažit, vařit. A pak je dokáže zkombinovat a uvařit jídlo, které nikdy předtím neviděl. Přesně to dělá π0.7.
Model se naučí základní pohybové dovednosti – uchop, přesuň, otoč – a pak je skládá dohromady pro zcela nové úkoly. Proto dokáže složit prádlo, i když to nebylo v jeho trénovacích datech.
Základem je architektura VLA (Vision-Language-Action), kterou firma použila už v modelu π0.6. Novinkou je ale páteř postavená na VLM (Vision-Language Model) Gemma3 4B. To jsou v podstatě oči a mozek robota v jednom.
Model nejenže vidí svět přes kamery, ale díky jazykové části rozumí, co vidí, a dokáže to spojit s instrukcemi. Nerozpoznává jen „objekt“, ale „hrnek, který mám zvednout“.
Dalším dílkem skládačky je „action chunking“. Robot neplánuje každý milimetr pohybu zvlášť. Plánuje v celých sekvencích, v „kusech“ akcí. Třeba „vezmi a polož“ je pro něj jedna operace, ne tisíc mikropohybů. To dramaticky snižuje výpočetní náročnost a zrychluje reakce.
π0.7 je navíc „steerable“, tedy řiditelný. Můžete mu zadat obecný cíl, třeba „ukliď stůl“, a pak ho v průběhu navádět pomocí jazyka nebo vizuálních podcílů. Je to jako dávat robotovi průběžné rady, aniž byste museli přerušit a přeprogramovat celý úkol.
Největší silou je ale zero-shot schopnost ovládat hardware, který nikdy neviděl. Během demonstrací řídil bimanualní systém UR5e stejně dobře jako lidský expert. To ukazuje, že model není vázaný na konkrétní železo.
Je to obrovský krok k obecně použitelným robotům. Samozřejmě, ještě nejsme u cíle. Ale od specializovaných strojů se posouváme k systémům, které se učí principy. A to je zásadní rozdíl.