Physical Intelligence π0.7: AI model pro roboty, který improvizuje a skládá prádlo

Start-up Physical Intelligence představil π0.7, základní model pro robotiku, který vykazuje známky skutečné improvizace. Dokáže zero-shot ovládat různá ramena a plnit úkoly, na které nebyl explicitně trénován. Ano, včetně skládání prádla.

Co je to kompoziční generalizace

To, co Physical Intelligence ukazuje, se jmenuje kompoziční generalizace. A je to velká věc. Staré roboty se musely učit každý úkol zvlášť. Uvařit kávu? Jeden model. Podat hrnek? Jiný model. Bylo to neefektivní a křehké.

π0.7 funguje jinak. Představte si to jako kuchaře. Nenaučí se nazpaměť tisíc receptů. Naučí se základní techniky: krájet, smažit, vařit. A pak je dokáže zkombinovat a uvařit jídlo, které nikdy předtím neviděl. Přesně to dělá π0.7.

Model se naučí základní pohybové dovednosti – uchop, přesuň, otoč – a pak je skládá dohromady pro zcela nové úkoly. Proto dokáže složit prádlo, i když to nebylo v jeho trénovacích datech.

Architektura pod kapotou

Základem je architektura VLA (Vision-Language-Action), kterou firma použila už v modelu π0.6. Novinkou je ale páteř postavená na VLM (Vision-Language Model) Gemma3 4B. To jsou v podstatě oči a mozek robota v jednom.

Model nejenže vidí svět přes kamery, ale díky jazykové části rozumí, co vidí, a dokáže to spojit s instrukcemi. Nerozpoznává jen „objekt“, ale „hrnek, který mám zvednout“.

Dalším dílkem skládačky je „action chunking“. Robot neplánuje každý milimetr pohybu zvlášť. Plánuje v celých sekvencích, v „kusech“ akcí. Třeba „vezmi a polož“ je pro něj jedna operace, ne tisíc mikropohybů. To dramaticky snižuje výpočetní náročnost a zrychluje reakce.

Řiditelný model a zero-shot ovládání

π0.7 je navíc „steerable“, tedy řiditelný. Můžete mu zadat obecný cíl, třeba „ukliď stůl“, a pak ho v průběhu navádět pomocí jazyka nebo vizuálních podcílů. Je to jako dávat robotovi průběžné rady, aniž byste museli přerušit a přeprogramovat celý úkol.

Největší silou je ale zero-shot schopnost ovládat hardware, který nikdy neviděl. Během demonstrací řídil bimanualní systém UR5e stejně dobře jako lidský expert. To ukazuje, že model není vázaný na konkrétní železo.

Je to obrovský krok k obecně použitelným robotům. Samozřejmě, ještě nejsme u cíle. Ale od specializovaných strojů se posouváme k systémům, které se učí principy. A to je zásadní rozdíl.

Robot, co improvizuje: Physical Intelligence a jeho mozek π0.7 skládá prádlo, aniž by se to kdy učil

Co je to kompoziční generalizace

Architektura pod kapotou

Řiditelný model a zero-shot ovládání