Proteus od Amazonu už nepotřebuje kód, stačí mu říct, co má dělat

Proteus od Amazonu už nepotřebuje kód, stačí mu říct, co má dělat

Amazon posouvá své autonomní roboty Proteus na novou úroveň. Už to není jen o autonomní navigaci, ale o přímé interakci v přirozeném jazyce. Podívejme se, co se skrývá za touhle změnou z pohledu architektury a inferenčních modelů.

Změna paradigmatu ve skladu

Robot Proteus není žádná novinka. Tuhle autonomní „želvu“ pro přesun těžkých vozíků představil Amazon už dříve. Klíčová byla její schopnost bezpečně se pohybovat v prostoru sdíleném s lidmi, na rozdíl od starších robotů Kiva, kteří operovali v oddělených zónách.

Proteus k tomu využívá sadu senzorů – kamery, LiDAR, ultrazvuk – a sofistikované plánování trasy, které vytváří jakousi bezpečnostní bublinu. Když do ní vstoupí člověk, robot zastaví. Až doteď ale jeho úkoly definoval specializovaný software.

Nová verze to mění. Zaměstnanec skladu může k robotovi prostě přijít a říct mu, co má udělat. Pryč je nutnost klikat v rozhraní. Tohle je obrovský skok.

Nejde jen o hlas, ale o kontext

Není to jen jednoduché převedení hlasu na text. Jádrem je multimodální AI model, který musí fúzovat jazykový vstup s vizuálními daty z kamer robota. Je to zásadní rozdíl.

Představte si to jako navigaci. Něco jiného je, když vám někdo diktuje cestu po telefonu, a něco jiného, když stojí vedle vás a prstem ukazuje: „Jeď támhle a pak zahni za touhle budovou.“ Robot musí pochopit význam slov „tuhle“ a „támhle“ z reálného světa, který vidí.

Model tedy musí v reálném čase analyzovat obraz, identifikovat objekty (palety, vozíky) a spojit je s příkazem. Příkaz „přesuň tenhle vozík k bráně pět“ spouští komplexní inferenční řetězec, který propojuje zpracování přirozeného jazyka (NLP) s počítačovým viděním (CV).

Trénink a inženýrská skepse

Jak se něco takového trénuje? Amazon má k dispozici gigantické množství dat ze svých skladů. Navíc silně spoléhá na simulace, konkrétně na platformě NVIDIA Isaac Sim. Vytváří si digitální dvojčata svých skladů, kde může testovat a trénovat AI modely v tisících scénářů, aniž by ohrozil reálný provoz.

Otázkou samozřejmě zůstává robustnost. Co se stane v hlučném prostředí? Jak si model poradí s různými přízvuky nebo nejednoznačnými příkazy? Chyba v interpretaci může znamenat zablokovaný provoz nebo v horším případě poškození zboží.

Implementace takového systému není triviální. Nejde o nasazení jednoho modelu, ale o celou architekturu, která musí zvládat správu flotily, diagnostiku a bezchybnou integraci se stávajícími systémy pro řízení skladu. Je to krok správným směrem, ale cesta k R2-D2, který si s vámi bude povídat, je ještě dlouhá.