Full-Duplex AI: Jak Thinking Machines a NVIDIA mění architekturu konverzačních modelů

Současné AI asistenty jsou vlastně jen glorifikované vysílačky – jeden mluví, druhý čeká. Teď se to ale mění. Nastupuje éra 'full-duplex' modelů, které poslouchají a reagují v reálném čase. A nejde jen o startup Miry Murati, do hry se naplno vložily i NVIDIA a ByteDance.

Konec éry přerušovaných monologů

Každý, kdo se kdy snažil vést plynulý dialog s AI, narazil na ten samý problém. Musíte domluvit, pak nastane trapné ticho, model zpracovává váš dotaz, generuje odpověď a teprve pak ji začne syntetizovat do řeči. Technicky se tomu říká half-duplex komunikace. Je to nepřirozené a pomalé.

Důvodem je zřetězená architektura. Váš hlas nejdřív zpracuje ASR (Automatic Speech Recognition) model, ten text předá velkému jazykovému modelu (LLM) a jeho textový výstup nakonec přečte TTS (Text-to-Speech) syntéza. Každý krok v tomto řetězci přidává latenci.

Nový standard: Full-duplex

Právě tohle se snaží změnit „interakční modely“ od Thinking Machines a dalších. Nejde o nic menšího než o přechod na full-duplex architekturu. Cílem je, aby model dokázal zpracovávat vstupní stream (váš hlas) a zároveň generovat výstup. V jeden a ten samý okamžik.

To umožňuje to, co je v lidské konverzaci naprosto normální: skákání do řeči, opravování se v půlce věty nebo jen souhlasné mručení, zatímco druhý stále mluví. Pro AI je to ale obrovský architektonický skok. Vyžaduje to opustit staré, oddělené pipeline a postavit nativní, end-to-end modely.

NVIDIA PersonaPlex ukazuje cestu

Nejde jen o teoretické koncepty. NVIDIA už s modelem PersonaPlex ukázala, jak to může vypadat v praxi. Jejich 7B model zvládá přepínání mezi mluvčími za 70 milisekund. To je osmnáctkrát rychleji než předchozí generace a dost rychle na to, aby to lidský mozek vnímal jako okamžitou reakci.

PersonaPlex je postavený jako jednotný systém. Žádné předávání dat mezi ASR, LLM a TTS. Díky tomu dokáže reagovat na přerušení a kontext v reálném čase, nikoliv se zpožděním, které by celý dojem z konverzace zničilo. A co je klíčové, NVIDIA ho uvolnila jako open-source.

Co se děje pod kapotou

Jak si to představit jednoduše? Starý systém je jako štafetový běh. Běžec ASR musí doběhnout do cíle a předat kolík běžci LLM, který ho zase předá běžci TTS. Každé předání je ztráta času.

Nový, full-duplex systém je spíš jako jeden špičkový sportovec, který běží, zároveň sleduje dění na stadionu a v reálném čase upravuje svou trasu a rychlost. Nereaguje post-factum, ale prediktivně.

Není to jen o jedné firmě

Že nejde o slepou uličku, dokazuje i aktivita dalších hráčů. ByteDance má svůj Seeduplex, který se chlubí o 8 % lepším rozpoznáváním konce věty. Akademická sféra zase přichází s architekturami jako DuplexCascade. Celý obor se v tichosti shodl, že half-duplex je mrtvý.

Nástup full-duplex modelů není jen další iterací. Je to změna paradigmatu. Latence byla doposud největší technickou bariérou pro skutečně přirozenou interakci s AI. A zdá se, že tato bariéra právě padá.

AI se učí poslouchat a mluvit zároveň. Staré modely jsou na odpis

Konec éry přerušovaných monologů

Nový standard: Full-duplex

NVIDIA PersonaPlex ukazuje cestu

Co se děje pod kapotou

Není to jen o jedné firmě