
Google představil nový model pro překlad řeči, který zachovává hlas a intonaci mluvčího. Nejde o další drobnou iteraci. Jádrem je kompletně nová end-to-end architektura, která mění pravidla hry v latenci a přirozenosti projevu.
Klasický strojový překlad řeči byl vždycky tak trochu štafetový běh. Jeden systém převedl mluvené slovo na text (ASR), druhý přeložil text (NMT) a třetí z textu vygeneroval řeč (TTS). Výsledek? Znatelné zpoždění a syntetický hlas, který zní jako z nádraží.
Google teď tuhle štafetu zahodil. Jejich nový přístup staví na jediném, end-to-end modelu speech-to-speech (S2ST). Jeden neuronový model se stará o všechno. Od vstupu zvuku po výstup zvuku. Je to velký architektonický posun.
Klíčová je práce se streamovanými daty. Model nečeká, až domluvíte celou větu. Začíná překládat s fixním zpožděním pouhých dvou sekund. Toho dosahuje díky tréninku na specificky připravených, časově synchronizovaných datech, kde jsou vstupní a výstupní řečové segmenty přesně zarovnané.
Nejzajímavější je ale přenos prozódie. Tedy rytmu, tónu a intonace. Představte si to jako přenos duše hlasu. Model se nenaučí jen slova, ale i způsob, jakým byla řečena. V praxi to znamená, že přeložená věta si udrží charakteristiky vašeho původního projevu.
Technicky to funguje tak, že model kóduje prozódii z krátkého úseku původní řeči do speciálního vektoru. Ten pak slouží jako „návod“ pro generátor řeči, jak má cílový text „zahrát“. Nejde jen o kopírování hlasu, ale o replikaci dynamiky projevu.
Samozřejmě to má své limity. Současná implementace, například v Google Meet, je omezena na pár angličtina-španělština. Systém exceluje v technické a strukturované konverzaci, ale u idiomů a neformální mluvy stále generuje doslovné a občas kostrbaté překlady.
Základem je patentovaná metoda dvoustupňového přenosu prozódie. První model z textu vygeneruje řeč s cílovou intonací, ale v neutrálním hlase. Druhý model pak tuto „melodii“ vezme a aplikuje ji na specifický hlasový otisk mluvčího. Je to chytrý způsob, jak oddělit „co“ se říká od „jak“ se to říká.
Tato technologie není kouzlo, ale solidní inženýrství postavené na lepších datech a chytřejší architektuře. Cesta k naprosto plynulému a kontextuálně dokonalému překladu je ještě dlouhá. Ale krok od robotického hlasu k zachování lidského projevu je obrovský.