AI vám nerozumí, když mícháte jazyky. Proč je code-switching noční můra

AI vám nerozumí, když mícháte jazyky. Proč je code-switching noční můra

Všichni to děláme. Přejdeme z češtiny do angličtiny uprostřed věty. Pro lidi přirozené, pro AI modely pro rozpoznávání řeči (ASR) je to ale peklo. Nový výzkum a datasety konečně ukazují, jak hluboký tenhle problém ve skutečnosti je.

Přepínání kódů: Přirozenost, kterou stroje nechápou

Říká se tomu „code-switching“. Je to lingvistický fenomén, kdy mluvčí plynule střídá dva nebo více jazyků. Je to naprosto normální. Pro současné ASR systémy, včetně těch největších jako Whisper od OpenAI, je to ale obrovská výzva.

Problém není jen ve znalosti slovíček. Jde o okamžitou změnu gramatické struktury, fonetiky a kontextu. Většina modelů je trénovaná na obrovských, ale převážně jednojazyčných datasetech. Když narazí na nečekaný jazykový mix, zpanikaří.

Buď se pokusí cizí slovo foneticky napasovat do primárního jazyka, což vede k nesmyslům, nebo ho úplně ignorují. Výsledek? Zkomolený přepis, který postrádá původní význam. A to je pro jakoukoliv seriózní aplikaci fatální.

Konečně máme metr na selhání

Dlouho chyběl způsob, jak tuto chybu pořádně měřit. To se mění s příchodem benchmarků jako SwitchLingua. Jde o masivní dataset s více než 420 tisíci textovými vzorky a 80 hodinami audia, který je přímo navržený na testování code-switchingu napříč 12 jazyky.

Výsledky nejsou hezké. Průzkumy ukazují, že i nejlepší vícejazyčné modely ztrácejí při přepínání kódů až 15 % sémantické přesnosti. To znamená, že nerozumí významu. Čísla to potvrzují. Například open-source model Reverb ASR Spanglish dosáhl na testovacím datasetu chybovosti slov (WER) 29,16 %.

Pro srovnání, obecný model Whisper Large V3 měl na stejném úkolu horší výsledek 32,94 %. Je to jednoduchá metrika. WER v podstatě říká, kolik procent slov model spletl nebo vynechal. Nižší je lepší. I specializovaný model tedy chybuje skoro v každém třetím slově.

Architektura proti chaosu

Jak z toho ven? Hledají se nové architektury. Jedním ze směrů jsou takzvané Mixture-of-Experts (MoE) modely. Představte si to ne jako jednoho překladatele, ale jako tým specialistů. Jeden umí perfektně anglicky, druhý česky, třetí hlídá gramatiku.

Manažer (router) pak bleskově posílá části řeči tomu správnému expertovi. Je to flexibilnější než monolitický model, který se snaží umět všechno najednou. Další přístupy experimentují s mechanismy pozornosti (attention) a jazykovým „nasměrováním“ (biasing).

Budoucnost ale pravděpodobně leží v modelech, které kombinují přímé zpracování řeči s velkými jazykovými modely (speech-conditioned LLMs). Cílem je, aby model nejen přepisoval, ale skutečně rozuměl kontextu přímo z audia, včetně jemných fonetických změn signalizujících změnu jazyka.

Cesta k ASR, které zvládne reálnou lidskou mluvu, nevede přes marketingové slidy. Vede přes brutální inženýring, otevřená data a testování na skutečných, nedokonalých konverzacích. Přesně takových, jaké vedeme každý den.