ElevenLabs Music v2: Technická analýza AI, co mění styl hudby za běhu

Není to jen další generátor „z textu na písničku“. Nový model Music v2 od ElevenLabs přináší granulární kontrolu, která připomíná spíš práci s audio stopami než mačkání tlačítka „generovat“. Klíčem je architektura, co umí přemalovat jen kousek zvuku.

Většina dnešních AI pro generování hudby funguje jako černá skříňka. Zadáte prompt a vypadne celá skladba. Pokud se vám nelíbí refrén, máte smůlu. Musíte generovat znovu a doufat v lepší výsledek. Frustrující.

ElevenLabs na to jde jinak. Jejich nový model zavádí koncept, který bychom mohli nazvat audio-inpainting. Představte si to jako retušovací štětec ve Photoshopu, ale pro zvuk. Můžete označit konkrétní sekci – třeba jen pár vteřin – a nechat AI přegenerovat pouze tento úsek s novým zadáním.

Zbytek skladby přitom zůstane naprosto netknutý. Tohle mění pravidla hry. Umožňuje to iterativní, postupný proces tvorby, který se mnohem víc blíží tomu, jak s hudbou pracují skuteční producenti. Není to jednorázový výstřel, ale dialog s modelem.

Technicky to napovídá, že model nepracuje s celou skladbou jako s jedním monolitem. Spíš ji chápe jako sekvenci bloků, podobně jako jazykové modely typu Transformer zpracovávají text po jednotlivých tokenech. Tato segmentace je základem pro granulární úpravy.

Nejdivočejší je ale funkce pro změnu stylu přímo uvnitř stopy. Můžete začít skladbu jako osmdesátkový synth-pop a v polovině plynule přejít do heavy metalového riffu. Model musí chápat nejen hudební teorii, ale i kontext a strukturu, aby takový přechod zněl přirozeně, a ne jako když se srazí dva vlaky.

Právě tato schopnost regenerovat jen vybrané části a dynamicky měnit žánr odhaluje pokročilou architekturu. Nejde o pouhé mapování textu na zvuková data. Model musí mít vnitřní reprezentaci hudebních prvků, jako je rytmus, harmonie a instrumentace, a umět s nimi manipulovat na lokální úrovni, aniž by rozbil celkovou koherenci.

AI od ElevenLabs skládá hudbu jako transformer a mění styl za běhu