Varya AI: Technický rozbor destilovaného video modelu

Na trh s generativním videem vstupuje indická Avataar AI s modelem Varya. Nesnaží se stavět gigantickou neuronku od nuly, místo toho vsadila na brutální optimalizaci a destilaci existující architektury. Výsledky na papíře vypadají neuvěřitelně.

Destilací k efektivitě

Základem Varya je čínský open-source model Wan 2.2 od Alibaby. Místo aby ho Indové jen tupě nasadili, sáhli po technice zvané destilace modelu. Je to v principu jednoduché. Máte obrovský, pomalý „učitelský“ model (Wan 2.2) a vedle něj postavíte mnohem menšího a agilnějšího „žáka“ (Varya).

Žáka pak netrénujete na surových datech, ale učíte ho napodobovat výstupy učitele. Je to jako když se student učí na zkoušku jen ze starých, vyřešených testů od profesora. Nepochopí celou hloubku teorie, ale naučí se bleskově dávat správné odpovědi. Výsledkem je dramaticky menší a rychlejší model.

Z 50 kroků na 4

Největší technický skok je v počtu inferenčních kroků. Zatímco původní Wan 2.2 potřebuje zhruba 50 cyklů pro zpřesnění a vygenerování videa, Varya si údajně vystačí se čtyřmi. Dva kroky prý slouží k hrubému „načrtnutí trajektorie“ a dva finální k vykreslení snímků.

To se masivně propisuje do rychlosti. Pětisekundový klip v 720p rozlišení má Varya na hardwaru Nvidia H200 generovat za 45 sekund. Původní model na to potřeboval přes 1200 sekund. To je 27krát rychlejší inferenční čas při zachování stejného základu o 14 miliardách parametrů.

Technický žargon a realita

Avataar se v materiálech ohání termíny jako „role-aware supervision“ nebo „distribution-matching distillation“. To jsou v zásadě techniky, které mají během destilace zabránit tomu, aby se kvalita výstupu úplně nerozpadla. Mají stabilizovat generování a udržet vizuální koherenci.

Tady je ale potřeba brzdit. Všechny tyto benchmarky a čísla pocházejí čistě od Avataar AI. Neexistují žádné nezávislé testy a technický report s detaily architektury teprve má být zveřejněn. Skeptický inženýr by řekl, že si musíme počkat na reálné nasazení.

Cena jako benchmark efektivity

I přes absenci nezávislých testů je zajímavé sledovat cenu jako měřítko výpočetní efektivity. Avataar cílí na ₹0.48 (asi 0.005 USD) za sekundu generovaného videa. To je řádově méně než u konkurence jako Google Veo nebo Kling, kde se ceny pohybují spíše kolem deseti centů za sekundu.

Ta čísla nejsou marketing. Jsou přímým odrazem toho, kolik výpočetního výkonu a času model spotřebuje. Varya tak není revolucí v základech AI, ale spíše ukázkou extrémní inženýrské optimalizace. Ukazuje, že cesta vpřed není jen ve stavbě stále větších modelů, ale i v jejich chytré kompresi.

Indická AI Varya drtí konkurenci cenou. Klíčem je destilace modelu

Destilací k efektivitě

Z 50 kroků na 4

Technický žargon a realita

Cena jako benchmark efektivity