Google zase čaruje s kompresí. TurboQuant je Pied Piper pro AI, ale tentokrát to funguje

Google zase čaruje s kompresí. TurboQuant je Pied Piper pro AI, ale tentokrát to funguje

Paměťová náročnost velkých jazykových modelů je brutální brzda. Google teď ale přichází s něčím, co by mohlo změnit pravidla hry – algoritmem TurboQuant. A ano, internet už to stihl překřtít na 'Pied Piper'. Tentokrát to ale vypadá, že to není jenom vtip.

Problém jménem KV Cache

Kdo se trochu vrtá v architektuře Transformerů, ví, že jedním z největších žroutů paměti je takzvaná Key-Value (KV) cache. Je to mechanismus, který si ukládá mezivýpočty z attention vrstev, aby je nemusel generovat znovu a znovu. Super věc pro rychlost.

Jenže má to háček. Čím delší kontext modelu dáváte, tím víc tahle cache bobtná. U modelů se stovkami tisíc tokenů v kontextovém okně se z ní stává monstrum, které sežere desítky gigabajtů VRAM. A to je problém. Velký.

Jak TurboQuant funguje? Žádné datové voodoo

Google na to jde chytře. TurboQuant je dvoufázový proces. První fáze je vcelku standardní kvantizace, která se snaží minimalizovat chybu (MSE-optimal). Nic nového pod sluncem. Ta pravá magie ale přichází ve druhé fázi.

Algoritmus vezme zbytkové chyby z první kvantizace a na ně aplikuje další, extrémně efektivní 1-bitovou kompresi pomocí techniky zvané Quantized Johnson-Lindenstrauss (QJL). Je to matematicky elegantní způsob, jak nacpat vysokodimenzionální data do mnohem menšího prostoru.

Nejlepší na tom je, že celý framework je „data-oblivious“. To znamená, že nepotřebuje žádné trénování ani ladění na konkrétních datech. Prostě to funguje. Z principu. To je z pohledu nasazení obrovská výhoda.

Výsledky? Překvapivě dobré

Když jsem si pročítal ten paper, čísla mě dostala. Mluvíme tu o 6x menší paměťové stopě pro KV cache. Z 16 bitů na kanál se dostali na zhruba 3 bity. A to vše při téměř nulové ztrátě přesnosti.

Otestovali to na modelech jako Llama-3.1-8B a Mistral-7B. V testu Needle-In-A-Haystack, který ověřuje schopnost najít informaci v dlouhém textu, dosáhli 100% úspěšnosti až do 104 tisíc tokenů. To je solidní.

Navíc, menší data znamenají rychlejší přesuny. Na GPU jako NVIDIA H100 to prý zrychluje samotný výpočet attention vrstvy až 8x oproti 32bitové verzi. To už nejsou drobná vylepšení.

Co to znamená v praxi

Zatím je to jen výzkumný papír, takže klid. Ale ty implikace jsou obrovské. Znamená to, že bychom mohli provozovat modely s masivním kontextovým oknem na dostupnějším hardwaru. Nebo na stejném hardwaru obsloužit mnohem víc uživatelů najednou.

Pro mě jako inženýra je to fascinující ukázka toho, že hrubá síla a víc VRAM nejsou vždycky jediná cesta. Někdy stačí jen chytřejší algoritmus. A přesně to TurboQuant je. Elegantní řešení reálného problému.