Cerebras WSE-3: Analýza wafer-scale architektury pro AI

Start-up Cerebras, který se nedávno stal miláčkem burzy, byl léta na hraně krachu. Jejich sázka na jedinou kartu – postavit AI čip velký jako talíř – je buď geniální, nebo šílená. Pojďme se podívat na tu technologii, ne na akcie.

Problém jménem paměťová zeď

Klasické GPU clustery od Nvidie narážejí na fyzikální limit. Můžete mít seberychlejší výpočetní jádra, ale jsou vám k ničemu, když tráví většinu času čekáním na data. Je to jako mít michelinského kuchaře, který umí krájet rychlostí blesku, ale pro každou ingredienci musí posílat poslíčka do skladu na druhém konci města. Tomuto zdržení se říká paměťová zeď.

Nvidia to řeší stavěním stále větších a propojenějších „měst“ z GPU. Tisíce čipů propojených rychlými spoji jako NVLink. Cerebras na to jde úplně jinak. Místo města plného domů a silnic postavil jeden obří, soběstačný mrakodrap.

Jeden wafer vládne všem

Jejich Wafer-Scale Engine (WSE-3) je doslova to, co název napovídá. Není to čip. Je to celý křemíkový wafer, na kterém je vyleptán jeden jediný masivní procesor. Mluvíme o 4 bilionech tranzistorů, 900 000 AI jádrech a 44 GB superrychlé SRAM paměti přímo na waferu.

Ta SRAM je klíčová. Náš kuchař teď nemá sklad přes město, ale má všechny suroviny v lednici na dosah ruky. Latence pro přístup k datům je prakticky nulová, protože všechno se děje na jednom kusu křemíku. Žádné pomalé externí sběrnice, žádné čekání.

A co výrobní vady

Každý, kdo kdy slyšel o výrobě čipů, si teď musí klepat na čelo. Vyrobit takhle obrovský wafer bez jediného defektu je nemožné. Vždycky se tam najde pár „mrtvých pixelů“. A tady přichází ta chytrá část. Cerebras s tím počítá a zabudoval do architektury redundanci.

Na waferu je ve skutečnosti víc jader, než kolik jich specifikace uvádí. Při výrobě se jednoduše otestuje, která jádra jsou vadná, a software je permanentně odpojí a přesměruje komunikaci přes ta funkční. Je to jako v tom mrakodrapu – když praskne potrubí v jednom bytě, prostě ho zapečetíte a zbytek budovy funguje dál. Výtěžnost (yield) tak přestává být kritickým problémem.

Kde to dává smysl

Je WSE-3 zabiják Nvidie? Ne. Není to univerzální řešení. Pro spoustu menších úloh je flexibilita GPU clusteru lepší. Ale pro trénování jednoho obrovského jazykového modelu, který se musí celý vejít do paměti a vyžaduje masivní datové přesuny, je architektura Cerebrasu brutálně efektivní.

Jejich systém také exceluje v takzvané „sparsity“. To je schopnost hardwaru ignorovat násobení nulou v maticích, což je v AI výpočtech běžné. Místo aby počítal 5 * 0 = 0, prostě ten výpočet přeskočí. Šetří to čas i energii.

Cerebras není jen další výrobce AI čipů. Je to sázka na úplně jinou filozofii architektury. Zda se jim podaří prorazit proti zavedenému ekosystému Nvidie, je otázka. Ale z čistě technického a inženýrského hlediska je to fascinující kus hardwaru.

Cerebras a jeho wafer-scale monstrum: Inženýrský zázrak, nebo jen sázka proti Nvidii

Problém jménem paměťová zeď

Jeden wafer vládne všem

A co výrobní vady

Kde to dává smysl