
SiFive, podpořené Nvidií, získalo masivní valuaci. Nejde ale o peníze, ale o technologii pod kapotou. Architektura RISC-V a její vektorové instrukce slibují revoluci v efektivitě AI inference. Podívejme se na data.
Všichni známe x86 a ARM. Uzavřené světy, kde platíte za licence. RISC-V je pravý opak: otevřená instrukční sada. Není to čip, ale spíš kuchařka, podle které si může kdokoli navrhnout vlastní procesor. A SiFive je v tomhle pečení špička.
Jejich hlavní zbraní pro AI jsou vektorové extenze, konkrétně RISC-V Vector (RVV). Představte si to takhle: místo abyste procesoru říkali „sečti A a B, pak C a D…“, dáte mu příkaz „vezmi celý tenhle balík dat a zpracuj ho najednou“. Je to masivní paralelizace na úrovni instrukcí.
Nejsou to jen teorie. SiFive ukázalo na jádře Intelligence X390 až 45násobné zrychlení v TensorFlow Lite testech. To je působivé. Skeptik ale musí dodat, že srovnání probíhalo proti obyčejné skalární implementaci, ne proti optimalizovaným jádrům od ARM nebo Nvidie.
Ale jdou ještě dál. S Vector-Matrix Extension (VME) a technikou zvanou „tiling“ se zaměřují přímo na maticové operace, které jsou srdcem neuronových sítí. Místo zpracování obří matice najednou ji „nakrájí“ na menší díly, které se vejdou do rychlých registrů. Efektivita letí nahoru.
Optimalizace LLM modelů jako Llama na jejich hardwaru ale odhaluje i limity. Analýza kódu ukázala, že využití vektorových registrů bylo jen kolem 56 % a při menší délce vektoru docházelo k takzvanému „spillingu“. To je situace, kdy data přetékají z registrů do pomalejší paměti. Výkon trpí.
SiFive tak ukazuje obrovský potenciál otevřené architektury. Inženýrsky je to fascinující. Čísla z interních testů jsou slibná, ale chybí klíčový důkaz: přímé srovnání výkonu a spotřeby s aktuálními AI akcelerátory od Nvidie nebo specializovanými jádry v čipech od Applu a Qualcommu. Tam se teprve ukáže.