Analýza: Proč paměťová zeď (memory wall) brzdí AI a jak to řeší memory-centric computing (XCENA, CXL)

Všichni mluví o výkonu GPU, ale skutečný problém AI leží jinde. Je to pomalé tahání dat z paměti, které brzdí i ta nejrychlejší jádra. A řešení není víc teraflops, ale úplně jiná architektura.

Konec éry hrubé síly

Už dekády stavíme počítače stejně. Procesor (CPU/GPU) sedí na jedné straně a paměť (DRAM) na druhé. Když procesor něco chce, musí si pro data doběhnout do paměti. A zase zpátky. Pořád dokola. Tomuto principu se říká von Neumannova architektura.

Až donedávna to fungovalo. Ale u AI narážíme na strop. Představte si špičkového kuchaře (GPU), který umí krájet neuvěřitelnou rychlostí. Jenže pokaždé, když potřebuje sůl nebo pepř, musí běžet přes celou restauraci do skladu (DRAM). Jeho rychlost je k ničemu. Většinu času stráví na cestě.

Tomuhle se v praxi říká „paměťová zeď“ (memory wall). Přesuny dat mezi čipem a pamětí spotřebovávají absurdní množství energie a hlavně času. U obřích jazykových modelů se z toho stává hlavní brzda celého systému. Latence roste, efektivita klesá.

Chytrost místo rychlosti

Firmy jako XCENA proto obrací logiku naruby. Místo aby se snažily postavit ještě rychlejšího kuchaře, dávají mu malou přípravnu přímo vedle prkénka. A to je princip „memory-centric computing“, neboli zpracování blízko dat.

Nejde o to nahradit GPU. Jde o to odlehčit mu od otravné, repetitivní práce. Jednoduché operace, které se v AI neustále opakují, se nemusí posílat přes půl serveru do hlavního procesoru. Místo toho je zpracuje menší, specializovaný čip, který sedí přímo u paměti.

Existují dva hlavní přístupy. Near-memory computing umístí výpočetní logiku fyzicky co nejblíže k paměťovým modulům. Druhý, radikálnější přístup, je processing-in-memory (PIM), kde se výpočty dějí přímo uvnitř paměťových buněk. To druhé je zatím spíš ve fázi výzkumu.

K čemu je dobrý CXL

Klíčovou technologií, která tohle všechno umožňuje v reálném světě, je Compute Express Link (CXL). Zjednodušeně řečeno, je to moderní, superrychlá „dálnice“, která umožňuje procesorům, akcelerátorům a pamětem komunikovat mnohem efektivněji než dřív.

Díky CXL mohou specializované čipy, jako je ten od XCENA, přistupovat k systémové paměti skoro jako by byly součástí hlavního procesoru. Už žádné pomalé objížďky. To otevírá dveře pro heterogenní systémy, kde každý dělá to, co umí nejlépe, a nezdržuje ostatní. Budoucnost AI výkonu tak možná neleží v dalším zdvojnásobení jader, ale v chytrém odstranění úzkých hrdel.