Niv-AI: Řešení pro milisekundové špičky v datacentrech, které brzdí AI

Všichni mluví o tom, že pro AI budeme muset stavět nové jaderné elektrárny. To je sice chytlavá linka, ale skutečný problém je mnohem subtilnější a skrývá se v milisekundových špičkách, které paralyzují současnou infrastrukturu. Startup Niv-AI teď ukazuje, že řešení není v dalším betonu, ale v inteligenci.

Hlad po energii? Spíš záchvatovité přejídání

Debata o energetické náročnosti AI se zploštila na jediné číslo: terawatthodiny. Politici a CEO velkých firem se předhánějí v apokalyptických vizích o tom, kolik energie budou datacentra potřebovat. Já na to říkám: jasně, spotřeba je obří. Ale to je jen polovina příběhu. Ta druhá, mnohem zajímavější z inženýrského pohledu, se odehrává na úrovni racku a milisekund.

Představte si cluster s deseti tisíci GPU typu H100. V jednom okamžiku běží na volnoběh, v dalším dostanou pokyn k zahájení trénovací dávky. Výsledkem je naprosto brutální výkonová špička, která trvá jen zlomek sekundy. Elektrická infrastruktura datacentra – od PDU jednotek až po centrální UPS – musí být dimenzovaná právě na tento teoretický, maximální a současný odběr všech komponent. Musí.

Výsledek? Obrovská část kapacity, podle některých odhadů 30 až 50 procent, leží ladem. Je rezervovaná pro špičku, která nastane jen občas. Je to, jako byste si doma platili za gigabitový internet, i když 99 % času jen čtete e-maily. Plýtvání v masivním měřítku. Této nevyužité kapacitě se říká 'stranded power' a je to jeden z největších a nejméně sexy problémů současné AI akcelerace.

Měřit, předvídat, řídit

A tady na scénu přichází izraelský startup Niv-AI, který právě vylezl z úkrytu s dvanáctimilionovou investicí. Jejich přístup je geniálně přímočarý. Místo toho, aby se snažili problém řešit dalším hardwarem – většími jističi, masivnějšími bateriemi – jdou na to přes software a data.

Jejich systém instaluje na úrovni jednotlivých racků vysokofrekvenční senzory, které v reálném čase monitorují spotřebu. Nesbírají data v sekundových nebo minutových intervalech jako běžné systémy, ale v milisekundách. Tím získávají unikátní 'elektrický otisk prstu' pro každý typ AI workloadu. Vědí přesně, jak vypadá energetická křivka, když model provádí inferenci, a jak, když se trénuje na novém datasetu.

Na základě těchto dat pak jejich AI 'kopilot' dělá to nejdůležitější: predikuje. Dokáže předpovědět, že za pár desítek milisekund přijde masivní špička, a proaktivně zasáhne. Ne tak, že by omezil výkon GPU. Ale tak, že inteligentně rozloží zátěž v čase a napříč celým clusterem. Místo jedné obří vlny, která hrozí protržením hráze, vytvoří sérii menších, zvládnutelných vln. Je to v podstatě softwarově definované řízení datacentrové elektrické sítě.

Odemčení skrytého potenciálu

Čísla, která Niv-AI prezentuje, jsou působivá. Mluví o zpřístupnění až 30 % nevyužité kapacity. To v praxi neznamená jen úsporu nákladů. Znamená to, že do stávajícího datacentra, do stejné budovy se stejnou přípojkou, můžete umístit o desítky procent více výpočetního výkonu. A to je v době, kdy je každé GPU cennější než zlato a výstavba nového datacentra trvá roky, naprosto klíčové.

Celé je to skvělá ukázka toho, že největší pokroky často nepřicházejí z bombastických oznámení, ale z tiché, mravenčí práce na optimalizaci základů. Neřešíme tu osobnost chatbota. Řešíme fyziku a správu zdrojů. A to je, upřímně, mnohem podstatnější.

AI žere datacentra zevnitř. Problémem nejsou gigawatty, ale milisekundy.

Hlad po energii? Spíš záchvatovité přejídání

Měřit, předvídat, řídit

Odemčení skrytého potenciálu