Nvidia GTC 2026: Architektury Rubin a Feynman, 5000W čipy a budoucnost AI infrastruktury

Nvidia se chystá na GTC 2026 odhalit rovnou dvě nové architektury, Rubin a Feynman. Slíbené zrychlení a zlevnění AI má ale svoji cenu. Mluví se o 5000W čipech, kapalinovém chlazení a napájení, které si vyžádá kompletní přestavbu datových center.

Dvě architektury místo jedné

Sotva jsme stihli vstřebat specifikace architektury Blackwell, Nvidia už na nás chystá další nálož. A ne jen jednu. Na GTC 2026 se má mluvit rovnou o dvou nástupcích. Hlavní hvězdou bude architektura "Vera Rubin", která má logicky nahradit Blackwell. Cílem je, jako vždy, masivní nárůst výkonu v AI, který by měl v praxi znamenat potřebu menšího počtu GPU pro stejné úlohy a tím pádem i snížení nákladů. To zní skvěle.

Jenže pak je tu ještě "Feynman". Spekuluje se, že by mohlo jít o první vzorky postavené na 1.6nm procesu od TSMC. Osobně si myslím, že jde spíš o testovací platformu, způsob, jak si Nvidia osahává hranice nových výrobních procesů a zajišťuje si dominanci na roky dopředu. Dvě architektury v jednom roce? To je tempo, kterému konkurence jen stěží může stačit. Ukazuje to, jak moc je celý trh posedlý výkonem a jak krátký je dnes životní cyklus hardwaru v AI.

Fyzika se nedá ošálit: Napájení a chlazení

Tady končí marketing a začíná strojařina. Mluví se o TDP přesahujícím 5000W na jeden čip. To je šílené číslo. Zapomeňte na vzduchové chlazení. Kapalinové chlazení se stává absolutní nutností, a to nejen pro GPU, ale pro celý rack. Mluví se o materiálech jako diamantové teplovodivé pasty (TIMs) pro efektivní přenos takového masivního tepla.

Ještě zásadnější je ale napájení. Údajně se přechází na 800V HDVC (High Voltage DC). Pro představu, současné systémy jedou na 48V. Zvýšení napětí snižuje proudové ztráty v rozvodech, ale zároveň klade extrémní nároky na design desek plošných spojů, konektorů a celkovou bezpečnost. Mluví se o M9-grade skleněných substrátech a PCB s více než 50 vrstvami. Tohle není evoluce, to je kompletní přestavba infrastruktury datového centra. Fyzikální limity jsou neúprosné.

Propojení je všechno

Výkon samotného čipu je jen polovina úspěchu. Tou druhou je schopnost efektivně propojit stovky nebo tisíce takových čipů dohromady. Nová generace má přinést propojovací rychlosti až 1.5 PB/s pro klastry o 144 GPU. To je astronomické číslo, které si vyžádá nasazení CPO (Co-Packaged Optics), tedy integraci optických převodníků přímo na substrát čipu. Latence je nepřítel a CPO je jedním ze způsobů, jak ji minimalizovat.

Nové systémy jako Rubin Ultra NVL576 a SerDes standardy jako 448G PAM4 jsou dalšími dílky skládačky. Vše směřuje k tomu, aby bylo možné stavět ještě větší a komplexnější MoE (Mixture of Experts) modely a zpracovávat obrovské datové toky pro audio a video v reálném čase. Bez brutálně rychlého interconnectu by i ten nejrychlejší čip byl k ničemu.

A co inference?

Trénink je jedna věc, ale reálné nasazení modelů (inference) je to, co nakonec generuje hodnotu. Tady přichází do hry spekulace o akvizici firmy Groq a integraci jejich LPUs (Latency Processing Units). Nvidia zjevně chápe, že pro agentické systémy a low-latency aplikace potřebuje specializovaný hardware. Nové LPX racky, osazené až 256 LPU, mají být odpovědí právě na tuto potřebu.

Zajímavě zní i varianta CPX – má jít o verzi Rubinu s paměťmi GDDR7, optimalizovanou pro "prefill" fázi u modelů s dlouhým kontextem. Nvidia tak evidentně diverzifikuje své portfolio a snaží se pokrýt celý životní cyklus AI modelu, od tréninku přes finetuning až po ultra rychlou inferenci. Je to komplexní, promyšlená strategie. A my se na GTC dozvíme, jak moc z toho je realita a jak moc dobře cílený hype.