DeepSeek AI: Technická analýza architektury, která zpochybňuje dominanci GPT-4

Zatímco se všichni předhánějí v počtu parametrů a spálených megawattech, DeepSeek v tichosti optimalizuje. Jejich přístup k architektuře a tréninku ukazuje, že hrubá síla není jediná cesta k top výkonu. A čísla jim dávají za pravdu.

Válka o nejlepší velký jazykový model se zdála být hlavně o tom, kdo má hlubší kapsy na nákup GPU a placení účtů za elektřinu. Větší model, více dat, delší trénink. Mantra, kterou všichni opakovali. Jenže teď přichází DeepSeek a ukazuje, že to jde i jinak. Chytřeji.

Jádrem jejich úspěchu je architektura MoE (Mixture of Experts). Místo jednoho monolitického mozku, který musí umět všechno, si to představte jako tým úzce specializovaných expertů. Když přijde dotaz, systém ho nepošle všem, ale jen několika nejrelevantnějším. Výsledek? Z obřího 671miliardového modelu je v daný okamžik aktivních jen 37 miliard parametrů. To je masivní úspora výpočetního výkonu při zachování znalostí celku.

Další klíčovou technologií je DualPipe. Tohle je čistě inženýrská elegance. Běžně při tréninku GPU chvíli počítá (forward/backward pass) a pak čeká na data. Mrtvý čas. DualPipe tento proces optimalizuje tak, že překrývá fázi výpočtu s fází komunikace. V podstatě plní potrubí, aby se grafické karty ani na moment nezastavily. Efektivita především.

Nově se mluví také o metodě mHC (manifold-constrained Hyper-Connections). Zjednodušeně řečeno, jde o chytřejší způsob, jak propojit jednotlivé vrstvy neuronové sítě. Zajišťuje to mnohem stabilnější trénink, a to i u obřích modelů, bez obvyklých výkyvů a kolapsů. Umožňuje to škálovat bez dodatečných nákladů na „stabilizaci“.

Teď to nejdůležitější. Čísla. Trénink jejich 671B modelu stál zhruba 6 milionů dolarů, což odpovídá přibližně 2.8 milionu GPU hodin na čipech H800. Pro srovnání, odhady nákladů na trénink GPT-4 se pohybují mezi 50 a 100 miliony dolarů. DeepSeek dosáhl srovnatelného výkonu za zlomek ceny.

Není to jen levnější, je to i funkční. V benchmarcích na logické uvažování a psaní kódu se DeepSeek-V3 nejen vyrovná, ale v některých případech i překonává otevřené modely jako Llama a drží krok s uzavřenými systémy typu GPT-4. Nejde o kompromis mezi cenou a kvalitou, ale o optimalizaci obojího.

DeepSeek ukazuje, jak se staví AI s výkonem GPT-4 za desetinu ceny