Gimlet Labs: Softwarová revoluce v AI inferenci s heterogenním hardwarem

Další startup, co slibuje 10x zrychlení inferencí? Jasně, slyšíme to pořád. Jenže přístup Gimlet Labs je jiný. Nesnaží se postavit další čip, ale inteligentní softwarovou vrstvu, která konečně naučí různorodý hardware spolupracovat.

Problém jménem inference

Když se mluví o AI, většinou se řeší trénink. Obrovské modely, týdny na clusterech. Jenže reálný provoz, to je inference. A tady, speciálně u agentických AI systémů, narážíme na zeď. GPU jsou skvělé na masivně paralelní úlohy, ale inference je často o latenci. Potřebujete rychlou odpověď, ne zpracovat gigantický dataset.

Agentické smyčky se skládají z mnoha malých, sekvenčních a na paměť náročných operací. Házet na to další a další H100 je jako jezdit s kamionem pro rohlíky. Jde to, ale je to neuvěřitelně neefektivní a drahé. A přesně tady vidím příležitost pro Gimlet.

Softwarový dirigent pro hardwarový orchestr

Jádrem pudla je u Gimlet Labs jejich softwarový stack. Ten má dvě klíčové části. První je inteligentní orchestrátor, který dokáže AI workload rozložit na menší části a každou z nich poslat na ten nejvhodnější kus křemíku, který je zrovna k dispozici.

Prefill fáze, která je výpočetně náročná? Tu dostane GPU. Následné spekulativní dekódování, které je memory-bound? To pošle na specializovaný akcelerátor postavený na SRAM, jako je třeba Corsair od d-Matrix. Tohle je zásadní. Přestáváme se bavit o homogenních farmách a přecházíme k heterogenní, účelové architektuře.

Druhou a možná ještě důležitější součástí je jejich univerzální kompilátor postavený na MLIR. Ten slibuje abstrakci hardwaru. Cílem je zlomit závislost na proprietární CUDA. Možnost vzít výpočetní graf a zkompilovat ho pro různý hardware bez manuálního přepisování je svatý grál, o který se snaží všichni. Gimlet na to jde zostra.

AI, která píše kód pro jinou AI

Nejvíce mě ale zaujal jejich výzkum autonomní generace kernelů. Místo toho, aby inženýři ručně optimalizovali nízkoúrovňový kód pro každý nový typ akcelerátoru, nasadí na to AI agenta, který vygeneruje a optimalizuje kernel přímo pro cílový hardware.

Na jedné z prezentací ukázali, jak takový agent dokáže vzít standardní PyTorch kód a vygenerovat pro něj optimalizované operace, které dosahují zrychlení o 24 až 40 % proti baseline Torch Compile. Tohle je obrovská věc. Dramaticky to snižuje bariéru pro adopci nového, non-GPU hardwaru.

Partnerství s d-Matrix ukazuje, že to není jen teorie. Spojení GPU a jejich SRAM-centric čipů přes software od Gimlet Labs má přinést desetinásobné zlepšení latence a propustnosti na watt. To už nejsou marketingové sliby, to jsou tvrdá data plynoucí z konkrétní architektury. A to mě jako inženýra zajímá mnohem víc než valuace firmy.

Gimlet Labs staví mozek pro AI hardware. Cíl? Konec nadvlády GPU

Problém jménem inference

Softwarový dirigent pro hardwarový orchestr

AI, která píše kód pro jinou AI