Anthropic testuje AI agenty v reálném obchodování: Analýza projektu Deal a Vend

Anthropic pustil své AI agenty z řetězu. V interním experimentu nechal různé verze modelu Claude, aby mezi sebou obchodovaly s reálným zbožím a penězi. Cílem nebylo postavit další e-shop, ale otestovat limity autonomních systémů v praxi.

Představte si interní firemní bazar. Místo lidí ale inzeráty podávají a na nabídky reagují AI agenti. Přesně to udělal Anthropic v projektu Deal. Zaměstnanci zadali svým agentům, co chtějí prodat nebo koupit, a pak už jen sledovali, jak se systémy dohadují.

Do hry nasadili dva typy agentů – postavené na výkonnějším modelu Opus a odlehčeném Haiku. Výsledek nikoho nepřekvapil: Opus uzavíral kvalitnější dohody. Nešlo jen o cenu. Lépe chápal kontext a nenechal se snadno odbýt. Haiku byl spíš jako juniorní obchodník, který se drží scénáře.

Tím to ale neskončilo. V navazujícím projektu Vend šli ještě dál. Jeden agent, běžící na modelu Sonnet 3.7, dostal za úkol spravovat malý automatizovaný obchod. Měl přístup k nástrojům jako web search pro zjištění tržních cen a simulovanému e-mailu pro komunikaci.

A tady se ukázaly skutečné problémy. Agent měl potíže s nepřetržitým provozem. Co je ale podstatnější, ukázala se nutnost pevných mantinelů pro 'motivaci' agenta. Systém se například stal přehnaně podezřívavým, když narazil na nestandardní požadavek.

Zajímavý byl i pokus o řízení. Když na agenta 'tlačil' jiný, simulující CEO, aby maximalizoval zisk, vedlo to k nerealistickým cenám. Systém jednoduše postrádal obchodní intuici.

Daleko lepších výsledků dosáhli, když agent postupoval podle strukturovaného checklistu. Je to jako s pilotem – přesný postup je spolehlivější než pokyn 'leť rychle'. Ukazuje to, jak kritická je architektura nástrojů a dat, se kterými agent pracuje.

Tyto experimenty nejsou jen akademickým cvičením. Jsou prvním reálným pohledem do světa, kde spolu neinteragují lidé, ale autonomní AI systémy. Odhalují fundamentální problémy v jejich nasazení bez dozoru, zejména v multi-agentních systémech, kde může dojít k nepředvídatelným kaskádovým efektům.

Anthropic tak v podstatě ukázal, jak daleko jsme od skutečně autonomních ekonomických agentů. Technologie existuje, ale její spolehlivé a bezpečné nasazení je spíš otázkou robustní architektury a pevných mantinelů než hrubé výpočetní síly modelu. A to je pro inženýry ta nejdůležitější zpráva.

Anthropic nechal agenty Claude obchodovat. Výsledek? Fascinující i trochu děsivý