Konference AI ve veřejné správě

AI spolumoderátorka Holly
  • Vývoj
  • AI
Konference AI ve veřejné správě

O projektu

Počátkem roku 2024 oslovil Jihočeský kraj Anycoders jako technického partnera celostátní konference „AI ve veřejné správě“. V regionu bylo minimum společností, které by si poradily s tehdy relativně novou disciplínou vývoje AI nástrojů a zvládly by provoz takového software v živém sále před úředním publikem. A tak už třetím rokem vyvíjíme Holly, virtuální moderátorku, která prošla od hlasového řetězce přes kontext přednášek až po fotorealistického avatara se streamingem, RAG a aplikací pro návštěvníky.

Konference, která posouvá AI ve veřejné správě

Jihočeský kraj přišel s velmi progresivní myšlenkou — celostátní konferencí „AI ve veřejné správě“, která propojuje úředníky, experty a praxi v jednom sále. Za poslední tři ročníky se akce etablovala mezi těmi, které v republice skutečně posouvají smysluplné zavádění AI do veřejné správy. To je podle nás obdivuhodné a jsme rádi, že u toho od prvního ročníku můžeme být.

Konferenci pořádá kraj ve spolupráci s agenturou P1. My dodáváme Holly — virtuální moderátorku, která pomáhá s průběhem programu, reaguje na dotazy z publika a s každým ročníkem nabírá nové schopnosti. Holly roste spolu s akcí: od hlasového řetězce v sále přes kontext přednášek až po fotorealistického avatara, RAG a aplikaci pro návštěvníky.

První ročník — Holly odpovídá hlasem v rušném sále

První verze Holly měla za úkol doplňovat moderátora a reagovat na něj, hlavně na obecnější témata k AI a konferenci. Interagovalo s ní i publikum — včetně nevyzpytatelných otázek — proto jsme ladili tón odpovědí, aby působily uvolněně, ale nepřivedly do rozpaků účinkující ani publikum.

Hlavní výzvou první verze bylo, aby Holly zvládla odpovídat bez trapné prodlevy.

  1. Otázka jde z mikrofonu
  2. Uloží se nahrávka
  3. Systém ji přepíše na text
  4. Odešle do LLM
  5. Čeká se na odpověď
  6. ElevenLabs ji převede na přirozený hlas
  7. Stopa se přehrává výstupem ke zvukaři

A tam přichází hlavní zádrhel - live event v Alšově galerii v Hluboké, kde absolutní maximum je internet přes 5G modem u technického týmu. Pro optimalizaci Holly měla panel pro aktivaci a deaktivaci naslouchání a ruční textové zásahy při výpadku. Ty naštěstí byly třeba v minimu případů, ale průměrná doba od domluvení speakera po začátek přehrávání odpovědi byla tehdy kolem 9 sekund, což bylo “na hranici” — odpověď vznikala až hotová, ne průběžně po slovech.

Druhý ročník — Holly se ptá i vidí

Druhý ročník přidal kontext přednášek: během programu jsme nahrávali a zpracovávali průběh v sále. Holly tak nemusela jen odpovídat — dokázala klást relevantní otázky navazující na to, co právě zaznělo.

Technicky to byl jasný posun vpřed. V programu ale nebylo tolik volných momentů, kolik by nové schopnosti chtěly — live konference má svůj rytmus a občas musí počkat i dobrá technologie. Holly se v roli spolumoderátorky ukázala spíš okrajově; na další ročník jsme si odnesli spíš postřeh než zklamání: AI na pódiu potřebuje i prostor v dramaturgii.

Holly vidí: na večerní program jsme připravili rozpoznávání obrazu z webkamery — Holly dokázala popsat, co vidí v záběru. Stejný příběh — připraveno, ale tentokrát zase chybělo pár vhodných momentů ve scénáři. Užitečná lekce: ne všechno, co umíme nasadit, se v prvním roce provozu stihne ukázat.

Třetí ročník — avatar, RAG a dotazy z aplikace

Největší skok vpřed propojil pódium, data a návštěvníky v mobilu:

  • Fotorealistický avatar Holly na velké obrazovce — podoba dlouho laděná
  • Rychlejší odezva — průměrná doba od domluvění speakera po začátek přehrávání klesla z 9 s (1. ročník) na cca 2,5 s (3. ročník), protože systém už zpracovává řeč průběžně (streamuje). To je zhruba 70% zrychlení oproti prvnímu ročníku
  • RAG nad neveřejnými podklady shromážděnými před konferencí — program, řečníci, briefy. Holly nečerpá jen z volného internetu.
  • Aplikace pro návštěvníky — průvodce programem, chat s Holly, sběr dotazů pro přednášející. Holly vybírá a formuluje nejlepší dotazy pro pódium — v 3. ročníku jich prošlo přes aplikaci více než 50.

Holly se opravdu povedla, aplikace fungovala perfektně a interakce s moderátorem Davidem Hocke byla přirozená.

— z oficiálního příspěvku na LinkedIn účtu Krajského úřadu Jihočeského kraje

Tři ročníky — tři postřehy

Každý ročník nás dovedl překvapit a vytrestat nepřipravenost na nečekaný detail. Zjistili jsme, že:

  • Nejdřív musí fungovat audio, latence a konektivita — teprve pak dává smysl RAG nebo avatar
  • Inteligenci kontextu je potřeba domluvit i v dramaturgii programu, ne jen v kódu
  • Holly funguje nejlíp jako spolumoderátorka s human-in-the-loop — ne náhrada člověka na pódiu

Sebelepší technologie sama nespasí nic. Potřebuje stále schopné lidi jako obsluhu a uživatele. A Holly dokázala ukázat i nám v mnoha situacích, že člověka nenahradí AI plně nikdy. Protože až v rukou moderátora 3. ročníku Davida Hockeho využívala svůj potenciál, a to díky tomu, že věděl, jak Holly funguje a co umí. 

A v principu stejné výzvy jako jsme řešili my, technický tým konference a moderátor řeší s AI malé i velké firmy, úřady, školy a další instituce. Naštěstí tyto výzvy mají svá řešení. 

Medvěd lední

Jste připraveni prozkoumat možnosti digitálního světa?