AI kontrola webů a health claims pro NaturaMed – case study

O projektu

NaturaMed provozuje desítky produktových webů v Česku a na Slovensku. Ne každý v týmu má přehled o celém portfoliu a všech detailech. Při zadávání textů a nabídek může proto uniknout špatná formulace, nesedící nabídka nebo tvrzení, které pro produkt neplatí; stejně jako překlep na straně vývoje, tedy u nás. Abychom tomu zamezili, postavili jsme monitoring: Playwright načte web jako reálný prohlížeč, LLM porovná text s rubrikou claimů, jednou týdně projde všechny weby a pošle report. Opravu dělá člověk — systém má chybu odhalit dřív, než ji uvidí zákazník nebo regulátor.

Desítky webů a jedna špatná věta stačí

NaturaMed zastřešuje rozsáhlé portfolio produktových webů doplňků stravy, včetně českých i slovenských variant stejných značek produktů. Na každém webu jsou marketingové texty, nabídky, blogy, obchodní podmínky, meta popisy atd. U doplňků stravy platí přísná pravidla: co smíte říct o účincích, je definované skrz tzv. “EFSA claims”, a to podle složek obsažených v produktu.

U zhruba 50 webů a stovek URL nejde spoléhat na to, že „to někdo z marketingu určitě ví“. Firma je velká, týmy se specializují. Logicky nemá každý člověk přehled o všech produktových nabídkách, článcích, větách napříč odstavci a všech povolených formulacích najednou.

Dříve se kontrola spoléhala hlavně na ruční projíždění a reaktivní opravy. Chyby se často objevily až když něco nesedělo a stěžoval si zákazník, že na webu bylo něco uvedeno jinak. Pro koncového zákazníka jde o důvěru v produkt; pro NaturaMed o regulační riziko, ne jen o překlep.

Ročně jsme dedikovaných hodin na procházení textů a nabídek evidovali kolem 30 a dovedeme si představit, že na straně NaturaMed to bylo minimálně stejně tolik. A k chybám stejně docházelo.

Co má test odhalit dřív, než to uvidí zákazník

Cíl monitoringu je být druhá nekompromisní linie kontroly pro případ, že někde v průběhu od návrhu po implementaci se informace roztříští a skončí v produkci chyba.

Typické situace, které systém loví:

při návrhu nebo zadání textu unikne formulace, která nesmí být na webu (u doplňků nepovolený health claim, jinde právně nebo brandově problematický copy)
na webu je špatná cena nebo text, který pro daný produkt neplatí (vykopíruje se text z jiného produktu, v návrhu je text o jiném dárku, copy byl pouze hrubý nástřel)
překlep nebo technická chyba, třeba na straně vývoje při nasazení, špatná diakritika, český text na slovenské doméně
stránka „běží“, ale objednávka, popup nebo assety nefungují tak, jak má (to řeší i smoke testy na stagingu)

Monitoring web neopraví sám. Dává týmu pravidelný, auditovatelný seznam nálezů, aby se chyba nešířila týdny jen proto, že ji v daný moment nikdo z odpovědných lidí neviděl.

Prohlížeč si hraje na návštěvníka

Technický monitor neprovádí stažení statického HTML. Playwright (headless Chromium) načte stránku včetně JavaScriptu, stejně jako reálný návštěvník. Ze stránky se vytáhne viditelný text v zónách hlavička / obsah / patička, title, meta a nadpisy. Blogové články jdou přes API (např. /api/product-web/blog/articles), každá URL zvlášť. V kódu je pro každý web konfigurace.

Do promptu jde markdownový soubor pravidel daného produktu: povolená a zakázaná tvrzení podle složek. LLM přes OpenRouter vrátí strukturované nálezy se závažností. Výstup je konsolidovaný HTML report a e-mail, opravy končí v ticketovacím systému.

V produkci běží jednou týdně kontrola všech webů v portfoliu. Smoke testy a kontrola stagingu jsou samostatné Playwright scénáře (formuláře, cookies, překlepy, jazyk CZ vs. SK).

Zpočátku to vypadalo jako „jen porovnat text s pravidly“. Narazili jsme na škálu URL, CZ/SK varianty a na to, že claim musí sedět ke konkrétní složce, ne k obecné frázi na stránce. Proto vyhodnocení na hlavních stránkách běží na Gemini 3.1 Pro a na blogu na Gemini 3 Flash (obojí přes OpenRouter).

Human-in-the-loop je záměr: AI nezasahuje do produkčního CMS. Compliance a webový tým dostanou prioritizovaný seznam, rozhodnou co opravit, a každá oprava zůstane dohledatelná, včetně ticketů vzniklých „na základě AI checku“.

Co report označí a jak o tom informuje tým

Report není rozsudek. Je to interní checklist pro lidi: u každého bodu URL stránky, úryvek textu, popis problému, závažnost (info, menší, závažné, kritické) a krátké zdůvodnění vůči souboru pravidel daného produktu. Přijde e-mailem jako konsolidované HTML; podle priorit tým zadá úpravu do CMS.

Níže jsou kategorie problémů, se kterými se monitoring v praxi může setkat:

Silnější sloveso než povoluje pravidla. Typicky jde o „zvyšuje“ tam, kde smí být jen „podporuje“. Report ukáže přesné místo a navrhne směr úpravy.
Tvrzení mimo whitelist složky. Text slibuje účinek, který pro danou složku v pravidlech není, nebo používá obecnější formulaci než povolený seznam pro tu složku.
Neúplné povolené znění. U složky chybí doplnění do plné schválené formulace (např. u složky s povolenými tvrzeními o duševní výkonnosti a paměti doplnit kompletní větu z whitelistu, ne zkrácený popis).
Přehnaný nebo zdravotní slib. Formulace, která zní jako léčba nebo odkaz na nemoc; report ji označí vyšší závažností.
Meta a viditelný copy mimo hlavní obsah. Stejná pravidla platí pro title, meta description i text v nabídce nebo blogu. Právě tato místa jsou hůře odhalitelná lidskou kontrolou, protože by vyžadovali procházení zdrojového kódu.

Týdenní pokrytí portfolia místo náhodné kontroly

V současnosti se každý týden projdou všechny weby v monitoringu: homepage, nabídky, blogy a meta proti pravidlům claimů. Největší přínos není „méně hodin na opravách“ v každém měsíci (ten závisí na tom, kolik se na webech mění), ale že chyba v copy nebo nabídce nečeká na náhodu nebo na telefonát.

Provoz evaluace a infrastruktury je v praxi řádově 300 Kč měsíčně (tokeny OpenRouter, běh Playwrightu, Docker). Jeden bulk manuální test v roce 2024 stál 26,5 hodin, což je násobně víc než roční provoz automatické kontroly, i při seniorní hodinové sazbě.

Úspěch této automatizace tkví v kombinaci software na míru (Playwright, pravidla claimů, reporty, ticketovací systém) s LLM evaluací tam, kde pravidla existují, ale škálovat ruční kontrolu s velikostí firmy je neefektivní.

Trápí-li vás pravidelné chyby v běhu webu nebo textací, může být podobná služba optimálním řešením i pro vás. Na vzorku vašich stránek a pravidel lze projít, co monitorovat hned a co nechat na roadmapě, např. vizuální regrese layoutu nebo assert cen v nabídkách.

AI kontrola ecommerce webů