Web scraping (někdy také "vytěžování dat z webu") je automatizovaný proces, při kterém softwarový robot (bot nebo "scraper") systematicky prochází webové stránky a extrahuje z nich specifické informace. Místo toho, aby člověk ručně kopíroval data z desítek nebo tisíců stránek, scraper tento proces provede během zlomku času. Výsledkem je obrovské množství strukturovaných dat, která lze dále analyzovat a využívat.
Tato technika se používá pro širokou škálu účelů. Zbožové srovnávače pomocí scrapingu stahují ceny produktů z e-shopů, marketingové agentury monitorují zmínky o klientech v médiích, datoví analytici sbírají podklady pro své modely a firmy sledují cenovou politiku konkurence. Scraper v podstatě simuluje lidského návštěvníka, ale místo zobrazení stránky si uloží její HTML kód a z něj si "vyzobe" jen ty informace, které ho zajímají.
Ačkoliv je web scraping extrémně mocný, jeho použití je často kontroverzní. Mnoho webových stránek ve svých obchodních podmínkách automatizované stahování dat zakazuje. Příliš agresivní scraping také může přetížit a zpomalit cílový server, čímž poškozuje jeho provozovatele. Etické a legální použití této techniky proto vyžaduje respektování pravidel daného webu (např. souboru robots.txt
) a technické ohleduplnosti, aby nedošlo k jeho poškození.