Web Crawler

Web Crawler (česky někdy robot nebo pavouk) je automatizovaný program, který systematicky prochází webové stránky, aby z nich shromažďoval data. Nejznámější využití mají vyhledávače, jako Google nebo Bing – jejich crawlery (např. Googlebot) procházejí internet, indexují obsah stránek a umožňují pak rychlé vyhledávání. Crawler čte HTML kód, sleduje odkazy na další stránky a postupně tak mapuje velké části webu.

V praxi se web crawlery nevyužívají jen pro vyhledávače, ale také v e-commerce (sledování cen konkurence), pro archivaci webu, analýzu odkazů, výzkum nebo monitoring obsahu. Jejich činnost lze regulovat pomocí souboru robots.txt nebo meta tagů, kterými webmaster určí, které části webu mohou být procházeny a indexovány. Důležitým aspektem je i etika a technická omezení – příliš agresivní crawling může zatěžovat server, proto se respektují pravidla o frekvenci požadavků (tzv. crawl rate).