SEO/Marketing

Crawler

Co je to crawler?

Crawler (někdy též spider nebo bot) je automatizovaný program, který systematicky prochází webové stránky, analyzuje jejich obsah a ukládá data do indexu vyhledávače. Představte si crawlera jako digitálního robota, který neustále putuje internetem, kliká na odkazy, čte texty, prohlíží si obrázky a zaznamenává vše důležité. Bez crawlerů by Google, Seznam nebo jiné vyhledávače neměly jak zjistit, co je na vašem webu nového, a vaše stránky by se ve výsledcích vyhledávání nikdy neobjevily.

Nejznámějším crawlerem je Googlebot – oficiální robot Googlu, který denně prochází miliardy webových stránek po celém světě. Seznam.cz používá SeznamBot, Bing má Bingbot. Každý crawler má svůj jedinečný „otisk" (user agent), podle kterého ho webový server rozpozná. Crawlery dodržují pravidla uvedená v souboru robots.txt, kde můžete určit, které části webu má robot indexovat a které ne.

Pokud chcete, aby váš web v Google vyskočil vysoko, musíte crawlerům usnadnit práci. Špatně navržený web může crawlerům bránit v indexaci důležitých stránek, což negativně ovlivní vaši viditelnost ve vyhledávání. Optimalizace pro crawlery je proto jednou ze základních disciplín SEO.

Jak crawler funguje?

Crawler začíná svou cestu na známých a důvěryhodných webech nebo na stránkách, které mu byly explicitně nahlášeny (například přes Google Search Console). Poté následuje všechny odkazy, které na stránce najde – prochází z úvodní stránky na podstránky, z podstránek na další odkazy, a tak dále. Tento proces se nazývá crawlování nebo procházení webu.

Když crawler dorazí na stránku, stáhne si její HTML kód, CSS soubory, JavaScript, obrázky a další zdroje potřebné k vykreslení stránky. Moderní crawlery jako Googlebot dokážou spouštět JavaScript a „vidět" stránku podobně jako uživatel v prohlížeči. Vytěžená data pak crawler pošle do indexu vyhledávače, kde je obsahová analýza zpracuje a přiřadí stránce relevanci pro různé vyhledávací dotazy. Více o indexování najdete v pojmu indexace.

Crawlery nenavštěvují všechny stránky stejně často. Důležitější a častěji aktualizované stránky (jako domovská stránka nebo blog s čerstvými články) jsou crawlovány častěji než statické podstránky. Každý web má tzv. crawl budget – limit zdrojů, které vyhledávač věnuje procházení vašeho webu. Pokud crawler narazí na desítky tisíc stránek s duplicitním obsahem nebo pomalým serverem, vyčerpá crawl budget dřív, než se dostane k opravdu důležitým stránkám.

Jak optimalizovat web pro crawlery?

  • Vytvořte a odešlete XML sitemapu

  • Sitemap je seznam všech stránek na vašem webu ve strukturovaném formátu. Crawler díky ní snadno najde všechny důležité URL adresy. Sitemapu nahrajte do Google Search Console a Seznam Webmaster Tools, aby roboti věděli, co mají indexovat.

  • Optimalizujte robots.txt

  • Soubor robots.txt říká crawlerům, které části webu mohou procházet a které ne. Blokujte administraci, duplicitní obsah nebo dynamické URL s parametry, které nepřinášejí hodnotu. Nezapomeňte však crawlerům povolit přístup k důležitým stránkám!

  • Zrychlete načítání stránky

  • Pomalý web znamená pomalé crawlování. Crawler má omezený crawl budget a pokud každá stránka trvá několik sekund, nestihne projít vše potřebné. Optimalizujte obrázky, použijte cache, zminifikujte CSS a JavaScript. Více tipů v článku o výkonu webu.

  • Používejte čistou vnitřní linkovou strukturu

  • Crawler prochází web pomocí odkazů. Pokud důležitá stránka není odnikud nalinkovaná, crawler ji pravděpodobně nenajde. Vytvářejte logickou hierarchii stránek a propojujte souvislý obsah interními odkazy s popisným anchor textem.

  • Opravte chyby 404 a přesměrování

  • Každý nalezený nefunkční odkaz (404) plýtvá crawl budgetem. Pravidelně kontrolujte mrtvé odkazy a nastavte vhodná 301 přesměrování pro odstraněné nebo přesunuté stránky.

  • Používejte kanonické URL

  • Jedna stránka může být dostupná na více URL adresách (např. s www a bez www, s lomítkem na konci i bez něj). Canonical tag říká crawlerům, která verze je ta primární, což zabraňuje duplicitnímu obsahu.

Crawl budget a jeho význam

Crawl budget je termín, který označuje množství stránek, které crawler navštíví na vašem webu v určitém časovém období. Google neprozradí přesné číslo, ale obecně platí: čím větší autorita a důvěryhodnost webu, tím vyšší crawl budget. Nové weby nebo weby s nízkou autoritou mají omezený crawl budget, což znamená, že jejich stránky nejsou crawlovány tak často.

Pokud máte menší web (do 1000 stránek), crawl budget obvykle není problém. Googlebot se k vašim stránkám dostane bez potíží. Ale u větších webů – e-shopů s tisíci produktů, zpravodajských portálů nebo velkých blogů – je optimalizace crawl budgetu kritická. Zbytečné stránky (filtrované výpisy, parametrizované URL, duplicitní obsah) plýtvají zdroji crawlera a důležité nové články nebo produkty se mohou do indexu dostat se zpožděním.

Jak ušetřit crawl budget? Blokujte v robots.txt nerelevantní stránky (např. košík, přihlášení, vnitřní vyhledávání). Používejte noindex meta tag na stránky, které nechcete v indexu. Opravte duplicitní obsah a zkonsolidujte podobné stránky. Odstraňte zbytečná přesměrování a řetězce redirectů. Rychlejší server a optimalizovaný kód také pomáhají – crawler projde více stránek za kratší čas.

Typy crawlerů a jejich účel

  • Googlebot (Google)

  • Nejrozšířenější crawler na světě, který indexuje obsah pro vyhledávač Google. Existuje ve dvou verzích – Googlebot Desktop a Googlebot Smartphone, přičemž mobilní verze je dnes primární (mobile-first indexing).

  • SeznamBot (Seznam.cz)

  • Crawler českého vyhledávače Seznam, významný hlavně pro weby cílící na český trh. SeznamBot má vlastní pravidla crawlování a preferuje weby s kvalitním českým obsahem.

  • Bingbot (Microsoft Bing)

  • Crawler vyhledávače Bing, druhého největšího globálního vyhledávače. Bingbot se chová podobně jako Googlebot, ale má vlastní algoritmy a pravidla indexace.

  • Specializované crawlery

  • Existují i crawlery pro specifické účely – Google Image Bot pro obrázky, AdsBot pro reklamy, nebo crawlery sociálních sítí (FacebookBot, TwitterBot) pro náhledy odkazů. Analytické nástroje jako Ahrefs nebo SEMrush mají vlastní crawlery pro SEO analýzu.

Nejčastější otázky o crawlerech

Jak často crawler navštíví můj web? Rozbalit

Záleží na autoritě webu, frekvenci aktualizací a crawl budgetu. Velké zpravodajské portály navštěvuje Googlebot několikrát denně, zatímco malé osobní weby možná jen jednou týdně nebo měsíčně. Nový nebo aktivně aktualizovaný obsah přitahuje crawlera častěji. Můžete si ověřit frekvenci crawlování v Google Search Console v sekci Crawl Stats.

Jak mohu požádat Google, aby znovu prošel mou stránku? Rozbalit

V Google Search Console najdete nástroj „Request Indexing" (Požádat o indexaci). Zadejte URL stránky, kterou jste aktualizovali nebo nově vytvořili, a Google ji přidá do prioritní fronty pro crawlování. Tato funkce je užitečná pro důležité změny nebo nový obsah, který chcete mít v indexu co nejdřív. Nezaručuje to okamžitou indexaci, ale urychluje proces.

Co dělat, když crawler ignoruje některé stránky? Rozbalit

Nejčastější důvody: stránka není nalinkovaná z žádné jiné části webu, je blokovaná v robots.txt, má noindex meta tag, nebo je příliš hluboko ve struktuře webu. Zkontrolujte, zda je stránka přístupná přes interní odkazy, ověřte robots.txt a ujistěte se, že nemá noindex. Přidejte URL do XML sitemapy a případně požádejte o indexaci v Search Console.

Jsou crawlery nebezpečné pro web? Rozbalit

Legitimní crawlery jako Googlebot jsou neškodné a nezbytné pro SEO. Existují však i škodlivé crawlery (malicious bots), které vytěžují obsah, hledají zranitelnosti nebo přetěžují server. Můžete je blokovat přes robots.txt, firewall nebo cloudové služby jako Cloudflare. Legitimní crawlery vždy respektují robots.txt a mají veřejně ověřitelný user agent.

Související pojmy