Co je to robots.txt?
Robots.txt je jednoduchý textový soubor umístěný v kořenovém adresáři vašeho webu, který říká vyhledávačům (Google, Seznam, Bing a dalším), které části webu mohou procházet a indexovat a které ne. Představte si ho jako ceduli u vchodu do budovy, která ukazuje, kam mohou návštěvníci vstoupit a kam mají zákaz. Soubor se vždy nachází na adrese vasestranka.cz/robots.txt a jeho úkolem je řídit chování robotů vyhledávačů – tedy automatizovaných programů, které procházejí webové stránky a ukládají jejich obsah do databází vyhledávačů.
Robots.txt používá jednoduchý textový formát založený na direktivách (příkazech), které určují pravidla pro přístup. Tento soubor je součástí takzvaného Robots Exclusion Protocol – standardu, který respektují všichni seriózní vyhledávače. Je důležité si uvědomit, že robots.txt není bezpečnostní nástroj – je to pouze zdvořilá prosba k robotům. Slušné roboty (jako Google) ji respektují, ale zlomyslní hackeři nebo spam roboti ji mohou ignorovat. Proto nikdy nepoužívejte robots.txt k ochraně citlivých dat.
Pro většinu webů je robots.txt důležitý z hlediska SEO optimalizace. Pomáhá řídit, jak vyhledávače procházejí váš web, šetří jejich crawl budget (limit zdrojů, které vyhledávač věnuje vašemu webu) a zabraňuje indexování duplicitního nebo nepodstatného obsahu. Správně nastavený robots.txt může výrazně zlepšit, jak vyhledávače vnímají strukturu a obsah vašeho webu. Často obsahuje také odkaz na XML sitemap, který vyhledávačům usnadňuje orientaci.