robots.txt
robots.txt
je standardizovaný textový soubor, kterým může web indikovat, u kterých stránek je nebo není žádoucí, aby je procházeli internetoví boti např. za účelem indexace skrze web crawler. Tento soubor se musí nacházet v kořenovém adresáři daného webu. Jeho syntaxi definuje RFC 9309.
Příklady
Uvedením následujícího textu v souboru robots.txt
lze zakázat procházení webu všem vyhledávačům:
User-Agent: * Disallow: /
Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin
, /images
, /tmp
a /private
:
User-Agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
Zakázaní Googlebotu procházet vše v adresáři /en
:
User-Agent: Googlebot Disallow: /en/
Alternativy
Parametr konkrétních odkazů
Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow"
do každého z odkazů.
<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">
Metatag robots
Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.
<meta name="robots" content="nofollow" />
Sitemap.xml
Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.
Sitemap: http://www.example.org/sitemap/sitemap.xml
Zákaz procházení není zákaz indexace
Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt
, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.
Související články
Externí odkazy
- Obrázky, zvuky či videa k tématu Protokol pro zakázání přístupu robotům na Wikimedia Commons
- Vysvětlení na Jakpsatweb.cz
- Vysvětlení (en)
- Validace správnosti zapsání robots.txt Archivováno 18. 1. 2007 na Wayback Machine.
- Jak správně zapsat soubor robots.txt?
- Soubor robots.txt: základní příručka
- Použití atributu rel="nofollow" Archivováno 28. 10. 2020 na Wayback Machine.