robots.txt

robots.txt je standardizovaný textový soubor, kterým může web indikovat, u kterých stránek je nebo není žádoucí, aby je procházeli internetoví boti např. za účelem indexace skrze web crawler. Tento soubor se musí nacházet v kořenovém adresáři daného webu. Jeho syntaxi definuje RFC 9309.

Příklady

Uvedením následujícího textu v souboru robots.txt lze zakázat procházení webu všem vyhledávačům:

User-Agent: *
Disallow: /

Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin, /images, /tmp a /private:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Zakázaní Googlebotu procházet vše v adresáři /en:

User-Agent: Googlebot
Disallow: /en/

Alternativy

Parametr konkrétních odkazů

Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow" do každého z odkazů.

<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">

Metatag robots

Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.

<meta name="robots" content="nofollow" />

Sitemap.xml

Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.

Sitemap: http://www.example.org/sitemap/sitemap.xml

Zákaz procházení není zákaz indexace

Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.

Související články

Externí odkazy