Robots.txt

robots.txt is een computerbestand en een standaard om er voor te zorgen om bepaalde webspiders toegang te kunnen ontzeggen tot een webpagina of een hele website. Ook kunnen ermee delen van een website afgeschermd worden voor webspiders, maar ook zoekrobots.


User-agent
De User-agent is de naam van de zoekmachine spider. Met behulp van deze naam kun je een specifieke zoekmachine spider blokkeren.

User-agent: googlebot

Wil je echter dat de voorwaarden in de robots.txt voor alle zoekmachine gelden dan kun je gebruik maken van een wildcard.

User-agent: *

Disallow
Per User-agent kun je aangeven wat de zoekmachine niet mag doen via de disallow regel.

Disallow voor een bestand:
Disallow: email.htm
 
Disallow voor een complete folder:
Disallow: /cgi-bin/

Commentaar
Alle regels met een # ervoor wordt gezien als commentaar. Hierbij kun je voor jezelf een aantal regels verduidelijke in je eigen woorden. Echter een veel voorkomende fout is het plaatsen van commentaar op dezelfde regel.

Disallow: bob #commentaar

Veel zoekmachines zullen dit lezen als het niet mogen indexeren van bob#commentaar. Zorg dat alstijd dat het commentaar op een andere regel staan.

#comment
Disallow: bob

Geen robot

User-agent: *
Disallow: /

Meta name="robots"

Via de Meta informatie is het mogelijk om de crawler te besturen.

De commando's die je mee kunt geven zijn: index,noindex,follow en nofollow.

index/noindex geeft aan of de crawler de huidige pagina op mag nemen in de database van de zoekmachine.

follow/nofollow geeft aan of de spider via alle links op de website verder mag zoek binnen je website of juist niet.

Robots meta voorbeelden:

<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">