Le fichier Robots.txt

le fichier robots.txt

Si vous souhaitez que certaines de vos pages ne soient pas indexées :
Vous devez créer un fichier robots.txt, et le placer à la racine de votre site. Ce fichier va donner des indications aux moteurs sur ce qu'ils peuvent faire ou ne pas faire. Dès que le spider d'un moteur arrive sur un site (par exemple, http://www.monsite.net/), il recherche le robots.txt à l'adresse http://www.monsite.net/robots.txt, et s'il le trouve, il suit les indications qui y sont inscrites. Si ce fichier n'existe pas, il explore tout le site.

Le nom du fichier (robots.txt) doit toujours être écrit en minuscules. Il est composé ainsi :

User-agent: *
Disallow: /images/
Disallow: /articles/
Disallow: /perso/fiche.html

Explications :

L'étoile (*) signifie que la commande est valable pour tous les moteurs.
User-agent: * signifie que l'accès est accordé à tous les moteurs.

mais qu'ils ne peuvent explorer les répertoires
/images/
/articles/
ni le fichier
/perso/fiche.html.

La commande Disallow indique que tout ce qui commence par l'expression indiquée ne doit pas être indexé.

La description (User-agent, Disallow) peut être écrite en minuscules ou en majuscules.

Exemple de fichier "robots.txt" :
User-agent: dlmbot
Disallow: /

User-agent: *
Disallow: /perso/

L'agent dlmbot ne peut rien explorer. Tous les autres agents peuvent explorer l'ensemble du site, sauf le répertoire "perso".

Mauvais exemple :
User-agent: *
Disallow:

User-agent: MSNbot
Disallow: /perso/

Dans ce cas, le robot MSNbot s'arrêtera à la première ligne de commande qui concerne TOUS les robots et leur permet de tout voir, et n'atteindra jamais celle qui le concerne parce qu'elle est située plus bas. Le spider lit de haut en bas.

Ecrit le 28 février 2006

Haut de page