Si vous souhaitez
que certaines de vos pages ne soient pas indexées :
Vous devez créer un fichier robots.txt, et le placer à la racine de votre
site. Ce fichier va donner des indications aux moteurs sur ce qu'ils peuvent faire ou ne
pas faire. Dès que le spider d'un moteur arrive sur un site (par exemple, http://www.monsite.net/),
il recherche le robots.txt à l'adresse http://www.monsite.net/robots.txt, et s'il
le trouve, il suit les indications qui y sont inscrites. Si ce fichier n'existe pas, il
explore tout le site.
Le nom du fichier (robots.txt) doit toujours être écrit en minuscules. Il est
composé ainsi :
User-agent: *
Disallow: /images/
Disallow: /articles/
Disallow: /perso/fiche.html
Explications :
L'étoile (*) signifie que la commande est valable pour tous les moteurs.
User-agent: * signifie que l'accès est accordé à tous les moteurs.
mais qu'ils ne peuvent explorer les répertoires
/images/
/articles/
ni le fichier
/perso/fiche.html.
La commande Disallow indique que tout ce qui commence par l'expression indiquée
ne doit pas être indexé.
La description (User-agent, Disallow) peut être écrite en minuscules ou en
majuscules.
Exemple de fichier "robots.txt" :
User-agent: dlmbot
Disallow: /
User-agent: *
Disallow: /perso/
L'agent dlmbot ne peut rien explorer. Tous les autres agents peuvent explorer l'ensemble
du site, sauf le répertoire "perso".
Mauvais exemple :
User-agent: *
Disallow:
User-agent: MSNbot
Disallow: /perso/
Dans ce cas, le robot MSNbot s'arrêtera à la première ligne de commande
qui concerne TOUS les robots et leur permet de tout voir, et n'atteindra jamais celle qui
le concerne parce qu'elle est située plus bas. Le spider lit de haut en bas.
Haut de page
|