Le fichier robots.txt permet d'indiquer aux outils de recherche de ne pas indexer certaines parties de votre site. Ce fichier texte doit être présent à la racine de votre site Web.
Exemple:
User-Agent: *
Disallow: /repertoire/
Disallow: /repertoire/page.html
# Ligne de commentaire
User-agent: googlebot
Disallow: /
User-Agent: indique quel robot est concerné par les lignes d'instruction suivante.
(* Pour tous les robots)
Disallow: Indique quel page ou repertoire ne doit pas être indexer.
# Est une ligne de commentaire et ne sera pas interprétée.
Vous pouvez aussi indiquer aux robots quels pages ils doivent indexer, avec la balise meta robots.
A placer entre les balises <head> et </head> de votre page.
Le robot indexe tout (par défaut):
<meta name="robots" content="all">
Le robot n'indexe rien du tout:
<meta name="robots" content="none">
Votre page est indexée:
<meta name="robots" content="index">
Votre page n'est pas indexée mais il suivra les liens de cette page:
<meta name="robots" content="noindex">
Le robot récupère les liens de votre page pour les référencer plus tard:
<meta name="robots" content="follow">
Le robot ne récupère pas les liens de votre page:
<meta name="robots" content="nofollow">