Existe-t-il un moyen d'empêcher Google d'indexer un site ?
Réponses
Trop de publicités?Robots.txt
User-agent: *
Disallow: /
cela bloquera l'indexation de tous les robots de recherche.
pour plus d'informations, voir : http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360
Je dois ajouter ma réponse ici, car la réponse acceptée est fausse.
Ma réponse est basée sur cette source : https://developers.google.com/webmasters/control-crawl-index/docs/getting_started
robots.txt
Le fichier contrôle le crawling, mais pas l'indexation ! Il s'agit de deux actions complètement différentes, exécutées séparément. Certaines pages peuvent être explorées mais pas indexées, et certaines peuvent même être indexées mais jamais explorées. Le lien vers la page non explorée peut exister sur d'autres sites Web, ce qui incitera l'indexeur de Google à le suivre et à essayer de l'indexer.
La question porte sur l'indexation, qui consiste à recueillir des données sur la page afin qu'elle soit disponible dans les résultats de recherche. On peut la bloquer en ajoutant une balise méta :
<meta name="robots" value="noindex" />
ou l'ajout d'un en-tête HTTP à la réponse :
X-Robots-Tag: noindex
Si la question porte sur le crawling, vous pouvez bien sûr créer robots.txt
et mettez les lignes suivantes :
User-agent: *
Disallow: /
Le crawling est une action réalisée pour rassembler des informations sur la structure d'un site web spécifique. Par exemple, vous avez ajouté le site via les outils pour webmasters de Google. Le crawler le prendra en compte et visitera votre site web, en recherchant robots.txt
. S'il n'en trouve pas, il supposera qu'il peut explorer n'importe quoi (il est très important de disposer de sitemap.xml
pour aider à cette opération, et spécifier les priorités et définir les fréquences de changement). S'il trouve le fichier, il suivra les règles. Après un crawling réussi, il lancera à un moment donné l'indexation des pages crawlées, mais vous ne pouvez pas dire quand...
J'espère qu'au moins quelques utilisateurs liront cette réponse, et qu'elle sera claire, car il est crucial de savoir ce qui se passe réellement.
Pour info, Google a un site Webmaster Tools qui vaut la peine d'être consulté . http://www.google.com/webmasters/start/
Google obéit à le site robots.txt fichier.