J'ai une question sérieuse. Est-il jamais éthique d'ignorer la présence d'un fichier robots.txt sur un site web ? Voici quelques-unes des considérations qui me viennent à l'esprit :
-
Si quelqu'un met en place un site web, il s'attend à des visites. Il est vrai que les robots d'exploration utilisent la bande passante sans cliquer sur les publicités qui soutiennent le site, mais le propriétaire du site met son site sur le Web, alors comment peut-il raisonnablement s'attendre à ce qu'il ne soit jamais visité par un robot ?
-
Certains sites utilisent apparemment un fichier robots.txt afin d'éviter que leur site ne soit exploré par Google ou un autre utilitaire qui pourrait saisir les prix et permettre ainsi aux gens de faire facilement des comparaisons de prix. Ils ont des moteurs de recherche privés sur le site, donc ils veulent évidemment que les gens puissent faire des recherches sur le site ; apparemment, ils ne veulent simplement pas que les gens puissent facilement comparer leurs informations avec celles d'autres vendeurs.
Comme je l'ai dit, je ne cherche pas à polémiquer ; j'aimerais simplement savoir si quelqu'un a déjà trouvé un cas où il est éthiquement acceptable d'ignorer la présence d'un fichier robots.txt ? Je ne vois pas de cas où il serait permis d'ignorer le fichier robots.txt, principalement parce que les gens (ou les entreprises) paient de l'argent pour mettre en place leurs sites Web et qu'ils devraient donc pouvoir dire aux Google/Yahoos/Autres SE du monde qu'ils ne veulent pas figurer dans leurs index.
Pour replacer cette discussion dans son contexte, j'aimerais créer un site Web de comparaison des prix et l'un des principaux fournisseurs a un fichier robots.txt qui empêche essentiellement quiconque de saisir ses prix. J'aimerais pouvoir obtenir leurs informations mais, comme je l'ai dit, je ne peux pas justifier le fait de simplement ignorer les souhaits du propriétaire du site.
J'ai vu des discussions très pointues ici et c'est pourquoi j'aimerais connaître l'avis des développeurs qui suivent Stack Overflow.
D'ailleurs, il y a une discussion sur ce sujet dans un Question de Hacker News mais ils semblent se concentrer principalement sur les aspects juridiques de la question.