32 votes

L'éthique de robots.txt

J'ai une question sérieuse. Est-il jamais éthique d'ignorer la présence d'un fichier robots.txt sur un site web ? Voici quelques-unes des considérations qui me viennent à l'esprit :

  1. Si quelqu'un met en place un site web, il s'attend à des visites. Il est vrai que les robots d'exploration utilisent la bande passante sans cliquer sur les publicités qui soutiennent le site, mais le propriétaire du site met son site sur le Web, alors comment peut-il raisonnablement s'attendre à ce qu'il ne soit jamais visité par un robot ?

  2. Certains sites utilisent apparemment un fichier robots.txt afin d'éviter que leur site ne soit exploré par Google ou un autre utilitaire qui pourrait saisir les prix et permettre ainsi aux gens de faire facilement des comparaisons de prix. Ils ont des moteurs de recherche privés sur le site, donc ils veulent évidemment que les gens puissent faire des recherches sur le site ; apparemment, ils ne veulent simplement pas que les gens puissent facilement comparer leurs informations avec celles d'autres vendeurs.

Comme je l'ai dit, je ne cherche pas à polémiquer ; j'aimerais simplement savoir si quelqu'un a déjà trouvé un cas où il est éthiquement acceptable d'ignorer la présence d'un fichier robots.txt ? Je ne vois pas de cas où il serait permis d'ignorer le fichier robots.txt, principalement parce que les gens (ou les entreprises) paient de l'argent pour mettre en place leurs sites Web et qu'ils devraient donc pouvoir dire aux Google/Yahoos/Autres SE du monde qu'ils ne veulent pas figurer dans leurs index.

Pour replacer cette discussion dans son contexte, j'aimerais créer un site Web de comparaison des prix et l'un des principaux fournisseurs a un fichier robots.txt qui empêche essentiellement quiconque de saisir ses prix. J'aimerais pouvoir obtenir leurs informations mais, comme je l'ai dit, je ne peux pas justifier le fait de simplement ignorer les souhaits du propriétaire du site.

J'ai vu des discussions très pointues ici et c'est pourquoi j'aimerais connaître l'avis des développeurs qui suivent Stack Overflow.

D'ailleurs, il y a une discussion sur ce sujet dans un Question de Hacker News mais ils semblent se concentrer principalement sur les aspects juridiques de la question.

45voto

richardtallent Points 17534

Arguments :

  1. Un fichier robots.txt est une licence implicite, d'autant plus que vous en êtes conscient. Ainsi, continuer à gratter leur site pourrait être considéré comme un accès non autorisé (c'est-à-dire du piratage). Ça craint, mais des arguments de ce genre ont été avancés dans d'autres affaires juridiques récemment (pas directement liés à robots.txt, mais en relation avec d'autres "contrôles passifs").
  2. La saisie des prix ne viole aucune loi sur le droit d'auteur, y compris la DMCA, puisque le droit d'auteur ne comprend pas les informations factuelles, mais uniquement les créations.
  3. D'un point de vue éthique, vous ne devriez pas saisir les prix, car le vendeur devrait avoir la possibilité de les modifier sans craindre d'être accusé d'appât par les personnes venant de votre site.
  4. Avez-vous pris la bonne voie, en leur expliquant le site et en leur disant que vous aimeriez les inclure dans votre liste de vendeurs ? Peut-être que l'idée leur plaira et qu'ils exposeront les données de manière à ce que vous puissiez les consommer facilement et qu'ils aient besoin de moins de ressources pour les produire.
  5. Il n'y a pas de lois écrites directement sur les robots.txt car la nétiquette est généralement respectée. Ne soyez pas l'un des "méchants".
  6. Certaines personnes filtrent les robots parce qu'elles utilisent des liens URL pour effectuer des "actions" telles que l'ajout d'articles aux paniers, et les robots leur laissent un nombre massif de paniers abandonnés dans leur base de données.
  7. Certaines personnes filtrent les robots parce qu'elles ont des prix exclusifs qu'elles ne peuvent pas publier ouvertement en raison d'accords avec leurs fournisseurs. Vous pourriez les mettre en mauvaise posture en exposant ces prix sur votre site.
  8. Dans cette économie, si une entreprise ne veut pas faire tout ce qui est possible pour se faire connaître, c'est sa propre faute si vous ne l'incluez pas.

28voto

Greg Hewgill Points 356191

L'autre utilisation de robots.txt est d'aider à protéger les araignées d'elles-mêmes. Il est relativement facile pour une araignée de s'embourber dans une forêt infiniment profonde de liens, et un site web correctement construit peut être utilisé pour protéger les araignées contre elles-mêmes. robots.txt dit à l'araignée que "tu n'as pas besoin d'aller ici".

4voto

Frank Farmer Points 16159

De nombreuses personnes ont essayé de créer des entreprises en construisant des moteurs de "comparaison de prix" qui récupéraient les principaux sites.

Une fois que vous commencez à avoir une sorte de trafic/de revenus, vous sera recevoir un cesser et s'abstenir . C'est arrivé à des dizaines, voire des centaines de projets. J'ai même travaillé sur un petit projet qui a reçu un C&D de Craigslist.

Vous savez ce qu'on dit : "Il est plus facile de demander pardon que d'obtenir la permission" ? Ce n'est pas vrai pour le grattage de pages. Obtenez la permission, ou vous aurez des nouvelles de leurs avocats.

Si vous avez de la chance, ce sera au début, lorsque vous n'avez rien à perdre. Si c'est tard, vous pouvez perdre votre entreprise et tout votre travail du jour au lendemain, avec une seule lettre.

Obtenir une autorisation ne devrait pas être difficile. A moins que vous ne fassiez quelque chose de sournois, vous allez probablement les pousser à supplémentaire le trafic. Bon sang, une fois que votre produit aura décollé, les sites pourraient vous supplier, voire vous payer, pour ajouter leurs données.

2voto

John Saunders Points 118808

"Non" signifie "non".

1voto

ilya n. Points 6610

Pour répondre à la question précise, pour le site de comparaison des prix, il est probablement préférable de saisir le prix en temps réel, plutôt que de supprimer la base de données à l'avance. Difficile d'imaginer que cela puisse être un problème.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X