315 votes

Comment puis-je empêcher le site de grattage?

J'ai un assez grand site d'écoute de musique avec un grand artiste de la base de données. J'ai remarqué d'autres sites de musique en raclant notre de données du site (je entrer mannequin d'Artiste, noms d'ici et de là-bas et ensuite faire des recherches sur google pour eux).

Comment puis-je empêcher la capture d'écran? Est-il même possible?

244voto

Daniel Trebbien Points 18089

Je présume que vous avez configuré robots.txt.

Comme d'autres l'ont mentionné, des grattoirs peut faux presque tous les aspects de leurs activités, et il est probablement très difficile d'identifier les demandes qui viennent des méchants.

Ce que je voudrais envisager de le faire est:

  1. Mis en place une page /jail.html
  2. Interdire l'accès à la page en robots.txt (donc le respect des araignées ne seront jamais aller)
  3. Placer un lien sur une de vos pages, de les cacher avec du CSS (display: none).
  4. Enregistrer les adresses ip des visiteurs /jail.html

Cela peut vous aider à identifier rapidement les demandes de racloirs qui sont de manière flagrante malgré vos robots.txt.

Vous pourriez également faire votre /jail.html ensemble ensemble de ce site qui a le même, exact balisage comme les pages normales, mais avec de fausses données (/jail/album/63ajdka, /jail/track/3aads8, etc.). De cette façon, la mauvaise grattoirs de ne pas être alerté "inhabituel d'entrée" jusqu'à ce que vous avez la chance de les bloquer complètement.

49voto

Unicron Points 3021

Sue `em.

Sérieusement: Si vous avez un peu d'argent, parlez-en à une bonne, belle, jeune avocat qui connaît son chemin autour de l'Internet. Vous pourrait vraiment être en mesure de faire quelque chose ici. Selon l'endroit où les sites sont en fonction, vous pouvez demander à un avocat de rédiger une ordonnance de cesser et de s'abstenir ou de son équivalent dans votre pays. Vous pouvez peut-être au moins effrayer les salauds.

Document de l'insertion de vos valeurs factices. Insérer des valeurs factices clairement (mais vaguement) le point pour vous. Je pense que c'est une pratique courante avec carnet d'entreprises, et ici, en Allemagne, je pense qu'il y a eu plusieurs cas lorsque des imitateurs s'est cassé par le biais de faux entrées qu'elle copie 1:1.

Il serait dommage, si cela peut vous conduire à perturber le fonctionnement de votre code HTML, faites glisser vers le bas de RÉFÉRENCEMENT, de validité et d'autres choses (même si un système de template qui utilise un peu différente de la structure du document HTML à chaque demande pour des pages identiques pourrait déjà aider beaucoup contre les racloirs qui toujours s'appuyer sur des structures HTML et ID/classe de noms pour obtenir le contenu.)

Les cas de ce genre sont ce que les lois sur le copyright sont bons pour. Arrachant les autres personnes du travail honnête pour faire de l'argent, c'est une chose que vous devriez être en mesure de lutter contre.

35voto

ryeguy Points 24980

Il n'y a vraiment rien que vous pouvez faire pour empêcher cela. Grattoirs peut simuler leur agent utilisateur, l'utilisation de multiples adresses ip, etc et apparaître comme un utilisateur normal. La seule chose que vous pouvez faire est de rendre le texte n'est pas disponible au moment du chargement de la page - faire avec l'image, flash, ou de le charger avec le javascript. Cependant, les 2 premières sont de mauvaises idées, et le dernier serait un problème d'accessibilité si js n'est pas activé pour certains de vos utilisateurs réguliers.

Si elles sont absolument claquer votre site et de fouiller dans toutes vos pages, vous pouvez faire une sorte de limitation de débit.

Il y a de l'espoir. Grattoirs comptons sur votre site des données dans un format cohérent. Si vous pouviez aléatoire, c'est en quelque sorte il pourrait se briser, leur grattoir. L'évolution des choses comme l'ID ou une classe de noms des éléments de la page sur chaque charge, etc. Mais c'est beaucoup de travail à faire et je ne sais pas si ça vaut le coup. Et même alors, ils pourraient probablement obtenir autour de lui avec assez de dévouement.

33voto

Williham Totland Points 15798

Fournir une API XML pour accéder à vos données; d'une manière qui est simple à utiliser. Si les gens veulent vos données, ils vont l'obtenir, vous pourriez aussi bien aller tous dehors.

De cette façon, vous pouvez fournir un sous-ensemble de la fonctionnalité d'une manière efficace, en s'assurant que, à tout le moins, les grattoirs de ne pas bouffer jusqu'les requêtes HTTP et d'énormes quantités de bande passante.

Alors tout ce que vous avez à faire est de convaincre les gens qui veulent vos données à l'utilisation de l'API. ;)

22voto

Lizard Points 10620

Désolé, C'est très dur à faire...

Je sugget que vous lui demander poliment de ne pas utiliser votre contenu (si votre contenu est copywrited)

Si il l'est et qu'ils ne prennent pas vers le bas, alors vous pouvez prendre d'autres personnes d'action et de leur envoyer un cease and desist letter

Généralement ce que jamais vous faire pour prévenir scaping sera probablement jusqu'à la fin avec un effet négatif. par exemple, accesbility, les robots/spiders etc.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X