J'ai écrit un billet de blog à ce sujet ici: http://blog.screen-scraper.com/2009/08/17/further-thoughts-on-hindering-screen-scraping/
Pour paraphraser:
Si vous publiez des informations sur internet, quelqu'un peut l'obtenir, c'est juste une question de combien de ressources qu'il souhaite investir. Quelques moyens de rendre les ressources nécessaires supérieur sont:
Tests de Turing
Le plus commun de mise en œuvre de la rotation de Test est le vieux CAPTCHA qui s'efforce de s'assurer de l'homme lit le texte dans une image, et l'insère dans un formulaire.
Nous avons trouvé un grand nombre de sites qui mettent en œuvre une très faible CAPTCHA qui ne prend que quelques minutes pour se déplacer. D'autre part, il y a quelques très bonnes implémentations de Tests de Turing qui nous permettrait de choisir de ne pas traiter avec le choix, mais un système sophistiqué de l'OCR peut parfois surmonter ces, ou de nombreux bulletin board spammeurs ont quelques trucs astucieux pour obtenir ces dernières.
Données sous forme d'images
Parfois, vous savez quelles sont les parties de vos données sont précieuses. Dans ce cas, il devient raisonnable de remplacer ce texte par une image. Comme avec le Test de Turing, il y a un logiciel OCR qui peut le lire, et il n'y a aucune raison pour que nous ne pouvez pas enregistrer l'image et avoir quelqu'un pour le lire plus tard.
Souvent, cependant, l'inscription de données comme une image sans texte alternatif est en violation de l'Americans with Disabilities Act (ADA), et peuvent être surmontés avec un couple de coups de téléphone à une société de service juridique.
Obfuscation du Code
En utilisant quelque chose comme une fonction JavaScript pour afficher les données de la page si ce n'est pas n'importe où dans le code source HTML est un bon truc. D'autres exemples comprennent la mise prolifique, étrangères les commentaires par le biais de la page ou d'avoir une page interactive qui ordonne les choses d'une manière imprévisible (et l'exemple que je pense utilisé le CSS pour rendre l'affichage de la même peu importe l'arrangement du code.)
Les Sprites CSS
Récemment, nous avons rencontré quelques cas où une page possède l'une des images contenant des chiffres et des lettres, et utilisé le CSS pour afficher uniquement les personnages qu'ils ont désiré. C'est en effet une combinaison des 2 méthodes. Nous avons tout d'abord d'obtenir que le maître de l'image et de lire ce que les personnages sont là, alors que nous aurions besoin de lire le CSS dans le site et déterminer le caractère de chaque balise a été pointée.
Bien que ce soit très intelligent, j'imagine que ce serait trop aller à l'encontre de l'ADA, mais je n'ai pas testé encore.
Limiter les résultats de recherche
La plupart des données que nous voulons obtenir à l'est, derrière une sorte de forme. Certains sont faciles, et en soumettant un formulaire vierge donnera tous les résultats. Certains ont besoin d'une astérisque ou pour cent mis en forme. Les plus difficiles sont celles qui vont vous donner une limite au nombre de résultats par requête. Parfois, nous venons de faire une boucle qui va remettre les lettres de l'alphabet pour la forme, mais si c'est trop général, il faut faire une boucle pour soumettre toutes les combinaison de 2 ou 3 lettres–c'est 17,576 les demandes de page.
Le Filtrage IP
À l'occasion, un assidu webmaster remarquerez un grand nombre de demandes de page provenant d'une adresse IP particulière, et de bloquer les demandes de ce domaine. Il y a un certain nombre de méthodes pour transmettre les demandes à l'aide d'autres domaines, cependant, si cette méthode n'est généralement pas très efficace.
Site De Bricolage
Grattage toujours des clés en dehors de certaines choses dans le code HTML. Certains sites ont les ressources nécessaires pour constamment peaufiner leur code HTML de sorte que tous les éraflures sont constamment à jour. Par conséquent, il devient non rentable de mettre à jour continuellement les gratter pour la des conditions en constante évolution.