J'envisage l'écriture d'un simple grattage application pour extraire des informations à partir d'un site web qui ne semble pas spécifiquement l'interdire.
J'ai vérifié pour d'autres alternatives (par exemple, RSS, web service) pour obtenir cette information, mais aucun n'est disponible à ce stade.
Malgré cela, j'ai également créés/maintenus quelques sites moi et je me rends compte que si le web scraping est fait naïvement/goulûment il peut ralentir les choses pour les autres utilisateurs et généralement de devenir une nuisance.
Alors, quelle est l'étiquette est impliqué en termes de:
- Nombre de requêtes par seconde/minutes/heure.
- HTTP User Agent de contenu.
- HTTP Referer contenu.
- HTTP paramètres de Cache.
- Taille de la mémoire tampon pour les gros fichiers/ressources.
- Aspects juridiques et les questions de licences.
- De bons outils ou des approches de conception à utiliser.
- Robots.txt est-ce pertinent pour le web scraping ou tout simplement les robots/spiders?
- De Compression tels que GZip dans les demandes.
Mise à jour
Trouvé cette question pertinente sur Meta: l'Étiquette de l'Écran Scaping StackOverflow. Jeff Atwood, en réponse a des recommandations utiles.
Autres StackOverflow questions: