74 votes

arriver Interdit par robots.txt: scrapy

lors de l'exploration des sites web tels que https://www.netflix.com, obtenir Interdite par robots.txt: https://www.netflix.com/>

ERREUR: Pas de réponse téléchargé: https://www.netflix.com/

186voto

Rafael Almeida Points 3228

Dans la nouvelle version (scrapy 1.1) a lancé 2016-05-11 l'analyse de la première téléchargements robots.txt avant de ramper. Pour modifier ce changement de comportement dans votre settings.py avec ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Voici les notes de version

2voto

Ketan Patel Points 21

Première chose que vous devez vous assurer que vous changiez votre agent utilisateur dans la requête, sinon par défaut de l'agent utilisateur sera bloqué pour sûr.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X