Je construis un projet dans lequel j'ai besoin d'un robot d'exploration qui explore une liste de pages Web différentes. Cette liste peut changer à tout moment. Quelle est la meilleure façon d'implémenter ce projet avec scrapy ? Dois-je créer une araignée pour tous les sites Web ou créer des araignées de façon dynamique ?
J'ai lu des articles sur scrapyd et je pense que la création dynamique de spiders est la meilleure approche. J'aurais cependant besoin d'une indication sur la manière de la mettre en œuvre.
0 votes
La logique d'analyse de tous ces sites web est la même, n'est-ce pas ?
1 votes
La logique d'analyse est la même : j'ai un certain nombre de chemins d'accès dans la base de données. La solution la plus simple est de tout mettre dans un spider et de faire tout le parsing dans le parse-callback (avec un appel à la base de données).
0 votes
Yup, on dirait une araignée avec un overriden
start_requests
méthode.