J'envisage de développer un site où le serveur explorera périodiquement un autre site, afin de recueillir du contenu pour certaines entrées dans ma base de données. Mes questions sont les suivantes...
- Comment faire pour que le serveur exécute un crawl en temps voulu ?
- Pouvez-vous obtenir l'exécution de php ou quel langage utilisez-vous pour effectuer le crawl ?
- Existe-t-il de bonnes API pour faire cela ?
- Devrais-je envisager de construire le mien ? Si oui, des conseils sur la façon de commencer seraient les bienvenus.
Fondamentalement, le genre de chose que je veux faire, est que le serveur exécute un script (disons toutes les heures), qui trouve toutes les entrées dans la base de données qui n'ont pas encore été crawlées sur un autre site. Il prendra une certaine valeur de ces entrées, et les utilisera pour crawler un autre site... il pourrait demander une url comme celle-ci : www.anothersite.com/images?q=entryindb
.
Ce que je veux qu'il fasse, c'est explorer le HTML, renvoyer un tableau et enregistrer les valeurs dans la base de données. Voici ce que je veux que le crawler recherche
Find all instances of
<img> inside <a> inside <td> inside <tr> inside <tbody> inside <table> inside <div id='content'>
Return array of the img.src from all instances.
Une telle chose est-elle possible ? - Si oui, comment dois-je m'y prendre ? - Veuillez garder à l'esprit que la seule expérience que j'ai jusqu'à présent en matière de développement web (côté serveur) est le PHP.
UPDATE : Je vais utiliser un serveur basé sur linux, donc je suppose que le chron-scripting est la façon dont je devrais le faire ?