Je cherche un moyen de pseudo-spider un site web. La clé est que je ne veux pas vraiment le contenu, mais plutôt une simple liste d'URIs. Je peux m'approcher raisonnablement de cette idée avec Wget en utilisant le --spider
mais lorsque l'on fait passer cette sortie par l'option grep
je n'arrive pas à trouver la bonne magie pour que ça marche :
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
El grep
semble n'avoir absolument aucun effet sur le wget
sortie. Est-ce que je me trompe ou existe-t-il un autre outil que je devrais essayer et qui est plus adapté pour fournir ce type de résultats limités ?
UPDATE
Je viens donc de découvrir hors ligne que, par défaut, wget
écrit sur stderr. J'ai raté ça dans les pages du manuel (en fait, je ne l'ai toujours pas trouvé s'il est là). Une fois que j'ai fait passer le retour à stdout, je me suis rapproché de ce dont j'ai besoin :
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
Je serais toujours intéressé par d'autres/meilleurs moyens de faire ce genre de choses, s'il en existe.
0 votes
Voir cette question/réponse pour une autre façon d'utiliser un script de python : stackoverflow.com/questions/9561020/
0 votes
Duplication possible de Obtenir une liste d'URLs d'un site