135 votes

Comment trouver tous les liens / pages d'un site web

Est-il possible de trouver toutes les pages et tous les liens de N'IMPORTE QUEL site web ? Je voudrais entrer une URL et produire un arbre de répertoire de tous les liens de ce site ?

J'ai regardé HTTrack mais cela télécharge l'ensemble du site et j'ai simplement besoin de l'arborescence des répertoires.

2 votes

Crawlmysite.in - site non existant

91voto

Hank Gay Points 36173

Vérifiez linkchecker -il va explorer le site (tout en obéissant à robots.txt ) et générer un rapport. A partir de là, vous pouvez script mettre en place une solution pour créer l'arborescence du répertoire.

0 votes

Merci beaucoup Hank ! Parfait - exactement ce dont j'avais besoin. J'ai beaucoup apprécié.

2 votes

Un bel outil. J'utilisais "XENU link sleuth before". Linkchecker est beaucoup plus verbeux.

0 votes

Comment puis-je le faire moi-même ? Et que faire s'il n'y a pas de fichier robots.txt dans un site web ?

18voto

John Magnolia Points 3304

Vous pouvez aussi utiliser Google pour afficher toutes les pages qu'il a indexées pour ce domaine. Par exemple site:www.bbc.co.uk

0voto

mizubasho Points 43

S'il s'agit d'une question de programmation, je vous suggère d'écrire votre propre expression régulière pour analyser tout le contenu récupéré. Les balises cibles sont IMG et A pour le HTML standard. Pour JAVA,

final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";

ce qui, avec les classes Pattern et Matcher, devrait permettre de détecter le début des balises. Ajoutez la balise LINK si vous voulez aussi du CSS.

Toutefois, ce n'est pas aussi facile que vous l'avez peut-être pensé au départ. De nombreuses pages Web ne sont pas bien formées. L'extraction programmatique de tous les liens qu'un être humain peut "reconnaître" est vraiment difficile si vous devez tenir compte de toutes les expressions irrégulières.

Bonne chance !

23 votes

Non non non non, ne pas analyser le HTML avec regex ça fait pleurer le petit Jésus !

0voto

Pratik Deoghare Points 9766
  1. Chilkat Python Web Crawler.

NOTE :Just Google => simple crawler web en langue_name

0voto

magicrebirth Points 731

Sur un Mac, http://peacockmedia.co.uk/integrity/ a plutôt bien fonctionné pour moi.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X