Comment trouver tous les liens / pages d'un site web

Question

Comment trouver tous les liens / pages d'un site web

Demandé el 17 de Septembre, 2009: Quand la question a-t-elle été
95297 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Est-il possible de trouver toutes les pages et tous les liens de N'IMPORTE QUEL site web ? Je voudrais entrer une URL et produire un arbre de répertoire de tous les liens de ce site ?

J'ai regardé HTTrack mais cela télécharge l'ensemble du site et j'ai simplement besoin de l'arborescence des répertoires.

Demandé el 17 de Septembre, 2009 par Jonathan Lyon

2 votes

Crawlmysite.in - site non existant

Commenté el 20 de Octobre, 2015 par Sarah Trees

Answer 1

5 Réponses

Answer 2

91voto

Hank Gay Points 36173

Vérifiez linkchecker -il va explorer le site (tout en obéissant à robots.txt ) et générer un rapport. A partir de là, vous pouvez script mettre en place une solution pour créer l'arborescence du répertoire.

Répondu el 17 de Septembre, 2009 par Hank Gay (36173 Points )

0 votes

Merci beaucoup Hank ! Parfait - exactement ce dont j'avais besoin. J'ai beaucoup apprécié.

Commenté el 17 de Septembre, 2009 par Jonathan Lyon

2 votes

Un bel outil. J'utilisais "XENU link sleuth before". Linkchecker est beaucoup plus verbeux.

Commenté el 14 de Novembre, 2011 par Mateng

0 votes

Comment puis-je le faire moi-même ? Et que faire s'il n'y a pas de fichier robots.txt dans un site web ?

Commenté el 30 de Juillet, 2013 par Marius Kavansky

Afficher 7 autres commentaires

Answer 3

18voto

John Magnolia Points 3304

Vous pouvez aussi utiliser Google pour afficher toutes les pages qu'il a indexées pour ce domaine. Par exemple site:www.bbc.co.uk

Répondu el 23 de Mars, 2012 par John Magnolia (3304 Points )

Answer 4

0voto

mizubasho Points 43

S'il s'agit d'une question de programmation, je vous suggère d'écrire votre propre expression régulière pour analyser tout le contenu récupéré. Les balises cibles sont IMG et A pour le HTML standard. Pour JAVA,

final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";

ce qui, avec les classes Pattern et Matcher, devrait permettre de détecter le début des balises. Ajoutez la balise LINK si vous voulez aussi du CSS.

Toutefois, ce n'est pas aussi facile que vous l'avez peut-être pensé au départ. De nombreuses pages Web ne sont pas bien formées. L'extraction programmatique de tous les liens qu'un être humain peut "reconnaître" est vraiment difficile si vous devez tenir compte de toutes les expressions irrégulières.

Bonne chance !

Répondu el 17 de Septembre, 2009 par mizubasho (43 Points )

23 votes

Non non non non, ne pas analyser le HTML avec regex ça fait pleurer le petit Jésus !

Commenté el 29 de Mai, 2013 par dimo414

Answer 5

0voto

Pratik Deoghare Points 9766

Chilkat Python Web Crawler.

NOTE :Just Google => simple crawler web en langue_name

Répondu el 17 de Septembre, 2009 par Pratik Deoghare (9766 Points )

Answer 6

0voto

magicrebirth Points 731

Sur un Mac, http://peacockmedia.co.uk/integrity/ a plutôt bien fonctionné pour moi.

Répondu el 30 de Juillet, 2014 par magicrebirth (731 Points )

Comment trouver tous les liens / pages d'un site web

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment trouver tous les liens / pages d'un site web

Réponses

Questions connexes

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: