118 votes

Obtenir une liste d'URL à partir d'un site

Je suis en train de déployer un site de remplacement pour un client, mais il ne veut pas que toutes ses anciennes pages se terminent par des 404. Il n'était pas possible de conserver l'ancienne structure d'URL car elle était hideuse.

J'écris donc un gestionnaire 404 qui devrait rechercher une ancienne page demandée et faire une redirection permanente vers la nouvelle page. Le problème est que j'ai besoin d'une liste de toutes les anciennes URL de pages.

Je pourrais le faire manuellement, mais je serais intéressé par une application qui me fournirait une liste d'URL relatives (par exemple : /page/path, et non http:/.../page/path) à partir de la page d'accueil. Comme un spider, mais qui ne s'intéresse pas au contenu, si ce n'est pour trouver des pages plus profondes.

2voto

Michael Lihs Points 123

Wget à partir d'une machine linux peut également être une bonne option, car il existe des commutateurs permettant de modifier la sortie du logiciel.

EDIT : wget est également disponible sous Windows : http://gnuwin32.sourceforge.net/packages/wget.htm

1voto

Mork0075 Points 3152

Écrire un spider qui lit chaque fichier html depuis le disque et qui affiche chaque attribut "href" d'un élément "a" (ce qui peut être fait à l'aide d'un analyseur). Garder à l'esprit quels liens appartiennent à une certaine page (il s'agit d'une tâche courante pour une structure de données MultiMap). Vous pouvez ensuite produire un fichier de mappage qui servira d'entrée au gestionnaire 404.

1voto

Eric Petroelje Points 40734

J'examinerais les outils de génération de sitemap en ligne, quels qu'ils soient. Personnellement, j'ai utilisé celui-ci (basé sur java) dans le passé, mais si vous faites une recherche sur google pour "sitemap builder" je suis sûr que vous trouverez beaucoup d'options différentes.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X