118 votes

Obtenir une liste d'URL à partir d'un site

Je suis en train de déployer un site de remplacement pour un client, mais il ne veut pas que toutes ses anciennes pages se terminent par des 404. Il n'était pas possible de conserver l'ancienne structure d'URL car elle était hideuse.

J'écris donc un gestionnaire 404 qui devrait rechercher une ancienne page demandée et faire une redirection permanente vers la nouvelle page. Le problème est que j'ai besoin d'une liste de toutes les anciennes URL de pages.

Je pourrais le faire manuellement, mais je serais intéressé par une application qui me fournirait une liste d'URL relatives (par exemple : /page/path, et non http:/.../page/path) à partir de la page d'accueil. Comme un spider, mais qui ne s'intéresse pas au contenu, si ce n'est pour trouver des pages plus profondes.

92voto

Oli Points 65050

Je ne voulais pas répondre à ma propre question mais je viens de penser à lancer un générateur de sitemap. Le premier que j'ai trouvé http://www.xml-sitemaps.com dispose d'une sortie texte agréable. Parfait pour mes besoins.

59voto

alamar Points 6376

Faire wget -r -l0 www.oldsite.com

Ensuite, il suffit de find www.oldsite.com révélerait toutes les URL, je crois.

Une autre solution consiste à servir cette page personnalisée à chaque requête 404 ! Par exemple, si quelqu'un utilise le mauvais lien, il recevra la page indiquant que la page n'a pas été trouvée, et donnant quelques indications sur le contenu du site.

24voto

Franck Dernoncourt Points 4769

Voici une liste de générateurs de sitemap (à partir desquels vous pouvez évidemment obtenir la liste des URL d'un site) : http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Générateurs de plan du site

Vous trouverez ci-dessous des liens vers des outils qui génèrent ou maintiennent des fichiers au format XML Sitemaps. le format XML Sitemaps, une norme ouverte définie sur sitemaps.org et soutenue par supporté par les moteurs de recherche tels que Ask, Google, Microsoft Live Search et Yahoo ! Les fichiers sitemaps contiennent généralement une collection d URL d'un site web ainsi que des métadonnées relatives à ces URL. Les outils suivants génèrent généralement des fichiers Sitemap XML de "type web" et des listes d'URL de type web (certains peuvent également prendre en charge d'autres formats).

Remarque : Google n'a pas testé ou ve sécurité des logiciels tiers répertoriés sur ce site. Veuillez adresser toute question concernant le logiciel à son auteur. Nous espérons que vous apprécierez ces outils !

Programmes côté serveur

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap Generator (Linux/Windows, 32/64bit, open-source)
  • Outil en PHP (français, PHP)
  • Générateur de plan du site en Perl (Perl)
  • Générateur de plan du site en Python (Python)
  • Sitemaps simples (PHP)
  • SiteMap XML Générateur de plan du site dynamique (PHP)
  • Générateur de plan du site pour OS/2 (REXX-script)
  • Générateur de plan du site XML (PHP)

CMS et autres plugins :

  • ASP.NET - Sitemaps.Net
  • DotClear (espagnol)
  • DotClear (2)
  • Drupal
  • Modèles de commerce électronique (PHP)
  • Modèles de commerce électronique (PHP ou ASP)
  • Type de vie
  • Générateur de plan du site MediaWiki
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Modèle de texte
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Outils téléchargeables

  • GSiteCrawler (Windows)
  • GWebCrawler & Sitemap Creator (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows)
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider et générateur de plan du site (Windows/Mac)
  • Site Map Pro (Windows)
  • Sitemap Writer (Windows)
  • Générateur de plan du site par DevIntelligence (Windows)
  • Sorrowmans Sitemap Tools (Windows)
  • TheSiteMapper (Windows)
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • Générateur de plan du site WebDesignPros (application Java Webstart)
  • Weblight (Windows/Mac)
  • WonderWebWare Générateur de plan du site (Windows)

Générateurs/services en ligne

  • AuditMyPc.com Générateur de plan du site
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Générateur de plan du site gratuit
  • Générateur de plan du site de Neuroticweb.com
  • Générateur de plan du site ROR
  • Générateur de plan du site ScriptSocket
  • SeoUtility Sitemap Generator (Italien)
  • SitemapDoc
  • Sitemapspal
  • Soumettre le plan du site
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • Générateur de plan du site XML
  • Générateur de cartes de site XML

CMS avec générateurs de plan du site intégrés

  • Béton5

Google Actualités Générateurs de plans du site Les suivants de mettre à jour les fichiers Google News Sitemap, une variante du proto sitemaps.org que nous décrivons dans notre Centre d'aide. En outre, les plugins les propriétés normales des fichiers Sitemap, Google News Sitemaps permet aux aux éditeurs de décrire les types de contenu qu'ils publient, ainsi que de de spécifier les niveaux d'accès aux articles individuels. Pour en savoir plus sur Google Actualités sont disponibles dans notre Centre d'aide et nos Forums d'aide.

  • Plugin WordPress Google News

Extraits de code / Bibliothèques

  • ASP script
  • Emacs Lisp script
  • Bibliothèque Java
  • Perl script
  • Classe PHP
  • Générateur de PHP script

Si vous estimez qu'un outil doit être ajouté ou supprimé pour une raison légitime légitime, veuillez laisser un commentaire dans le Forum d'aide aux webmasters.

6voto

Collins Points 243

Le meilleur site que j'ai trouvé est http://www.auditmypc.com/xml-sitemap.asp qui utilise Java, ne limite pas le nombre de pages et permet même d'exporter les résultats sous la forme d'une liste d'URL brutes.

Il utilise également des sessions, donc si vous utilisez un CMS, assurez-vous d'être déconnecté avant d'exécuter le crawl.

3voto

Martin Peck Points 8078

Ainsi, dans un monde idéal, vous auriez une spécification pour toutes les pages de votre site. Vous disposeriez également d'une infrastructure de test qui pourrait accéder à toutes vos pages pour les tester.

Vous n'êtes vraisemblablement pas dans un monde idéal. Pourquoi ne pas faire ceci... ?

  1. Créer une correspondance entre le puits connues et les nouvelles. Redirigez lorsque vous voyez une ancienne URL. J'envisagerais éventuellement de présenter un message du type "Cette page a été déplacée, sa nouvelle URL est XXX, vous serez redirigé sous peu".

  2. Si vous n'avez pas de mappi "désolé - cette page a été déplacée. Voici un lien vers la page d'accueil" et et redirigez-les si vous le souhaitez.

  3. Enregistrer toutes les redirections - ceux qui n'ont pas de correspondance. [ ] mappings pour les pages qui sont importantes.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X