2 votes

HTML Tidy, nettoyage du balisage de MS Word

J'ai 10 ans de données d'articles archivés, dont la plupart sont truffés de balises MS Word save-as-html du genre <p class="MsoNormal">

Tout d'abord, html tidy est-il capable de supprimer les balises générées par MS Word, ou dois-je adopter une autre approche ?

Deuxièmement, les articles des premières années sont regroupés par mois et stockés dans la base de données sous forme de texte. J'aimerais beaucoup pouvoir les séparer en articles individuels afin de faciliter la recherche sur le site (c'est-à-dire ne pas faire apparaître un mois entier de nouvelles lorsqu'un terme/une phrase de recherche correspond). Le seul modèle clair avec lequel je peux travailler pour isoler les articles est le titre de l'article (en gras, entre 16 et 20px) et la date de l'article, généralement 10px ; le titre et la date apparaissent avant le corps de l'article. Existe-t-il un moyen de détecter les <h1> -ness ou <small> -L'exactitude du balisage lorsque je n'ai pas de balisage exact à comparer ?

Il est peut-être impossible de répondre à cette question, mais de manière générale, quelle approche adopteriez-vous pour cette tâche peu enviable ? ;-) Je suis sur la JVM en Scala, mais je pourrais faire le travail de nettoyage sur la pile LAMP également.

Les idées sont appréciées !

1voto

Dmitry Ovsyanko Points 884

Si j'étais vous, j'utiliserais mon préféré. HTML::Parser pour Perl. Cela fonctionne très bien pour les problèmes complexes et flous comme le vôtre.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X