HTML Tidy, nettoyage du balisage de MS Word

Question

HTML Tidy, nettoyage du balisage de MS Word

Demandé el 23 de Avril, 2012: Quand la question a-t-elle été
563 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai 10 ans de données d'articles archivés, dont la plupart sont truffés de balises MS Word save-as-html du genre <p class="MsoNormal">

Tout d'abord, html tidy est-il capable de supprimer les balises générées par MS Word, ou dois-je adopter une autre approche ?

Deuxièmement, les articles des premières années sont regroupés par mois et stockés dans la base de données sous forme de texte. J'aimerais beaucoup pouvoir les séparer en articles individuels afin de faciliter la recherche sur le site (c'est-à-dire ne pas faire apparaître un mois entier de nouvelles lorsqu'un terme/une phrase de recherche correspond). Le seul modèle clair avec lequel je peux travailler pour isoler les articles est le titre de l'article (en gras, entre 16 et 20px) et la date de l'article, généralement 10px ; le titre et la date apparaissent avant le corps de l'article. Existe-t-il un moyen de détecter les <h1> -ness ou <small> -L'exactitude du balisage lorsque je n'ai pas de balisage exact à comparer ?

Il est peut-être impossible de répondre à cette question, mais de manière générale, quelle approche adopteriez-vous pour cette tâche peu enviable ? ;-) Je suis sur la JVM en Scala, mais je pourrais faire le travail de nettoyage sur la pile LAMP également.

Les idées sont appréciées !

Demandé el 23 de Avril, 2012 par virtualeyes

Answer 1

1 Réponses

Answer 2

1voto

Dmitry Ovsyanko Points 884

Si j'étais vous, j'utiliserais mon préféré. HTML::Parser pour Perl. Cela fonctionne très bien pour les problèmes complexes et flous comme le vôtre.

Répondu el 23 de Avril, 2012 par Dmitry Ovsyanko (884 Points )

HTML Tidy, nettoyage du balisage de MS Word

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

HTML Tidy, nettoyage du balisage de MS Word

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: