J'ai 10 ans de données d'articles archivés, dont la plupart sont truffés de balises MS Word save-as-html du genre <p class="MsoNormal">
Tout d'abord, html tidy est-il capable de supprimer les balises générées par MS Word, ou dois-je adopter une autre approche ?
Deuxièmement, les articles des premières années sont regroupés par mois et stockés dans la base de données sous forme de texte. J'aimerais beaucoup pouvoir les séparer en articles individuels afin de faciliter la recherche sur le site (c'est-à-dire ne pas faire apparaître un mois entier de nouvelles lorsqu'un terme/une phrase de recherche correspond). Le seul modèle clair avec lequel je peux travailler pour isoler les articles est le titre de l'article (en gras, entre 16 et 20px) et la date de l'article, généralement 10px ; le titre et la date apparaissent avant le corps de l'article. Existe-t-il un moyen de détecter les <h1>
-ness ou <small>
-L'exactitude du balisage lorsque je n'ai pas de balisage exact à comparer ?
Il est peut-être impossible de répondre à cette question, mais de manière générale, quelle approche adopteriez-vous pour cette tâche peu enviable ? ;-) Je suis sur la JVM en Scala, mais je pourrais faire le travail de nettoyage sur la pile LAMP également.
Les idées sont appréciées !