Je voudrais extraire le texte à partir d'un fichier HTML à l'aide de Python. Je veux essentiellement la même sortie que je voudrais faire si j'ai copié le texte à partir d'un navigateur et collé dans le bloc-notes.
J'aimerais quelque chose de plus robuste que l'utilisation d'expressions régulières qui peut échouer sur HTML mal formé. J'ai vu beaucoup de gens recommandent Belle Soupe, mais j'ai eu quelques problèmes à l'utiliser. Pour l'un, il a ramassé le texte non désiré, comme source JavaScript. Aussi, il n'a pas à interpréter en entités HTML. Par exemple, je m'attends ' en source HTML à être converti en une apostrophe dans le texte, comme si j'avais collé le contenu d'un navigateur dans le bloc-notes.
Mise à jour html2text semble prometteur. Il gère les entités HTML correctement et ignore JavaScript. Cependant, elle ne correspond pas exactement produire de texte en clair; il produit des démarques qui devrait par la suite être transformé en texte brut. Il est livré avec aucun des exemples et de la documentation, mais le code a l'air propre.
Questions connexes: