Je code beaucoup de parsers. Jusqu'à présent, j'utilisais le navigateur headless HtmlUnit pour l'analyse syntaxique et l'automatisation du navigateur.
Maintenant, je veux séparer les deux tâches.
Comme 80 % de mon travail consiste simplement à analyser, je veux utiliser un analyseur HTML léger, car cela prend beaucoup de temps dans HtmlUnit de charger d'abord une page, puis de récupérer la source et enfin de l'analyser.
Je veux savoir quel est le meilleur analyseur HTML. L'analyseur serait meilleur s'il est proche de l'analyseur HtmlUnit.
EDITAR:
Par mieux, je veux au moins les caractéristiques suivantes :
- Vitesse
- Il est facile de localiser un élément Html par son "id", son "nom" ou son "type de balise".
Cela me conviendrait s'il ne nettoyait pas le code HTML sale. Je n'ai pas besoin de nettoyer la source HTML. J'ai juste besoin d'un moyen simple de me déplacer à travers les HtmlElements et d'en récolter les données.