Quel est le meilleur analyseur HTML ?

Question

Quel est le meilleur analyseur HTML ?

Demandé el 30 de Janvier, 2010: Quand la question a-t-elle été
62537 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je code beaucoup de parsers. Jusqu'à présent, j'utilisais le navigateur headless HtmlUnit pour l'analyse syntaxique et l'automatisation du navigateur.

Maintenant, je veux séparer les deux tâches.

Comme 80 % de mon travail consiste simplement à analyser, je veux utiliser un analyseur HTML léger, car cela prend beaucoup de temps dans HtmlUnit de charger d'abord une page, puis de récupérer la source et enfin de l'analyser.

Je veux savoir quel est le meilleur analyseur HTML. L'analyseur serait meilleur s'il est proche de l'analyseur HtmlUnit.

EDITAR:

Par mieux, je veux au moins les caractéristiques suivantes :

Vitesse
Il est facile de localiser un élément Html par son "id", son "nom" ou son "type de balise".

Cela me conviendrait s'il ne nettoyait pas le code HTML sale. Je n'ai pas besoin de nettoyer la source HTML. J'ai juste besoin d'un moyen simple de me déplacer à travers les HtmlElements et d'en récolter les données.

Demandé el 30 de Janvier, 2010 par Yatendra Goel

Answer 1

3 Réponses

Answer 2

434voto

Jonathan Hedley Points 4629

Self plug : Je viens de publier un nouveau parseur Java HTML : jsoup . Je le mentionne ici parce que je pense qu'il fera ce que vous recherchez.

Son truc de fête est une syntaxe de sélecteur CSS pour trouver des éléments, par exemple :

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("#head").first();

Voir le Sélecteur javadoc pour plus d'informations.

Il s'agit d'un nouveau projet, donc toute idée d'amélioration est la bienvenue !

Répondu el 31 de Janvier, 2010 par Jonathan Hedley (4629 Points )

Answer 3

33voto

tangens Points 17733

Le meilleur que j'ai vu jusqu'à présent est HtmlCleaner :

HtmlCleaner est un analyseur HTML open-source écrit en Java. Le HTML trouvé sur le Web est généralement sale, mal formé et impropre à un traitement ultérieur. Pour toute consommation sérieuse de tels documents, il est nécessaire d'abord de nettoyer le désordre et de remettre de l'ordre dans les balises, les attributs et le texte ordinaire. Pour le document HTML donné, HtmlCleaner réordonne les éléments individuels et produit un XML bien formé. Par défaut, il suit les mêmes règles que celles utilisées par la plupart des navigateurs web pour créer le Document Object Model. Cependant, l'utilisateur peut fournir des balises personnalisées et un ensemble de règles pour filtrer et équilibrer les balises.

Avec HtmlCleaner, vous pouvez localiser n'importe quel élément en utilisant XPath.

Pour d'autres analyseurs html, voir cette question SO .

Répondu el 30 de Janvier, 2010 par tangens (17733 Points )

Answer 4

10voto

Ms2ger Points 7551

Je propose L'analyseur de Validator.nu basé sur l'algorithme d'analyse du HTML5. Il s'agit de l'analyseur utilisé dans Mozilla à partir du 2010-05-03.

Répondu el 30 de Janvier, 2010 par Ms2ger (7551 Points )

Quel est le meilleur analyseur HTML ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Quel est le meilleur analyseur HTML ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: