Analyser le code HTML d'un site Web avec JAVA

Question

Analyser le code HTML d'un site Web avec JAVA

Demandé el 30 de Janvier, 2012: Quand la question a-t-elle été
92946 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je veux analyser un site web simple et récupérer des informations à partir de ce site.

J'avais l'habitude d'analyser les fichiers XML avec DocumentBuilderFactory, j'ai essayé de faire la même chose pour le fichier html mais il y a toujours une boucle infinie.

    URL url = new URL("http://www.deneme.com");
    URLConnection uc = url.openConnection();

    InputStreamReader input = new InputStreamReader(uc.getInputStream());
    BufferedReader in = new BufferedReader(input);
    String inputLine;

     FileWriter outFile = new FileWriter("orhancan");
     PrintWriter out = new PrintWriter(outFile);

    while ((inputLine = in.readLine()) != null) {
        out.println(inputLine);
    }

    in.close();
    out.close();

    File fXmlFile = new File("orhancan");
    DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
    DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
    Document doc = dBuilder.parse(fXmlFile);

    NodeList prelist = doc.getElementsByTagName("body");
    System.out.println(prelist.getLength());

Quel est le problème ? Ou existe-t-il un moyen plus simple de récupérer des données d'un site Web pour une balise html donnée ?

Demandé el 30 de Janvier, 2012 par CanCeylan

Answer 1

3 Réponses

Answer 2

88voto

Amir Raminfar Points 17939

Il existe un moyen beaucoup plus simple de le faire. Je suggère d'utiliser JSoup . Avec JSoup, vous pouvez faire des choses comme

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

Ou si vous voulez le corps :

Elements body = doc.select("body");

Ou si vous voulez tous les liens :

Elements links = doc.select("body a");

Vous n'avez plus besoin d'obtenir des connexions ou de gérer des flux. C'est simple. Si vous avez déjà utilisé jQuery, c'est très similaire à cela.

Répondu el 30 de Janvier, 2012 par Amir Raminfar (17939 Points )

Answer 3

22voto

Diego Palomar Points 1253

Définitivement JSoup est la réponse ;-)

Répondu el 8 de Mai, 2013 par Diego Palomar (1253 Points )

Answer 4

5voto

Jan Points 1670

Le HTML n'est pas toujours un XML valide et bien formaté. Essayez un analyseur HTML spécial au lieu d'un analyseur XML. Il y en a plusieurs disponibles :

http://java-source.net/open-source/html-parsers

Répondu el 30 de Janvier, 2012 par Jan (1670 Points )

Analyser le code HTML d'un site Web avec JAVA

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Analyser le code HTML d'un site Web avec JAVA

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: