Raclage Web avec Java

Question

Raclage Web avec Java

Demandé el 8 de Juillet, 2010: Quand la question a-t-elle été
33676 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je ne parviens pas à trouver un bon site Web en grattant une API basée sur Java. Le site que je dois gratter ne fournit pas non plus d’API; Je souhaite parcourir toutes les pages Web en utilisant un identifiant de page et extraire les titres HTML / autres éléments de leurs arborescences DOM.

Existe-t-il d'autres moyens que le raclage Web?

Merci

Demandé el 8 de Juillet, 2010 par NoneType

Answer 1

5 Réponses

Answer 2

101voto

Wajdy Essam Points 2215

extraire le titre n’est pas difficile, et vous avez beaucoup d’options (cherchez ici dans SO pour HTML Parsers en Java )

l'un d'eux est use: http://jsoup.org/

vous pouvez naviguer dans la page avec DOM si vous connaissez la structure de la page: http://jsoup.org/cookbook/extracting-data/dom-navigation

c'est une bonne bibliothèque et je l'utilise dans mes derniers projets.

Répondu el 8 de Juillet, 2010 par Wajdy Essam (2215 Points )

Answer 3

22voto

KJW Points 2182

Votre meilleur pari est d’utiliser Selenium Web Driver car il

Fournit un retour visuel au codeur (voyez votre action en cours, voyez où elle s'arrête)
Précis et cohérent car il contrôle directement le navigateur que vous utilisez.
Lent. Ne frappe pas les pages Web comme HtmlUnit, mais parfois vous ne voulez pas frapper trop vite.

Htmlunit est rapide mais horrible à manipuler Javascript et AJAX.

Répondu el 23 de Septembre, 2010 par KJW (2182 Points )

Answer 4

15voto

Beschi Points 67

HTMLUnit peut être utilisé pour le Web, il prend en charge l’appel de pages, le remplissage et la soumission de formulaires. Je l'ai utilisé dans mon projet. C'est une bonne bibliothèque java pour le scraping. lire ici pour plus

Répondu el 21 de Juillet, 2011 par Beschi (67 Points )

Answer 5

5voto

user1374041 Points 41

mécaniser pour Java serait un bon choix pour cela, et comme Wadjy Essam l'a mentionné, il utilise JSoup pour HMLT. mécanize est un client HTTP / HTML complexe qui prend en charge la navigation, la soumission de formulaires et le grattage de pages.

http://gistlabs.com/software/mechanize-for-java/ (et le GitHub ici https://github.com/GistLabs/mechanize )

Répondu el 17 de Septembre, 2012 par user1374041 (41 Points )

Answer 6

1voto

Riduidel Points 13456

Je vous suggère une combinaison de Groovy et HtmlUnit . Pour une gestion de niveau inférieur, vous pouvez utiliser HttpBuilder .

Répondu el 8 de Juillet, 2010 par Riduidel (13456 Points )

Raclage Web avec Java

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Raclage Web avec Java

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: