J'essaie de comprendre comment extraire des informations d'une page Web et les intégrer dans mon programme (en Java).
Par exemple, si je connais la page exacte dont je veux obtenir l'information, pour simplifier, une page d'article Best Buy, comment puis-je obtenir l'information appropriée dont j'ai besoin sur cette page ? Comme le titre, le prix, la description ?
Quel serait le nom de ce processus ? Je n'ai aucune idée de l'endroit où commencer les recherches.
Edit : Bon, j'exécute un test pour le JSoup (celui posté par BalusC), mais je continue à obtenir cette erreur :
Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object;
at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209)
at org.jsoup.parser.Parser.parseStartTag(Parser.java:117)
at org.jsoup.parser.Parser.parse(Parser.java:76)
at org.jsoup.parser.Parser.parse(Parser.java:51)
at org.jsoup.Jsoup.parse(Jsoup.java:28)
at org.jsoup.Jsoup.parse(Jsoup.java:56)
at test.main(test.java:12)
J'ai Apache Commons
1 votes
Vous avez un problème avec LinkedList car LinkedList.peekFirst est apparu en java 1.6, et vous semblez utiliser une version antérieure.
2 votes
Ce processus est communément appelé "screen scraping" et est utilisé lorsqu'une API (comme SOAP) n'est pas disponible mais qu'une interface graphique web l'est. Il implique que votre application se fasse passer pour un navigateur Web et analyse les pages HTML (plus ou moins) manuellement. Je vous suggère de considérer l'une des API listées ci-dessous qui automatisent une grande partie de l'analyse.