Parser pour extraire les URIs d'une page web RDF/XML pour mon Web-Crawler en Java

Question

Parser pour extraire les URIs d'une page web RDF/XML pour mon Web-Crawler en Java

Demandé el 21 de Septembre, 2012: Quand la question a-t-elle été
470 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis en train de construire un Crawler web pour les données liées. J'ai différencié les pages HTML et RDF/XML par le code suivant :

public static int checktype(URL url) throws IOException
{
String contentType = ((HttpURLConnection) url.openConnection()).getContentType();
System.out.println("Website is read"); 
int t=0;
if("text/html".equals(contentType)) {t=0;}
else if("application/rdf+xml".equals(contentType)) {t=1;}
System.out.println(contentType);
return t;

}

Je veux maintenant analyser une page web avec des données RDF/XML pour extraire tous les URI de cette page. Je peux trouver des analyseurs HTML mais pas pour les données liées. Merci de m'aider

Demandé el 21 de Septembre, 2012 par Prannoy Mittal

Answer 1

2 Réponses

Answer 2

2voto

cygri Points 5462

Il est probablement préférable d'utiliser une bibliothèque existante, par exemple Apache Any23 qui contient déjà un code permettant de distinguer automatiquement les différents formats y pour tous les formats.

Répondu el 21 de Septembre, 2012 par cygri (5462 Points )

Answer 3

1voto

Pierre Points 15256

Voir le Bibliothèque de Iéna . Il contient un Analyseur RDF/XML .

Répondu el 21 de Septembre, 2012 par Pierre (15256 Points )

Parser pour extraire les URIs d'une page web RDF/XML pour mon Web-Crawler en Java

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Parser pour extraire les URIs d'une page web RDF/XML pour mon Web-Crawler en Java

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: