2 votes

Parser pour extraire les URIs d'une page web RDF/XML pour mon Web-Crawler en Java

Je suis en train de construire un Crawler web pour les données liées. J'ai différencié les pages HTML et RDF/XML par le code suivant :

public static int checktype(URL url) throws IOException
{
String contentType = ((HttpURLConnection) url.openConnection()).getContentType();
System.out.println("Website is read"); 
int t=0;
if("text/html".equals(contentType)) {t=0;}
else if("application/rdf+xml".equals(contentType)) {t=1;}
System.out.println(contentType);
return t;

}

Je veux maintenant analyser une page web avec des données RDF/XML pour extraire tous les URI de cette page. Je peux trouver des analyseurs HTML mais pas pour les données liées. Merci de m'aider

2voto

cygri Points 5462

Il est probablement préférable d'utiliser une bibliothèque existante, par exemple Apache Any23 qui contient déjà un code permettant de distinguer automatiquement les différents formats y pour tous les formats.

1voto

Pierre Points 15256

Voir le Bibliothèque de Iéna . Il contient un Analyseur RDF/XML .

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X