13 votes

Analyseur pour Wikipedia

J'ai téléchargé un fichier Wikipedia et je veux convertir le format wiki dans mon format objet. Existe-t-il un analyseur de wiki qui convertit l'objet en XML ?

7voto

dogbane Points 85749

Voir java-wikipedia-parser . Je ne l'ai jamais utilisé mais d'après les documents :

L'analyseur est accompagné d'un fichier HTML . Vous pouvez cependant contrôler la qui est généré en utilisant passin be.devijver.wikipedia.Visitor l'interface.

2voto

Skarab Points 2261

Je ne sais pas comment se présente exactement le format xml de Wikipedia dump. Mais si une partie du texte est en balisage Wikipédia, je suggère d'investiguer. http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html . Il s'agit d'une des classes d'un paquetage Wikipédia pour apache lucene. Je ne l'ai pas utilisé mais apache lucene est un projet assez mature, il vaut donc la peine d'essayer son package -- dans ce cas expérimental --.

2voto

cleverpig Points 124

L'analyseur JWPL analyse la structure d'un texte avec le balisage MediaWiki et le représente comme un objet Java. Cela permet un accès structuré au contenu de Wikipedia ou de Wiktionary, par exemple. Il n'existe pas de version autonome de l'analyseur, car il fait partie de la version de l'API JWPL Wikipédia. Cependant, il peut parfaitement être utilisé sans accéder à Wikipédia avec JWPL.

http://code.google.com/p/jwpl/wiki/JWPLParser

1voto

Andreas_D Points 64111

Ceci pourrait vous aider : une page avec des convertisseurs de mediawiki vers d'autres formats, y compris docbook . Docbook est un format standard basé sur le xml qui pourrait répondre à vos besoins (représentation xml du contenu de mediawiki).

0voto

user899157 Points 41

Vous pouvez utiliser un large éventail d'outils pour analyser votre contenu. Tous les langages script ont des modules. Par exemple, le langage Perl a Text::Markup::Trac qui est l'analyseur syntaxique du wiki Trac pour Text::Markup. Il génère un fichier HTML.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X