J'ai téléchargé un fichier Wikipedia et je veux convertir le format wiki dans mon format objet. Existe-t-il un analyseur de wiki qui convertit l'objet en XML ?
Réponses
Trop de publicités?Voir java-wikipedia-parser . Je ne l'ai jamais utilisé mais d'après les documents :
L'analyseur est accompagné d'un fichier HTML . Vous pouvez cependant contrôler la qui est généré en utilisant passin
be.devijver.wikipedia.Visitor
l'interface.
Je ne sais pas comment se présente exactement le format xml de Wikipedia dump. Mais si une partie du texte est en balisage Wikipédia, je suggère d'investiguer. http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html . Il s'agit d'une des classes d'un paquetage Wikipédia pour apache lucene. Je ne l'ai pas utilisé mais apache lucene est un projet assez mature, il vaut donc la peine d'essayer son package -- dans ce cas expérimental --.
L'analyseur JWPL analyse la structure d'un texte avec le balisage MediaWiki et le représente comme un objet Java. Cela permet un accès structuré au contenu de Wikipedia ou de Wiktionary, par exemple. Il n'existe pas de version autonome de l'analyseur, car il fait partie de la version de l'API JWPL Wikipédia. Cependant, il peut parfaitement être utilisé sans accéder à Wikipédia avec JWPL.
Ceci pourrait vous aider : une page avec des convertisseurs de mediawiki vers d'autres formats, y compris docbook . Docbook est un format standard basé sur le xml qui pourrait répondre à vos besoins (représentation xml du contenu de mediawiki).
Vous pouvez utiliser un large éventail d'outils pour analyser votre contenu. Tous les langages script ont des modules. Par exemple, le langage Perl a Text::Markup::Trac qui est l'analyseur syntaxique du wiki Trac pour Text::Markup. Il génère un fichier HTML.
- Réponses précédentes
- Plus de réponses