Comment l'API de Wiktionary peut-elle être utilisée pour déterminer si un mot existe ou non?
Merci; l'API en tant que telle n'est pas ce que j'espérais mais le lien que vous avez fourni est ce que je cherchais.
Comment l'API de Wiktionary peut-elle être utilisée pour déterminer si un mot existe ou non?
Le API Wiktionary peut être utilisé pour savoir si un mot existe ou non.
Exemples de pages existantes et non existantes :
http://en.wiktionary.org/w/api.php?action=query&titles=test
http://en.wiktionary.org/w/api.php?action=query&titles=testx
Le premier lien fournit des exemples sur d'autres types de formats qui pourraient être plus faciles à analyser.
Pour récupérer les données du mot dans un petit format XHTML (si plus que l'existence est nécessaire), demandez la version imprimable de la page :
http://en.wiktionary.org/w/index.php?title=test&printable=yes
http://en.wiktionary.org/w/index.php?title=testx&printable=yes
Ensuite, ces données peuvent être analysées avec n'importe quel analyseur XML standard.
Merci; l'API en tant que telle n'est pas ce que j'espérais mais le lien que vous avez fourni est ce que je cherchais.
Maintenant, il accepte un paramètre de format supplémentaire pour autre chose que la sortie xml comme ceci : fr.wiktionary.org/w/…
Ne fonctionnera peut-être pas comme vous vous y attendez bien que en.wiktionary.org/wiki/Category:English_misspellings en.wiktionary.org/wiki/amatuer
MISE À JOUR 2024 !
Il semble qu'une nouvelle API REST MediaWiki soit apparue depuis la dernière fois que j'ai joué avec ce truc. Et la plus grande nouvelle est qu'elle inclut une méthode pour obtenir des définitions de l'anglais Wiktionnaire!
/page/definition/{term}
Obtenez les définitions des termes basées sur le contenu de Wiktionnaire. Point final expérimental fournissant des définitions de termes extraites du contenu de Wiktionnaire. Actuellement, seul l'anglais Wiktionnaire est pris en charge. Consultez cette page wiki pour des informations complémentaires et des considérations pour un développement ultérieur.Stabilité : stable
Veuillez suivre wikitech-l ou mediawiki-api-announce pour les annonces de modifications importantes.
Ancienne réponse
Il y a quelques précautions à prendre pour vérifier que le Wiktionnaire contient une page avec le nom que vous recherchez :
Précaution #1 : Tous les Wiktionnaires, y compris le Wiktionnaire anglais, ont en réalité pour objectif d'inclure chaque mot dans chaque langue, donc si vous utilisez simplement l'appel API ci-dessus, vous saurez que le mot sur lequel vous posez des questions est un mot dans au moins une langue, mais pas nécessairement l'anglais : http://en.wiktionary.org/w/api.php?action=query&titles=dicare
Précaution #2 : Il se peut qu'une redirection existe d'un mot à un autre. Il peut s'agir d'une orthographe alternative, mais il peut s'agir d'une erreur de quelque sorte. L'appel API ci-dessus ne fera pas la différence entre une redirection et un article : http://en.wiktionary.org/w/api.php?action=query&titles=profilemetry
Précaution #3 : Certains Wiktionnaires, y compris le Wiktionnaire anglais, incluent des "fautes de frappe courantes" : http://en.wiktionary.org/w/api.php?action=query&titles=fourty
Précaution #4 : Certains Wiktionnaires autorisent des entrées rudimentaires qui contiennent peu ou pas d'informations sur le terme. C'était courant sur plusieurs Wiktionnaires mais pas sur le Wiktionnaire anglais. Mais il semble que cela se soit maintenant étendu également au Wiktionnaire anglais : https://en.wiktionary.org/wiki/%E6%99%B6%E7%90%83 (lien permanent pour quand l'entrée rudimentaire est remplie afin que vous puissiez toujours voir à quoi ressemble une entrée rudimentaire : https://en.wiktionary.org/w/index.php?title=%E6%99%B6%E7%90%83&oldid=39757161)
Si cela ne correspond pas à ce que vous voulez, vous devrez charger et analyser le wikitexte lui-même, ce qui n'est pas une tâche facile.
Ce que je voulais vraiment faire était de faire une sauvegarde complète des données sur l'un des sites Wikitionnaire non anglophones, puis de transformer les contenus en quelque chose que je pourrais utiliser localement. Maintenant cela semble ridicule, mais j'espérais pouvoir demander la liste de tous les mots, puis télécharger leurs définitions/traductions un par un au besoin.
La solution pour l'astuce n°2 est simple : ajoutez &prop=info
à la requête et vérifiez la réponse pour l'attribut redirect
.
@svick : Oui, c'est vrai que #2 est plus facile à contourner lorsqu'on utilise l'API, mais ces avertissements de base couvrent également la tentative d'analyser les fichiers de dépôt de données de Wiktionnaire, même si cette question ne porte pas sur cette approche.
Vous pouvez télécharger un export de données de Wiktionnaire. Il y a plus d'informations dans les FAQ. Pour vos besoins, l'export des définitions est probablement un meilleur choix que l'export XML.
Ces fichiers de décharge sont énormes, et il n'est pas clair lesquels télécharger (tous?). Probablement pas ce que la plupart des gens recherchent s'ils veulent simplement rechercher de manière programmée quelques mots.
Je vais expliquer quel fichier télécharger - c'est-à-dire le dump des définitions (le répertoire de mon lien contient juste différentes versions du même fichier), et oui, si vous voulez rechercher les mots de manière programmée, c'est idéal. Si vous pouvez garantir que le programme ne sera exécuté qu'en ligne, il existe d'autres options, mais je réponds néanmoins à cette partie de la question initiale : "Sinon, y a-t-il un moyen de télécharger les données du dictionnaire qui soutient un Wiktionnaire ?"
La citation à laquelle vous faites référence est incorrecte. Voici un lien vers la page JWKTL ukp.tu-darmstadt.de/software/jwktl. Ce n'est pas vraiment ce que je pense que l'OP recherche cependant.
Le deuxième lien est (effectivement) cassé. Il redirige vers une page génétique, _Bienvenue au Laboratoire de Traitement des Connaissances Ubiquitaires (UKP)!_.
La référence à Wikipedia mène à _L'extraction de connaissances sémantiques lexicales de Wikipedia et Wiktionary et "...JWKTL (Java-based WiKTionary Library)..."_.
Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.
1 votes
Toute personne ayant lu la documentation constatera que l'API ne contient pas du tout assez de fonctionnalités pour "récupérer le contenu des mots Wiktionnaire". Je dirais qu'elle vous permet d'avancer d'environ 1%. Vous pouvez récupérer la syntaxe wiki brute ou l'HTML analysé et à partir de là, vous devez tout faire vous-même. Cela dit, il pourrait y avoir une toute nouvelle API expérimentale qui fonctionne uniquement sur le Wiktionnaire anglais.
5 votes
Obtenez tous les articles Wiktionnaire dans des fichiers JSON individuels ici : github.com/dan1wang/jsonbook-builder
0 votes
Une version JSON encore mieux analysée est disponible ici : kaikki.org