J'étudie actuellement les possibilités d'extraction de noms de personnes, de lieux, de mots techniques et de catégories à partir de textes (beaucoup d'articles du web) qui seront ensuite introduits dans un index Lucene/ElasticSearch. Les informations supplémentaires sont ensuite ajoutées en tant que métadonnées et devraient augmenter la précision de la recherche.
Par exemple, lorsque quelqu'un demande "wicket", il devrait pouvoir décider s'il s'agit du sport de cricket ou du projet Apache. J'ai essayé de mettre cela en œuvre par moi-même avec un succès mineur jusqu'à présent. J'ai trouvé de nombreux outils, mais je ne suis pas sûr qu'ils soient adaptés à cette tâche, qu'ils s'intègrent bien à Lucene ou que la précision de l'extraction des entités soit suffisante.
- Dbpedia Spotlight le Démonstration semble très prometteur
- OpenNLP nécessite formation . Quelles données de formation utiliser ?
- Outils OpenNLP
- Stanbol
- NLTK
- balie
- UIMA
- PORTE -> exemple de code
- Apache Mahout
- Stanford CRF-NER
- maui-indexeur
- Maillet
- Tagueur d'entités nommées de l'Illinois Pas open source mais gratuit
- données wikipédiennes
Mes questions :
- Quelqu'un a-t-il de l'expérience avec certains des outils listés ci-dessus et leur précision/rappel ? Ou s'il existe des données de formation requises + disponibles.
- Existe-t-il des articles ou des tutoriels qui me permettent de commencer à extraire des entités (NER) pour chaque outil ?
- Comment peuvent-ils être intégrés à Lucene ?
Voici quelques questions relatives à ce sujet :