Je dois prendre un paragraphe de texte et en extraire une liste de "tags". La plupart de ces opérations sont assez simples. Cependant, j'ai besoin d'un peu d'aide pour la troncature de la liste de mots résultante afin d'éviter les doublons. Exemple : Communauté / Communautés
J'ai utilisé une implémentation de l'algorithme de Porter Stemmer (j'écris en PHP) :
http://tartarus.org/~martin/PorterStemmer/php.txt
Cela fonctionne jusqu'à un certain point, mais ne renvoie pas de "vrais" mots. L'exemple ci-dessus a pour racine "commun".
J'ai essayé "Snowball" (suggéré dans un autre fil de Stack Overflow).
http://snowball.tartarus.org/demo.php
Pour mon exemple (communauté / communautés), Snowball part de "communiti".
Question
Existe-t-il d'autres algorithmes d'extraction qui permettent d'obtenir ce résultat ? Quelqu'un d'autre a-t-il résolu ce problème ?
Je pense actuellement que je pourrais utiliser un algorithme d'extraction pour éviter les doublons, puis choisir le mot le plus court que je rencontre comme mot à afficher.