11 votes

Identifier le nom d'une personne par rapport à un mot du dictionnaire

Existe-t-il un moyen de reconnaître qu'un mot est susceptible ou non d'être le nom d'une personne ?

Ainsi, si je vois le mot "comprendre", j'obtiendrai une probabilité de 0,01, alors que le mot "Johnson" renverra une probabilité de 0,99, tandis qu'un mot comme Smith renverra 0,75 et un mot comme Apple 0,15.

Y a-t-il un moyen de le faire ?

Le but est que si quelqu'un cherche, disons Charles Darwin galapagos le moteur de recherche estime qu'il doit rechercher dans le champ auteur les éléments suivants Charles y Darwin et les champs titre et résumé pour galapagos .

8voto

Ask About Monica Points 815

Ma petite astuce serait la suivante :

Obtenez la liste du bureau de recensement des noms par ordre de popularité, elle est disponible gratuitement. Donnez à chaque nom un score de popularité normalisé (1,0 = le plus populaire, 0,0 = le moins populaire).

Ensuite, procurez-vous un dictionnaire open source et faites des recherches pour établir un score de fréquence pour chaque mot. Vous pouvez en trouver un ici, au wiktionnaire . Attribuez à chaque mot un score de popularité, de 1,0 à 0,0. Ce qui est pratique, c'est que si vous ne trouvez pas un mot dans la liste de fréquence, vous pouvez supposer qu'il s'agit d'un mot plutôt rare.

Cherchez un mot dans les deux listes. S'il figure sur l'une ou l'autre, vous avez terminé. S'il figure dans les deux listes, utilisez une formule pour calculer une probabilité pondérée... quelque chose comme (popularité du nom) / (popularité du nom + autre popularité). Si le nom ne figure sur aucune des deux listes, il s'agit probablement d'un nom.

7voto

Qnan Points 3624

Une tâche connexe du traitement du langage naturel est connue sous le nom de reconnaissance d'entités nommées et traite des noms de personnes, d'organisations, de lieux, etc.

La plupart des modèles conçus pour résoudre ce problème sont de nature statistique et utilisent à la fois le contexte et les connaissances antérieures dans leurs prédictions. Il existe un certain nombre d'implémentations open source que l'on peut utiliser, comme par exemple le modèle Stanford NER , voir le Démonstration en ligne .

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X