9 votes

Méthodes de géolocalisation ou de géoétiquetage du contenu textuel

Quels sont certains bons algorithmes pour étiqueter automatiquement le texte avec la ville / région d'origine ? C'est-à-dire, si un blog parle de New York, comment puis-je le déterminer de manière programmatique. Y a-t-il des packages / articles qui prétendent faire cela avec un certain degré de certitude ?

J'ai examiné certaines approches basées sur le tf-idf, les intersections de noms propres, mais jusqu'à présent, aucun succès spectaculaire, et j'apprécierais des idées !

La question plus générale concerne l'attribution de textes à des sujets, en fonction d'une liste de sujets donnée.

Des approches simples / naïves sont préférées aux approches bayésiennes complètes, mais je suis ouvert.

13voto

Aleksandar Dimitrov Points 4862

Vous recherchez un système de reconnaissance d'entités nommées, ou NER. Il existe plusieurs bons outils disponibles pour vous aider. En particulier, LingPipe propose un tutoriel assez décent. CAGEclass semble être axé sur la reconnaissance d'entités nommées dans les noms de lieu géographique, mais je ne l'ai pas encore utilisé.

Si vous optez pour Java, je vous recommande d'utiliser les classes NER de LingPipe. OpenNLP en propose également, mais le premier est mieux documenté.

Si vous recherchez des bases théoriques, Chavez et al. (2005) ont mis au point un système intéressant et l'ont documenté.

2voto

Mark Bessey Points 13931

Latent Semantic Mapping semble potentiellement bien adapté. C'est à peu près aussi naïf qu'un algorithme que vous êtes susceptible de trouver.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X