Méthodes de géolocalisation ou de géoétiquetage du contenu textuel

Question

Méthodes de géolocalisation ou de géoétiquetage du contenu textuel

Demandé el 2 de Octobre, 2008: Quand la question a-t-elle été
6541 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Quels sont certains bons algorithmes pour étiqueter automatiquement le texte avec la ville / région d'origine ? C'est-à-dire, si un blog parle de New York, comment puis-je le déterminer de manière programmatique. Y a-t-il des packages / articles qui prétendent faire cela avec un certain degré de certitude ?

J'ai examiné certaines approches basées sur le tf-idf, les intersections de noms propres, mais jusqu'à présent, aucun succès spectaculaire, et j'apprécierais des idées !

La question plus générale concerne l'attribution de textes à des sujets, en fonction d'une liste de sujets donnée.

Des approches simples / naïves sont préférées aux approches bayésiennes complètes, mais je suis ouvert.

Demandé el 2 de Octobre, 2008 par Gregg Lind

Answer 1

2 Réponses

Answer 2

13voto

Aleksandar Dimitrov Points 4862

Vous recherchez un système de reconnaissance d'entités nommées, ou NER. Il existe plusieurs bons outils disponibles pour vous aider. En particulier, LingPipe propose un tutoriel assez décent. CAGEclass semble être axé sur la reconnaissance d'entités nommées dans les noms de lieu géographique, mais je ne l'ai pas encore utilisé.

Si vous optez pour Java, je vous recommande d'utiliser les classes NER de LingPipe. OpenNLP en propose également, mais le premier est mieux documenté.

Si vous recherchez des bases théoriques, Chavez et al. (2005) ont mis au point un système intéressant et l'ont documenté.

Répondu el 2 de Octobre, 2008 par Aleksandar Dimitrov (4862 Points )

Answer 3

2voto

Mark Bessey Points 13931

Latent Semantic Mapping semble potentiellement bien adapté. C'est à peu près aussi naïf qu'un algorithme que vous êtes susceptible de trouver.

Répondu el 2 de Octobre, 2008 par Mark Bessey (13931 Points )

Méthodes de géolocalisation ou de géoétiquetage du contenu textuel

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Méthodes de géolocalisation ou de géoétiquetage du contenu textuel

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: