Quels sont certains bons algorithmes pour étiqueter automatiquement le texte avec la ville / région d'origine ? C'est-à-dire, si un blog parle de New York, comment puis-je le déterminer de manière programmatique. Y a-t-il des packages / articles qui prétendent faire cela avec un certain degré de certitude ?
J'ai examiné certaines approches basées sur le tf-idf, les intersections de noms propres, mais jusqu'à présent, aucun succès spectaculaire, et j'apprécierais des idées !
La question plus générale concerne l'attribution de textes à des sujets, en fonction d'une liste de sujets donnée.
Des approches simples / naïves sont préférées aux approches bayésiennes complètes, mais je suis ouvert.