Extraire des mots plus significatifs à partir de l'incorporation de mots publiquement disponible

Question

Extraire des mots plus significatifs à partir de l'incorporation de mots publiquement disponible

Demandé el 11 de Août, 2017: Quand la question a-t-elle été
143 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je dispose de deux embeddings de mots disponibles publiquement tels que Glove et Google Word2vec. Cependant, dans leur vocabulaire, il y a trop de mots mal orthographiés ou de mots inutiles (par exemple, ##AA##, adirty, etc.). Pour éviter ces mots, j'aimerais extraire les mots fréquents (par exemple, les 50000 premiers mots) car je pense que les mots relativement fréquents ont des formes normales.

Je me demande donc s'il existe un moyen de trouver la fréquence des mots dans les deux embeddings de mots prétraités ci-dessus. Si non, je veux savoir s'il existe des techniques pour exclure ces mots.

Demandé el 11 de Août, 2017 par yc Kim

Answer 1

1 Réponses

Answer 2

3voto

gojomo Points 3426

L'ensemble vectoriel de GoogleNews ne contient pas d'informations sur la fréquence, mais semble être trié du plus fréquent au moins fréquent. Ainsi, si vous modifiez le code qui le charge pour ne charger que les N premiers mots, vous devriez obtenir les N mots les plus fréquents.

(La bibliothèque Python gensim, qui permet d'apprendre ou de travailler avec des vecteurs de mots, inclut cette fonction en tant qu'option de la bibliothèque. limit de l'option load_word2vec_format() fonction.)

GLoVe peut suivre la même convention - un regard sur l'ordre des mots dans le fichier devrait donner une bonne idée.

Répondu el 11 de Août, 2017 par gojomo (3426 Points )

Extraire des mots plus significatifs à partir de l'incorporation de mots publiquement disponible

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Extraire des mots plus significatifs à partir de l'incorporation de mots publiquement disponible

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: