3 votes

Extraire des mots plus significatifs à partir de l'incorporation de mots publiquement disponible

Je dispose de deux embeddings de mots disponibles publiquement tels que Glove et Google Word2vec. Cependant, dans leur vocabulaire, il y a trop de mots mal orthographiés ou de mots inutiles (par exemple, ##AA##, adirty, etc.). Pour éviter ces mots, j'aimerais extraire les mots fréquents (par exemple, les 50000 premiers mots) car je pense que les mots relativement fréquents ont des formes normales.

Je me demande donc s'il existe un moyen de trouver la fréquence des mots dans les deux embeddings de mots prétraités ci-dessus. Si non, je veux savoir s'il existe des techniques pour exclure ces mots.

3voto

gojomo Points 3426

L'ensemble vectoriel de GoogleNews ne contient pas d'informations sur la fréquence, mais semble être trié du plus fréquent au moins fréquent. Ainsi, si vous modifiez le code qui le charge pour ne charger que les N premiers mots, vous devriez obtenir les N mots les plus fréquents.

(La bibliothèque Python gensim, qui permet d'apprendre ou de travailler avec des vecteurs de mots, inclut cette fonction en tant qu'option de la bibliothèque. limit de l'option load_word2vec_format() fonction.)

GLoVe peut suivre la même convention - un regard sur l'ordre des mots dans le fichier devrait donner une bonne idée.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X