Je dispose de deux embeddings de mots disponibles publiquement tels que Glove et Google Word2vec. Cependant, dans leur vocabulaire, il y a trop de mots mal orthographiés ou de mots inutiles (par exemple, ##AA##, adirty, etc.). Pour éviter ces mots, j'aimerais extraire les mots fréquents (par exemple, les 50000 premiers mots) car je pense que les mots relativement fréquents ont des formes normales.
Je me demande donc s'il existe un moyen de trouver la fréquence des mots dans les deux embeddings de mots prétraités ci-dessus. Si non, je veux savoir s'il existe des techniques pour exclure ces mots.