Existe-t-il un moyen d'itérer dans un dictionnaire pour compter le nombre de mots contenant la chaîne de caractères stockée dans le dictionnaire, et de l'enregistrer dans un nouveau dictionnaire qui renvoie le nombre de mots pour chaque élément de cette clé ?
Par exemple...
#Input:
inputdict = {
'key1': 'The brown fox is brown and a fox.',
'key2': 'The red dog is the red and is a dog.'
}
newdict = {}
for k, v in inputdict:
newdict(str(k) + "_" + str(v)) = count(v)
#Output:
newdict = {
'key1_the': 1, 'key1_brown': 2, 'key1_is': 1, # ...
'key2_the': 2, 'key2_red': 2, # ...
}
Note complémentaire : Il s'agit d'une sorte de suivi d'un article à https://janav.wordpress.com/2013/10/27/tf-idf-and-cosine-similarity/ . Au lieu de lire des chaînes de caractères, j'essaie de lire des éléments d'un dictionnaire.