Je reçois l'erreur suivante lors de l'appel à cosinus_similarité
numerator = sum(a*b for a,b in zip(x,y))
TypeError: only integer arrays with one element can be converted to an index
J'essaie d'obtenir une matrice de cooccurrence mot-clé-mot-clé à partir de la matrice document-mot-clé renvoyée par CountVectorizer.
Je sens qu'il y a quelque chose qui cosine_similarity
n'aime pas le type de données que je lui transmets, mais je ne sais pas exactement quel est le problème. Ici, n
est de type scipy.sparse.csc.csc_matrix
y y
est de type scipy.sparse.csr.csr_matrix
documents = (
"The sky is blue",
"The sun is bright",
"The sun in the sky is bright",
"We can see the shining sun, the bright sun"
)
countvectorizer = CountVectorizer()
y = countvectorizer.fit_transform(documents)
n = y.T.dot(y)
x = n.tocsr()
x = x.toarray()
numpy.fill_diagonal(x, 0)
result = cosine_similarity(x, "None")