J'ai un dataframe pandas avec une colonne text
consiste en news articles
. Donné comme:-
text
article1
article2
article3
article4
J'ai calculé les valeurs Tf-IDF pour les articles de la manière suivante : -.
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
matrix_1 = tfidf.fit_transform(df['text'])
Comme mon cadre de données est mis à jour de temps en temps. Ainsi, disons qu'après avoir calculé of-if comme matrice_1, mon cadre de données a été mis à jour avec plus d'articles. Quelque chose comme :
text
article1
article2
article3
article4
article5
article6
article7
Comme j'ai des millions d'articles, je veux stocker une matrice tf-IDF de l'article précédent et la mettre à jour avec les scores tf-IDF du nouvel article. L'exécution du code of-IDF pour tous les articles, encore et encore, consommerait beaucoup de mémoire. Existe-t-il un moyen de réaliser cette opération ?