Vous représentez les termes qui apparaissent dans les documents comme un poids dans un vecteur, où chaque position d'index est le "poids" d'un terme. Par exemple, si nous supposons un document "hello world", et que nous avons associé la position 0 à l'importance de "hello" et la position 1 à l'importance de world, et que nous mesurons l'importance comme le nombre de fois où le terme apparaît, le document est vu comme d = (1, 1).
En même temps, un document disant seulement "bonjour" serait (1, 0).
Cette représentation peut être basée sur n'importe quelle mesure de l'importance des termes dans les documents, la fréquence des termes (comme suggéré par @Pedrom) étant l'option la plus simple. La technique la plus courante, et pourtant assez simple, consiste à appliquer TF-IDF qui combine la fréquence d'un terme dans le document et sa rareté dans la collection.
J'espère que cela vous aidera,