Voici l'itinéraire pour TextRank :
- Document à résumer exprimé sous forme de matrice tf-idf
- (matrice tf-idf)*(matrice tf-idf).Transpose = matrice d'adjacence d'un graphe dont les sommets sont en fait les phrases du document ci-dessus
- Le Page rank est appliqué sur ce graphique -> renvoie les valeurs PR de chaque phrase
Maintenant, ces valeurs PR sont en fait des valeurs propres de cette matrice d'adjacence.
Quelle est la signification physique ou l'intuition derrière tout cela ?
Pourquoi les valeurs propres sont-elles en fait les rangs ?
Voici le lien pour le Page Rank : http://www.cs.princeton.edu/~chazelle/cours/BIB/pagerank.htm
Voici un extrait de la page ci-dessus :
Le PageRank ou PR(A) peut être calculé à l'aide d'un algorithme itératif simple, et correspond au principal vecteur propre de la matrice de liens normalisée du web.
Lien pour TextRank : https://joshbohde.com/blog/document-summarization