4 votes

Pourquoi les valeurs propres de la matrice d'adajcency sont en fait les scores des phrases dans Textrank.

Voici l'itinéraire pour TextRank :

  1. Document à résumer exprimé sous forme de matrice tf-idf
  2. (matrice tf-idf)*(matrice tf-idf).Transpose = matrice d'adjacence d'un graphe dont les sommets sont en fait les phrases du document ci-dessus
  3. Le Page rank est appliqué sur ce graphique -> renvoie les valeurs PR de chaque phrase

Maintenant, ces valeurs PR sont en fait des valeurs propres de cette matrice d'adjacence.
Quelle est la signification physique ou l'intuition derrière tout cela ?

Pourquoi les valeurs propres sont-elles en fait les rangs ?

Voici le lien pour le Page Rank : http://www.cs.princeton.edu/~chazelle/cours/BIB/pagerank.htm

Voici un extrait de la page ci-dessus :
Le PageRank ou PR(A) peut être calculé à l'aide d'un algorithme itératif simple, et correspond au principal vecteur propre de la matrice de liens normalisée du web.

Lien pour TextRank : https://joshbohde.com/blog/document-summarization

2voto

Ami Tavory Points 24416

Tout d'abord, votre question est un peu erronée. Les valeurs de l'eigne sont no les scores. Il s'agit plutôt d'une entrées du vecteur propre stationnaire sont les scores.

Textrank travaille sur un approche graphique des mots . Il existe un certain nombre de variantes, mais elles ont en commun les étapes suivantes :

  1. Créez un graphe pondéré où les sommets sont des entités (mots ou phrases) et les poids sont les probabilités de transition entre les entités.

  2. Trouver le matrice stochastique associée au graphe, et noter chaque entité en fonction de sa distribution stationnaire.

Dans ce cas, le graphique est construit comme suit. Tout d'abord, une matrice est construite où les lignes sont des phrases et les colonnes des mots. Les entrées de la matrice sont spécifiées par TF-IDF. Pour trouver la similarité entre les phrases, la matrice normalisée est multipliée par sa transformation. En effet, pour chaque phrase et chaque mot, il existe une similarité entre les phrases basée sur le produit du TF-IDF du mot dans chaque phrase, et nous devons faire la somme de tous les mots. Si vous y réfléchissez un peu, la somme des produits est exactement ce que fait la multiplication d'une matrice par sa transposée.

Nous avons donc maintenant une matrice stochastique P qui peut être interprétée comme la probabilité de transition de la phrase i à la condamnation j . Le score est la distribution stationnaire x ce qui signifie que

P x = x = 1 x .

Cela signifie que x est le vecteur propre associé à la valeur propre 1. Par la méthode Théorème de Perron-Frobenius ce vecteur propre existe sous certaines conditions légères, et 1 est la plus grande valeur propre. Cette dernière partie correspond essentiellement au Pagerank.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X