Pourquoi les valeurs propres de la matrice d'adajcency sont en fait les scores des phrases dans Textrank.

Question

Pourquoi les valeurs propres de la matrice d'adajcency sont en fait les scores des phrases dans Textrank.

Demandé el 2 de Septembre, 2016: Quand la question a-t-elle été
256 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Voici l'itinéraire pour TextRank :

Document à résumer exprimé sous forme de matrice tf-idf
(matrice tf-idf)*(matrice tf-idf).Transpose = matrice d'adjacence d'un graphe dont les sommets sont en fait les phrases du document ci-dessus
Le Page rank est appliqué sur ce graphique -> renvoie les valeurs PR de chaque phrase

Maintenant, ces valeurs PR sont en fait des valeurs propres de cette matrice d'adjacence.
Quelle est la signification physique ou l'intuition derrière tout cela ?

Pourquoi les valeurs propres sont-elles en fait les rangs ?

Voici le lien pour le Page Rank : http://www.cs.princeton.edu/~chazelle/cours/BIB/pagerank.htm

Voici un extrait de la page ci-dessus :
Le PageRank ou PR(A) peut être calculé à l'aide d'un algorithme itératif simple, et correspond au principal vecteur propre de la matrice de liens normalisée du web.

Lien pour TextRank : https://joshbohde.com/blog/document-summarization

Demandé el 2 de Septembre, 2016 par mach

Answer 1

1 Réponses

Answer 2

2voto

Ami Tavory Points 24416

Tout d'abord, votre question est un peu erronée. Les valeurs de l'eigne sont no les scores. Il s'agit plutôt d'une entrées du vecteur propre stationnaire sont les scores.

Textrank travaille sur un approche graphique des mots . Il existe un certain nombre de variantes, mais elles ont en commun les étapes suivantes :

Créez un graphe pondéré où les sommets sont des entités (mots ou phrases) et les poids sont les probabilités de transition entre les entités.
Trouver le matrice stochastique associée au graphe, et noter chaque entité en fonction de sa distribution stationnaire.

Dans ce cas, le graphique est construit comme suit. Tout d'abord, une matrice est construite où les lignes sont des phrases et les colonnes des mots. Les entrées de la matrice sont spécifiées par TF-IDF. Pour trouver la similarité entre les phrases, la matrice normalisée est multipliée par sa transformation. En effet, pour chaque phrase et chaque mot, il existe une similarité entre les phrases basée sur le produit du TF-IDF du mot dans chaque phrase, et nous devons faire la somme de tous les mots. Si vous y réfléchissez un peu, la somme des produits est exactement ce que fait la multiplication d'une matrice par sa transposée.

Nous avons donc maintenant une matrice stochastique P qui peut être interprétée comme la probabilité de transition de la phrase i à la condamnation j . Le score est la distribution stationnaire x ce qui signifie que

P x = x = 1 x .

Cela signifie que x est le vecteur propre associé à la valeur propre 1. Par la méthode Théorème de Perron-Frobenius ce vecteur propre existe sous certaines conditions légères, et 1 est la plus grande valeur propre. Cette dernière partie correspond essentiellement au Pagerank.

Répondu el 2 de Septembre, 2016 par Ami Tavory (24416 Points )

Pourquoi les valeurs propres de la matrice d'adajcency sont en fait les scores des phrases dans Textrank.

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Pourquoi les valeurs propres de la matrice d'adajcency sont en fait les scores des phrases dans Textrank.

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: