J'ai une série d'éléments textuels - HTML brut provenant d'une base de données MySQL. Je veux trouver les phrases les plus courantes dans ces entrées (pas la phrase la plus courante, et idéalement, sans imposer une correspondance mot à mot).
Mon exemple est n'importe quelle critique sur Yelp.com, qui montre 3 extraits parmi des centaines de critiques d'un restaurant donné, dans le format:
"Essayez le hamburger" (dans 44 critiques)
par exemple, la section "Points forts de l'avis" de cette page:
http://www.yelp.com/biz/sushi-gen-los-angeles/
J'ai NLTK installé et j'ai un peu joué avec, mais je suis franchement dépassé par les options. Cela semble être un problème assez courant et je n'ai pas pu trouver de solution directe en cherchant ici.
1 votes
Avec nltk, il est assez facile d'obtenir des bigrammes et des trigrammes, mais ce que je recherche sont des phrases probablement de 7 à 8 mots de longueur. Je n'ai pas encore trouvé comment faire en sorte que nltk (ou une autre méthode) fournisse de tels 'octogrammes' et plus.
0 votes
Peut-être pouvez-vous essayer des algorithmes basés sur des graphes comme TextRank - github.com/ceteri/pytextrank