n-grams en python, quatre, cinq, six grammes ?

Question

n-grams en python, quatre, cinq, six grammes ?

Demandé el 8 de Juillet, 2013: Quand la question a-t-elle été
227804 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je cherche un moyen de diviser un texte en n-grammes. Normalement, je ferais quelque chose comme :

import nltk
from nltk import bigrams
string = "I really like python, it's pretty awesome."
string_bigrams = bigrams(string)
print string_bigrams

Je suis conscient que nltk ne propose que des bigrammes et des trigrammes, mais existe-t-il un moyen de diviser mon texte en quatre-grammes, cinq-grammes ou même cent-grammes ?

Gracias.

Demandé el 8 de Juillet, 2013 par Shifu

Answer 1

5 Réponses

Answer 2

283voto

alvas Points 4333

Grandes réponses basées sur le python natif données par d'autres utilisateurs. Mais voici le nltk (juste au cas où, le PO est pénalisé pour avoir réinventé ce qui existe déjà dans la nltk bibliothèque).

Il existe un module ngram que les gens utilisent rarement dans nltk . Ce n'est pas parce qu'il est difficile de lire des ngrammes, mais la formation d'un modèle basé sur des ngrammes où n > 3 entraînera une grande dispersion des données.

from nltk import ngrams

sentence = 'this is a foo bar sentences and i want to ngramize it'

n = 6
sixgrams = ngrams(sentence.split(), n)

for grams in sixgrams:
  print grams

Répondu el 9 de Juillet, 2013 par alvas (4333 Points )

Answer 3

86voto

inspectorG4dget Points 25092

Je suis surpris que cela n'ait pas encore été mentionné :

In [34]: sentence = "I really like python, it's pretty awesome.".split()

In [35]: N = 4

In [36]: grams = [sentence[i:i+N] for i in xrange(len(sentence)-N+1)]

In [37]: for gram in grams: print gram
['I', 'really', 'like', 'python,']
['really', 'like', 'python,', "it's"]
['like', 'python,', "it's", 'pretty']
['python,', "it's", 'pretty', 'awesome.']

Répondu el 8 de Juillet, 2013 par inspectorG4dget (25092 Points )

Answer 4

26voto

hackSlanger Points 115

Les gens ont déjà répondu assez bien pour le scénario où vous avez besoin de bigrammes ou de trigrammes, mais si vous avez besoin tous les programmes pour la phrase, dans ce cas vous pouvez utiliser nltk.util.everygrams

>>> from nltk.util import everygrams

>>> message = "who let the dogs out"

>>> msg_split = message.split()

>>> list(everygrams(msg_split))
[('who',), ('let',), ('the',), ('dogs',), ('out',), ('who', 'let'), ('let', 'the'), ('the', 'dogs'), ('dogs', 'out'), ('who', 'let', 'the'), ('let', 'the', 'dogs'), ('the', 'dogs', 'out'), ('who', 'let', 'the', 'dogs'), ('let', 'the', 'dogs', 'out'), ('who', 'let', 'the', 'dogs', 'out')]

Si vous avez une limite comme dans le cas des trigrammes où la longueur maximale doit être de 3, vous pouvez utiliser le paramètre max_len pour la spécifier.

>>> list(everygrams(msg_split, max_len=2))
[('who',), ('let',), ('the',), ('dogs',), ('out',), ('who', 'let'), ('let', 'the'), ('the', 'dogs'), ('dogs', 'out')]

Il suffit de modifier le paramètre max_len pour obtenir le gramme souhaité, c'est-à-dire quatre grammes, cinq grammes, six grammes ou même cent grammes.

Les solutions mentionnées précédemment peuvent être modifiées pour mettre en œuvre la solution mentionnée ci-dessus, mais cette solution est beaucoup plus simple que cela.

Pour plus d'informations, cliquez sur ici

Et lorsque vous n'avez besoin que d'un gramme spécifique, comme un bigramme ou un trigramme, vous pouvez utiliser la fonction nltk.util.ngrams comme mentionné dans la réponse de M.A.Hassan.

Répondu el 18 de Décembre, 2018 par hackSlanger (115 Points )

Answer 5

21voto

Δημητρης Παππάς Points 333

Utilisation des outils nltk uniquement

from nltk.tokenize import word_tokenize
from nltk.util import ngrams

def get_ngrams(text, n ):
    n_grams = ngrams(word_tokenize(text), n)
    return [ ' '.join(grams) for grams in n_grams]

Exemple de sortie

get_ngrams('This is the simplest text i could think of', 3 )

['This is the', 'is the simplest', 'the simplest text', 'simplest text i', 'text i could', 'i could think', 'could think of']

Afin de garder les ngrams dans le format tableau, il suffit de supprimer ' '.join

Répondu el 31 de Août, 2015 par Δημητρης Παππάς (333 Points )

Answer 6

17voto

M.A.Hassan Points 460

Voici une autre méthode simple pour faire des n-grams

>>> from nltk.util import ngrams
>>> text = "I am aware that nltk only offers bigrams and trigrams, but is there a way to split my text in four-grams, five-grams or even hundred-grams"
>>> tokenize = nltk.word_tokenize(text)
>>> tokenize
['I', 'am', 'aware', 'that', 'nltk', 'only', 'offers', 'bigrams', 'and', 'trigrams', ',', 'but', 'is', 'there', 'a', 'way', 'to', 'split', 'my', 'text', 'in', 'four-grams', ',', 'five-grams', 'or', 'even', 'hundred-grams']
>>> bigrams = ngrams(tokenize,2)
>>> bigrams
[('I', 'am'), ('am', 'aware'), ('aware', 'that'), ('that', 'nltk'), ('nltk', 'only'), ('only', 'offers'), ('offers', 'bigrams'), ('bigrams', 'and'), ('and', 'trigrams'), ('trigrams', ','), (',', 'but'), ('but', 'is'), ('is', 'there'), ('there', 'a'), ('a', 'way'), ('way', 'to'), ('to', 'split'), ('split', 'my'), ('my', 'text'), ('text', 'in'), ('in', 'four-grams'), ('four-grams', ','), (',', 'five-grams'), ('five-grams', 'or'), ('or', 'even'), ('even', 'hundred-grams')]
>>> trigrams=ngrams(tokenize,3)
>>> trigrams
[('I', 'am', 'aware'), ('am', 'aware', 'that'), ('aware', 'that', 'nltk'), ('that', 'nltk', 'only'), ('nltk', 'only', 'offers'), ('only', 'offers', 'bigrams'), ('offers', 'bigrams', 'and'), ('bigrams', 'and', 'trigrams'), ('and', 'trigrams', ','), ('trigrams', ',', 'but'), (',', 'but', 'is'), ('but', 'is', 'there'), ('is', 'there', 'a'), ('there', 'a', 'way'), ('a', 'way', 'to'), ('way', 'to', 'split'), ('to', 'split', 'my'), ('split', 'my', 'text'), ('my', 'text', 'in'), ('text', 'in', 'four-grams'), ('in', 'four-grams', ','), ('four-grams', ',', 'five-grams'), (',', 'five-grams', 'or'), ('five-grams', 'or', 'even'), ('or', 'even', 'hundred-grams')]
>>> fourgrams=ngrams(tokenize,4)
>>> fourgrams
[('I', 'am', 'aware', 'that'), ('am', 'aware', 'that', 'nltk'), ('aware', 'that', 'nltk', 'only'), ('that', 'nltk', 'only', 'offers'), ('nltk', 'only', 'offers', 'bigrams'), ('only', 'offers', 'bigrams', 'and'), ('offers', 'bigrams', 'and', 'trigrams'), ('bigrams', 'and', 'trigrams', ','), ('and', 'trigrams', ',', 'but'), ('trigrams', ',', 'but', 'is'), (',', 'but', 'is', 'there'), ('but', 'is', 'there', 'a'), ('is', 'there', 'a', 'way'), ('there', 'a', 'way', 'to'), ('a', 'way', 'to', 'split'), ('way', 'to', 'split', 'my'), ('to', 'split', 'my', 'text'), ('split', 'my', 'text', 'in'), ('my', 'text', 'in', 'four-grams'), ('text', 'in', 'four-grams', ','), ('in', 'four-grams', ',', 'five-grams'), ('four-grams', ',', 'five-grams', 'or'), (',', 'five-grams', 'or', 'even'), ('five-grams', 'or', 'even', 'hundred-grams')]

Répondu el 18 de Juin, 2014 par M.A.Hassan (460 Points )

n-grams en python, quatre, cinq, six grammes ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

n-grams en python, quatre, cinq, six grammes ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: