Comment trouver une liste avec toutes les balises POS possibles utilisées par Natural Language Toolkit (nltk)?
Réponses
Trop de publicités?Le livre contient une note indiquant comment trouver de l'aide sur les jeux de balises, par exemple:
nltk.help.upenn_tagset()
D'autres sont probablement similaires. (Remarque: vous devez peut-être d'abord télécharger tagsets
partir de la section Modèles de l'aide au téléchargement pour cela)
La balise dépend le corpus qui a été utilisé pour former le tagger.
La valeur par défaut de tagger nltk.pos_tag()
utilise le Penn Treebank Tag Set.
Vous pouvez vérifier les tagger est la valeur par défaut tagger comme suit:
nltk.tag._POS_TAGGER
>>> 'taggers/maxent_treebank_pos_tagger/english.pickle'
Cela signifie que c'est un Maximum d'Entropie tagger formés sur le Treebank corpus.