181 votes

Java Stanford NLP: Étiquettes de parties du discours?

Le Stanford NLP, démontré ici, donne une sortie comme ceci :

Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./.

Que signifient les balises de Partie du Discours? Je ne parviens pas à trouver une liste officielle. Est-ce un système propre à Stanford, ou utilisent-ils des balises universelles? (Que signifie JJ, par exemple?)

Aussi, lorsque je parcours les phrases à la recherche de noms, par exemple, je finis par vérifier si la balise .contains('N'). Cela semble assez faible. Y a-t-il un moyen plus efficace de rechercher programmation un certain partie du discours?

0 votes

Il s'agit peut-être d'un détail, mais vous devriez utiliser .starts_with('N') plutôt que contains, car 'IN' et 'VBN' contiennent également 'N'. Et c'est probablement la meilleure façon de trouver les mots que l'étiqueteur considère comme des noms.

287voto

anno Points 2128

Le projet Penn Treebank. Regardez le tagging de parties du discours.

JJ est un adjectif. NNS est un nom, pluriel. VBP est un verbe au présent. RB est un adverbe.

C'est pour l'anglais. Pour le chinois, c'est le Penn Chinese Treebank. Et pour l'allemand, c'est le corpus NEGRA.

  1. CC Conjonction de coordination
  2. CD Nombre cardinal
  3. DT Déterminant
  4. EX Existenceil
  5. FW Mot étranger
  6. IN Préposition ou conjonction de subordination
  7. JJ Adjectif
  8. JJR Adjectif, comparatif
  9. JJS Adjectif, superlatif
  10. LS Marqueur d'élément de liste
  11. MD Modal
  12. NN Nom, singulier ou massif
  13. NNS Nom, pluriel
  14. NNP Nom propre, singulier
  15. NNPS Nom propre, pluriel
  16. PDT Predéterminant
  17. POS Terme de possession
  18. PRP Pronom personnel
  19. PRP$ Pronom possessif
  20. RB Adverbe
  21. RBR Adverbe, comparatif
  22. RBS Adverbe, superlatif
  23. RP Particule
  24. SYM Symbole
  25. TO à
  26. UH Interjection
  27. VB Verbe, forme de base
  28. VBD Verbe, passé
  29. VBG Verbe, gérondif ou participe présent
  30. VBN Verbe, participe passé
  31. VBP Verbe, présent non-3e personne du singulier
  32. VBZ Verbe, 3e personne du singulier au présent
  33. WDT Pronom interrogatif et déterminant
  34. WP Pronom interrogatif
  35. WP$ Pronom interrogatif possessif
  36. WRB Adverbe interrogatif

0 votes

Ma suggestion de modification pour corriger une lacune dans cette réponse a été rejetée. Par conséquent, veuillez également consulter ma réponse postée ci-dessous qui contient des informations manquantes dans cette réponse.

3 votes

Qu'est-ce que le 10ème LS exactement ?

4 votes

"to" doit être spécial. a son propre tag

119voto

vaichidrewar Points 2154

Explication de chaque balise de la documentation :

CC : conjonction, coordonnant
     & 'n et les deux mais soit et moins moins non ou plus donc
     par conséquent fois v. contre vs. si encore
CD : numéral, cardinal
     mi-1890 neuf-trente quarante-deux un-dixième dix millions 0,5 quarante
     et sept 1987 vingt '79 zéro deux 78 degrés quatre-vingt-quatre IX '60s .025
     quinze 271,124 douzaine quintillion DM2,000 ...
DT : déterminant
     tout une un autre tout deux chaque l'un ou l'autre chaque demi la beaucoup nul
     ni non certains tels que les leur ceux-là
EX : pronom existentiel
     il y a
FW : mot étranger
     gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
     lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
     terram fiche oui corporis ...
IN : préposition ou conjonction, subordonnant
     à cheval parmi uppon que dehors à l'intérieur pro malgré sur par tout au long de
     ci-dessous pour vers près derrière au sommet autour si comme jusqu'à ci-dessous
     suivant dans si à côté de...
JJ : adjectif ou numéral, ordinal
     troisième mal élevé pré-guerre regrettable huilé calamiteux premier séparable
     ectoplasmique à piles participatif quart toujours à nommer
     multilingue pluridisciplinaire ...
JJR : adjectif, comparatif
     plus sombre plus courageux plus aéré plus bref plus lumineux plus vif plus large plus
     détendu plus occupé plus calme moins cher plus exigeant plus propre plus clair plus proche plus froid plus commun plus
     plus coûteux plus intime plus crémeux plus croustillant plus mignon ...
JJS : adjectif, superlatif
     le plus calme le moins cher le plus élégant la plus classe la plus propre la plus claire
     le plus proche le plus commun le plus ringard le plus coûteux le plus crasseux le plus effrayant
     dearest le plus profond le plus dense le plus dinky ...
LS : marqueur d'élément de liste
     A A. B B. C C. D E F Premier G H I J K Un SP-44001 SP-44002 SP-44005
     SP-44007 Deux Troisième Trois Deux * a b c d premier cinq quatre un six trois deux
MD : auxiliaire modal
     peut ne peut pas pourrait ne pas oser peut mais need ought va devrait
     ne devrait pas volonté serait
NN : nom, commun, singulier ou de masse
     navetteuse chou marteau-cafard Casino afghan hangar thermostat
     investissement toboggan humour baisse de l'Afrique de l'ouest hyène remplacement
     méchanceté suellariste machiniste ...
NNS : nom, commun, pluriel
     étudiants scotchs bric-à-brac produits gardes du corps facettes côtes
     cessions dépôts conceptions clubs parfums moyenne
     subjectivistes appréhensions muses emplois d'usine ...
NNP : nom, propre, singulier
     Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
     Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
     Shannon A.K.C. Meltex Liverpool ...
NNPS : nom, propre, pluriel
     Américains Amériques Amharas Amityvilles Amusements Anarcho-Syndicalistes
     Andalousiens Andes Andruses Anges Animaux Anthony Antilles Antiquités
     Apache Apaches  ...
PDT : prédéterminant
     tous les deux moitié beaucoup assez tel sûr ce
POS : marqueur génitif
     ' 's
PRP : pronom, personnel
     à elle-même lui-même soi-même lui-même it lui-même moi-même moi-même soi
     matérialiser nous-nous-même soi elle thee leur eux-mêmes ils thou ton nous
PRP$ : pronom, possessif
     sa sienne le mien mon notre nôtre leur ton votre
RB : adverbe
     occasionnellement inlassablement enrageant aventureusement professément
     émouvant éminemment technologiquement magistralement prédominamment
     rapidement fiscally impitoyablement ...
RBR : adverbe, comparatif
     le plus loin plus lugubre grandiose plus grave plus grand plus sinistre plus dur plus dur
     plus sain plus lourd plus élevé cependant plus grand plus tard plus maigre plus long plus
     moins parfaitement moins moindre plus seul plus
RBS : adverbe, superlatif
     le meilleur le plus grand le plus émoussé le plus tôt le plus loin le premier le plus loin
     le plus dur le plus chaleureux le plus grand le plus petit le moins le plus le plus près le deuxième le plus serré
RP : particule
     à bord autour à travers le long à part autour à côté à l'écart en arrière
     avant derrière par assiette vers l'avant de aller haut c'est-à-dire dans en juste plus tard
     faible plus sur ouvrir hors sur passé tourteau start dents ça à travers
     dessous jusqu'à sur entier avec toi
SYM : symbole
     % & ' '' ''. ) ). * + ,. < = > @ A[fj] U.S U.S.S.R * ** ***
TO : "à" comme préposition ou marqueur infinitif
     à
UH : interjection
     Au revoir Goody Gosh Wow Jeepers Jee-sus Hubba Hey Kee-reist Oops amen euh salut
     dammit whammo shucks heck de toute façon whodunnit honey golly
     homme bébé diddle chut fils de pute ...
VB : verbe, forme de base
     demander assembler évaluer attribuer supposer expier attention éviter cuire balkanize
     banque débuter contempler croire plier bénéficier être averti bénir bouillir bombe
     pousser pause rupture apporter rôtir construire ...
VBD : verbe, passé
     trempé plaidé volé regumé trempé rangé convoqué arrêté enregistré
     rembourré exacted snubbed avancé adoptée belied figurer
     spéculée portée appréciée contemplée ...
VBG : verbe, participe présent ou gérondif
     télégaphier battre se concentrer mettre en colère juger staller lactivant
     hankerin' alléguant déviation chapeautant approchant voyage siégeant
     crypter interrompre effacer grimacer ...
VBN : verbe, participe passé
     multicoque délabré aérosolisé présidé décliné cartographié utilisé
     expérimenté florissant imité réunifié factorisé condensé coupé
     déréglementé amorcé doublé désiré ...
VBP : verbe, temps présent, non à la 3ème personne du singulier
     predominer envelopper recourir poursuivre tordre répandre guérir allonger brosser terminer
     apparaître tendance errante luisant obtenir comprendre détester taquiner attirer
     accentuer mouler reporter séparer retourner remuer ...
VBZ : verbe, temps présent, 3ème personne du singulier
     bases reconstruit des marques mélangent mécontent scelle carpions tisse arrache
     fléchit étire autorisateurs s'enflamment images émergent les stocks
     séduit fizzes utilise supporte gifles parle supplie ...
WDT : déterminant interrogatif
     ce que tout tel ou nessaire quel que soit
WP : pronom interrogatif
     ça ce que tout ce que tout ce que qui qui qui que quiconque
WP$ : pronom interrogatif, possessif
     dont
WRB : adverbe interrogatif
     comment cependant où quand où par où où que où où pourquoi

3 votes

Pouvez-vous s'il vous plaît citer la source?

0 votes

Que dire des ponctuations ? Par exemple, un jeton ',' obtient la PoS ','. Y a-t-il une liste qui inclut ces PoS ?

0 votes

Que dire du PoS "-LRB-" pour le jeton '(' ?

34voto

Jules Points 5015

La réponse acceptée ci-dessus manque des informations suivantes :

Il existe également 9 balises de ponctuation définies (qui ne sont pas répertoriées dans certaines références, voir ici). Ce sont :

  1. #
  2. $
  3. '' (utilisé pour toutes les formes de guillemets fermants)
  4. ( (utilisé pour toutes les formes de parenthèses ouvrantes)
  5. ) (utilisé pour toutes les formes de parenthèses fermantes)
  6. ,
  7. . (utilisé pour toute ponctuation mettant fin à une phrase)
  8. : (utilisé pour les deux-points, les points-virgules et les points de suspension)
  9. `` (utilisé pour toutes les formes de guillemets ouvrants)

17voto

iuliux Points 1825

Voici une liste plus complète des balises pour le Penn Treebank (postée ici pour des raisons de complétude) :

http://www.surdeanu.info/mihai/teaching/ista555-fall13/readings/PennTreebankConstituents.html

Il inclut également des balises pour les niveaux de clause et de phrase.

Niveau de Clause

- S
- SBAR
- SBARQ
- SINV
- SQ

Niveau de Phrase

- ADJP
- ADVP
- CONJP
- FRAG
- INTJ
- LST
- NAC
- NP
- NX
- PP
- PRN
- PRT
- QP
- RRC
- UCP
- VP
- WHADJP
- WHAVP
- WHNP
- WHPP
- X

(descriptions dans le lien)

2 votes

Tu sais quoi ? Voilà la liste réelle dont les gens ont besoin ! Pas seulement les étiquettes POS de Penn Treebank car elles sont juste pour les mots

0 votes

Pourriez-vous ajouter les descriptions à côté des abréviations?

13voto

Dave Jarvis Points 12598

Codifié:

/**
 * Représente les parties du discours en anglais, encodées selon le
 * standard de facto du Projet Penn Treebank
 * .
 * 
 * @see Spécification du Penn Treebank
 */
public enum PartOfSpeech {
  ADJECTIF ("JJ"),
  ADJECTIF_COMPARATIF (ADJECTIF + "R"),
  ADJECTIF_SUPERLATIF (ADJECTIF + "S"),

  /* Cette catégorie inclut la plupart des mots se terminant par -ly ainsi que les mots degré
   * comme assez, trop et très, les modificateurs de tête postérieurs comme suffisamment et
   * vraiment (comme dans assez bon, très bien en effet), et les marqueurs négatifs comme
   * pas, n't et jamais.
   */
  ADVERBE ("RB"),

  /* Les adverbes avec le suffixe comparatif -er mais sans une signification strictement comparative,
   * comme plus tard dans Nous pouvons toujours passer plus tard, devraient
   * simplement être étiquetés comme RB.
   */
  ADVERBE_COMPARATIF (ADVERBE + "R"),
  ADVERBE_SUPERLATIF (ADVERBE + "S"),

  /* Cette catégorie inclut comment, où, pourquoi, etc.
   */
  ADVERBE_WH ("W" + ADVERBE),

  /* Cette catégorie inclut et, mais, ni, ou, encore (comme dans Et c'est bon marché,
  * bon marché mais bon), ainsi que les opérateurs mathématiques plus, moins, moins,
  * fois (au sens de "multiplié par") et sur (au sens de "divisé par"), lorsqu'ils sont
  * écrits en toutes lettres. Pour au sens de "parce que" est
  * une conjonction de coordination (CC) plutôt qu'une conjonction de subordination.
  */
  CONJONCTION_DE_COORDINATION ("CC"),
  CONJONCTION_DE_SUBORDINATION ("IN"),
  NOMBRE_CARDINAL ("CD"),
  DÉTERMINANT ("DT"),

  /* Cette catégorie inclut lequel, ainsi que celui utilisé comme pronom
   * relatif.
   */
  DÉTERMINANT_WH ("W" + DÉTERMINANT),
  EXISTENTIEL_IL_Y_A ("EX"),
  MOT_ÉTRANGER ("FW"),

  MARQUEUR_D'ÉLÉMENT_DE_LISTE ("LS"),

  NOM ("NN"),
  NOM_PLURIEL (NOM + "S"),
  NOM_PROPRE_SINGULIER (NOM + "P"),
  NOM_PROPRE_PLURIEL (NOM + "PS"),

  PRÉDÉTERMINANT ("PDT"),
  TERMINAISON_POSSESSIVE ("POS"),

  PRONOM_PERSONNEL ("PRP"),
  PRONOM_POSSESSIF ("PRP$"),

  /* Cette catégorie inclut le pronom relatif dont.
   */
  PRONOM_POSSESSIF_WH ("WP$"),

  /* Cette catégorie inclut quoi, qui et whom.
   */
  PRONOM_WH ("WP"),

  PARTICULE ("RP"),

  /* Cette balise doit être utilisée pour les symboles mathématiques, scientifiques et techniques
   * ou expressions qui ne sont pas des mots anglais. Elle ne doit pas être utilisée pour toute
   * expression technique. Par exemple, les noms de produits chimiques, les unités de 
   * mesure (y compris leurs abréviations) et autres doivent être
   * étiquetés comme des noms.
   */
  SYMBOLE ("SYM"),
  POUR ("TO"),

   /* Cette catégorie inclut mon (comme dans Mon, quelle belle journée), oh, s'il vous plaît,
   * voir (comme dans Voir, c'est comme ça), euh, eh bien et oui, entre autres.
   */
  INTERJECTION ("UH"),

  VERBE ("VB"),
  VERBE_PASSÉ (VERBE + "D"),
  PARTICIPE_PRÉSENT_DU_VERBE (VERBE + "G"),
  PARTICIPE_PASSÉ_DU_VERBE (VERBE + "N"),
  VERBE_À_LA_3ÈME_PERSONNE_DU_SG_PRÉSENT (VERBE + "P"),
  VERBE_3ÈME_PERSONNE_DU_SG_PRÉSENT (VERBE + "Z"),

  /* Cette catégorie inclut tous les verbes qui ne prennent pas de terminaison en -s à la
   * 3ème personne du singulier du présent : peut, pourrait, (oser), peut, pourrait, doit,
   * devrait, sera, serait.
   */
  VERBE_MODAL ("MD"),

  /* Stanford.
   */
  TERMINATEUR_DE_PHRASE (".");

  private final String tag;

  private PartOfSpeech(String tag) {
    this.tag = tag;
  }

  /**
   * Retourne l'encodage pour cette partie du discours.
   * 
   * @return Une chaîne représentant un encodage Penn Treebank pour une partie du discours en anglais.
   */
  public String toString() {
    return getTag();
  }

  protected String getTag() {
    return this.tag;
  }

  public static PartOfSpeech get(String value) {
    for (PartOfSpeech v : values()) {
      if (value.equals(v.getTag())) {
        return v;
      }
    }

    throw new IllegalArgumentException("Partie du discours inconnue : '" + value + "'.");
  }
}

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X