115 votes

Quels sont les caractères Unicode non-BMP les plus courants dans l'usage actuel ?

Selon votre expérience, quels sont les caractères Unicode, les codepoints, les plages en dehors du BMP (Basic Multilingual Plane) les plus courants jusqu'à présent ? Ce sont ceux qui nécessitent 4 octets en UTF-8 ou des substituts en UTF-16.

Je me serais attendu à ce que la réponse soit les caractères chinois et japonais utilisés dans les noms mais non inclus dans les jeux de caractères multioctets CJK les plus répandus, mais sur le projet sur lequel je travaille le plus, le Wiktionnaire anglais, nous avons constaté que le Alphabet gothique est beaucoup plus courante jusqu'à présent.

UPDATE

J'ai écrit quelques outils logiciels pour analyser des Wikipédias entières à la recherche de caractères non-BMP et j'ai découvert à ma grande surprise que même dans la Wikipédia japonaise, l'alphabet gothique est le plus courant. C'est également vrai dans la Wikipédia chinoise, mais de nombreux caractères chinois y sont utilisés jusqu'à 50 ou 70 fois, notamment "", "" et "".

1 votes

@hippietrail : Le principal problème est que la réponse dépendra du type de textes avec lesquels vous travaillez. Si vous travaillez sur un projet archéologique, en cataloguant des textes dans des bases de données. Linéaire B vous verrez des caractères non-BMP différents de ceux que vous utilisez, par exemple, pour travailler sur un dictionnaire de japonais moderne. Donc, sans restreindre au moins le type de textes, c'est définitivement trop large.

102voto

rspeer Points 425

Les emoji sont désormais les caractères non-BMP les plus courants, et de loin. L'Emoji ", également connu sous le nom de U+1F602 FACE WITH TEARS OF JOY, est le plus courant dans le flux public de Twitter. Il apparaît plus fréquemment que le tilde !

5 votes

Il s'agit en effet de l'emoji non BMP le plus couramment utilisé sur Twitter selon emojitracker.com

1 votes

J'ai d'ailleurs étudié les statistiques d'utilisation du texte sur le Web à partir du Common Crawl, et j'ai constaté que les emoji sont également les caractères non-BMP les plus courants sur le Web actuellement. Ils ne sont pas aussi courants que sur Twitter, bien sûr. est toujours le plus courant.

1 votes

@Quuxplusone Source : emojistats.org

65voto

tchrist Points 47116

Excellente question !

La réponse est dans les lettres mathématiques. En décembre dernier, j'ai analysé l'ensemble du corpus PubMed Open Access et j'ai obtenu ces chiffres concernant les caractères astraux.

Le premier chiffre dans les figures ci-dessous indique le nombre de copies de chaque point de code que j'ai trouvé dans l'ensemble du corpus. Mais d'abord, pour vous donner une idée des fréquences relatives, voici les dix premiers points de code trans-ASCII dans ce corpus :

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹›  GC=Zs    EM SPACE
  528576 U+0003BC ‹›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

Et voici maintenant les points de code trans-BMP, par ordre de fréquence décroissante :

     544 U+01D49E ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹›  GC=Co    <private use character>
       1 U+01D4B8 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

I vraiment J'aimerais savoir ce qu'ils font avec U+100002. :(

Si ceux-ci ne s'affichent pas dans votre navigateur, vous devriez installer La police Symbola de George Douros . Il contient également tous les points de code amusants d'Unicode 6.0.0.

9voto

Philipp Points 21479

Pour moi, le Symboles mathématiques alphanumériques qui sont utilisées pour la composition mathématique avec des polices OpenType telles que Cambria Math.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X