Quels sont les caractères Unicode non-BMP les plus courants dans l'usage actuel ?

Question

Quels sont les caractères Unicode non-BMP les plus courants dans l'usage actuel ?

Demandé el 6 de Avril, 2011: Quand la question a-t-elle été
4035 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Selon votre expérience, quels sont les caractères Unicode, les codepoints, les plages en dehors du BMP (Basic Multilingual Plane) les plus courants jusqu'à présent ? Ce sont ceux qui nécessitent 4 octets en UTF-8 ou des substituts en UTF-16.

Je me serais attendu à ce que la réponse soit les caractères chinois et japonais utilisés dans les noms mais non inclus dans les jeux de caractères multioctets CJK les plus répandus, mais sur le projet sur lequel je travaille le plus, le Wiktionnaire anglais, nous avons constaté que le Alphabet gothique est beaucoup plus courante jusqu'à présent.

UPDATE

J'ai écrit quelques outils logiciels pour analyser des Wikipédias entières à la recherche de caractères non-BMP et j'ai découvert à ma grande surprise que même dans la Wikipédia japonaise, l'alphabet gothique est le plus courant. C'est également vrai dans la Wikipédia chinoise, mais de nombreux caractères chinois y sont utilisés jusqu'à 50 ou 70 fois, notamment "", "" et "".

Demandé el 6 de Avril, 2011 par hippietrail

1 votes

@hippietrail : Le principal problème est que la réponse dépendra du type de textes avec lesquels vous travaillez. Si vous travaillez sur un projet archéologique, en cataloguant des textes dans des bases de données. Linéaire B vous verrez des caractères non-BMP différents de ceux que vous utilisez, par exemple, pour travailler sur un dictionnaire de japonais moderne. Donc, sans restreindre au moins le type de textes, c'est définitivement trop large.

Commenté el 15 de Février, 2016 par sleske

Answer 1

3 Réponses

Answer 2

102voto

rspeer Points 425

Les emoji sont désormais les caractères non-BMP les plus courants, et de loin. L'Emoji ", également connu sous le nom de U+1F602 FACE WITH TEARS OF JOY, est le plus courant dans le flux public de Twitter. Il apparaît plus fréquemment que le tilde !

Répondu el 28 de Août, 2013 par rspeer (425 Points )

5 votes

Il s'agit en effet de l'emoji non BMP le plus couramment utilisé sur Twitter selon emojitracker.com

Commenté el 4 de Octobre, 2013 par Frédéric Grosshans

1 votes

J'ai d'ailleurs étudié les statistiques d'utilisation du texte sur le Web à partir du Common Crawl, et j'ai constaté que les emoji sont également les caractères non-BMP les plus courants sur le Web actuellement. Ils ne sont pas aussi courants que sur Twitter, bien sûr. est toujours le plus courant.

Commenté el 12 de Août, 2015 par rspeer

1 votes

@Quuxplusone Source : emojistats.org

Commenté el 15 de Juin, 2018 par niutech

Answer 3

65voto

tchrist Points 47116

Excellente question !

La réponse est dans les lettres mathématiques. En décembre dernier, j'ai analysé l'ensemble du corpus PubMed Open Access et j'ai obtenu ces chiffres concernant les caractères astraux.

Le premier chiffre dans les figures ci-dessous indique le nombre de copies de chaque point de code que j'ai trouvé dans l'ensemble du corpus. Mais d'abord, pour vous donner une idée des fréquences relatives, voici les dix premiers points de code trans-ASCII dans ce corpus :

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹›  GC=Zs    EM SPACE
  528576 U+0003BC ‹›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

Et voici maintenant les points de code trans-BMP, par ordre de fréquence décroissante :

     544 U+01D49E ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹›  GC=Co    <private use character>
       1 U+01D4B8 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

I vraiment J'aimerais savoir ce qu'ils font avec U+100002. :(

Si ceux-ci ne s'affichent pas dans votre navigateur, vous devriez installer La police Symbola de George Douros . Il contient également tous les points de code amusants d'Unicode 6.0.0.

Répondu el 7 de Avril, 2011 par tchrist (47116 Points )

Answer 4

9voto

Philipp Points 21479

Pour moi, le Symboles mathématiques alphanumériques qui sont utilisées pour la composition mathématique avec des polices OpenType telles que Cambria Math.

Répondu el 6 de Avril, 2011 par Philipp (21479 Points )

Quels sont les caractères Unicode non-BMP les plus courants dans l'usage actuel ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Quels sont les caractères Unicode non-BMP les plus courants dans l'usage actuel ?

Réponses

Questions connexes

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: