Excellente question !
La réponse est dans les lettres mathématiques. En décembre dernier, j'ai analysé l'ensemble du corpus PubMed Open Access et j'ai obtenu ces chiffres concernant les caractères astraux.
Le premier chiffre dans les figures ci-dessous indique le nombre de copies de chaque point de code que j'ai trouvé dans l'ensemble du corpus. Mais d'abord, pour vous donner une idée des fréquences relatives, voici les dix premiers points de code trans-ASCII dans ce corpus :
2663710 U+002013 ‹–› GC=Pd EN DASH
1065594 U+0000A0 ‹ › GC=Zs NO-BREAK SPACE
1009762 U+0000B1 ‹±› GC=Sm PLUS-MINUS SIGN
784139 U+002212 ‹› GC=Sm MINUS SIGN
602377 U+002003 ‹› GC=Zs EM SPACE
528576 U+0003BC ‹› GC=Ll GREEK SMALL LETTER MU
519669 U+0003B2 ‹› GC=Ll GREEK SMALL LETTER BETA
512312 U+0003B1 ‹› GC=Ll GREEK SMALL LETTER ALPHA
491842 U+00200A ‹› GC=Zs HAIR SPACE
462505 U+0000B0 ‹°› GC=So DEGREE SIGN
Et voici maintenant les points de code trans-BMP, par ordre de fréquence décroissante :
544 U+01D49E ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL C
450 U+01D4AF ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL T
385 U+01D4AE ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL S
292 U+01D49F ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL D
285 U+01D4B3 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL X
262 U+01D4A9 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL N
258 U+01D4AB ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL P
254 U+01D4A2 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL G
185 U+01D49C ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL A
178 U+01D53C ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL E
137 U+01D4AA ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL O
56 U+01D4A5 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL J
48 U+01D4A6 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL K
44 U+01D4B1 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL V
43 U+01D4B2 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL W
42 U+01D4B4 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Y
41 U+01D4B5 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Z
35 U+01D4B0 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL U
30 U+01D4AC ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Q
23 U+01D54A ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL S
21 U+01D539 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL B
19 U+01D5A7 ‹› GC=Lu MATHEMATICAL SANS-SERIF CAPITAL H
18 U+01D517 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL T
15 U+01D4C3 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL N
14 U+01D535 ‹› GC=Ll MATHEMATICAL FRAKTUR SMALL X
13 U+01D4BF ‹› GC=Ll MATHEMATICAL SCRIPT SMALL J
11 U+01D540 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL I
9 U+01D465 ‹› GC=Ll MATHEMATICAL ITALIC SMALL X
9 U+01D4CE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL Y
9 U+01D538 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL A
8 U+01D4C2 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL M
8 U+01D54D ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL V
7 U+01D4B6 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL A
7 U+01D4BE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL I
7 U+01D4CC ‹› GC=Ll MATHEMATICAL SCRIPT SMALL W
7 U+01D516 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL S
7 U+01D4BE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL I
7 U+01D4CC ‹› GC=Ll MATHEMATICAL SCRIPT SMALL W
7 U+01D516 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL S
4 U+01D4CF ‹› GC=Ll MATHEMATICAL SCRIPT SMALL Z
4 U+01D53B ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL D
4 U+01D54B ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL T
3 U+01D4BB ‹› GC=Ll MATHEMATICAL SCRIPT SMALL F
3 U+01D4CA ‹› GC=Ll MATHEMATICAL SCRIPT SMALL U
3 U+01D507 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL D
3 U+01D542 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL K
3 U+01D546 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL O
2 U+01D4BD ‹› GC=Ll MATHEMATICAL SCRIPT SMALL H
2 U+01D4C5 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL P
2 U+01D505 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL B
2 U+01D50E ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL K
2 U+01D541 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL J
2 U+01D543 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL L
2 U+100002 ‹› GC=Co <private use character>
1 U+01D4B8 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL C
1 U+01D4C1 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL L
1 U+01D53D ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL F
1 U+01D53E ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL G
1 U+01D54C ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL U
1 U+01D6A4 ‹› GC=Ll MATHEMATICAL ITALIC SMALL DOTLESS I
1 U+01D7D9 ‹› GC=Nd MATHEMATICAL DOUBLE-STRUCK DIGIT ONE
I vraiment J'aimerais savoir ce qu'ils font avec U+100002. :(
Si ceux-ci ne s'affichent pas dans votre navigateur, vous devriez installer La police Symbola de George Douros . Il contient également tous les points de code amusants d'Unicode 6.0.0.
1 votes
@hippietrail : Le principal problème est que la réponse dépendra du type de textes avec lesquels vous travaillez. Si vous travaillez sur un projet archéologique, en cataloguant des textes dans des bases de données. Linéaire B vous verrez des caractères non-BMP différents de ceux que vous utilisez, par exemple, pour travailler sur un dictionnaire de japonais moderne. Donc, sans restreindre au moins le type de textes, c'est définitivement trop large.