Obtenir le point de code unicode d'un caractère en utilisant Python

Question

Obtenir le point de code unicode d'un caractère en utilisant Python

Demandé el 3 de Septembre, 2011: Quand la question a-t-elle été
61743 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

En Python API, existe-t-il un moyen d'extraire le point de code unicode d'un seul caractère?

Modifier: Au cas où cela serait important, j'utilise Python 2.7.

Demandé el 3 de Septembre, 2011 par SK9

0 votes

E.g. pour '\u304f' je veux '304f'. Est-ce que c'est ce que fera 'ord()' ? Oui- docs.python.org/library/functions.html#ord

Commenté el 3 de Septembre, 2011 par SK9

1 votes

Oui, ord("\N{HIRAGANA LETTER KU}") est en effet 12367, alias 0x304F. Je n'utiliserais jamais des chiffres pour les caractères comme vous le faites, seulement des caractères nommés comme je le fais. Les nombres magiques sont mauvais pour votre programme. Pensez simplement à chr et ord comme des fonctions inverses l'une de l'autre. C'est vraiment facile.

Commenté el 3 de Septembre, 2011 par tchrist

0 votes

@tchrist il pourrait être utile de noter que chr est l'opposé de ord en python 3.x, mais en python 2.x unichr est l'inverse de ord car chr ne fonctionne que pour des ordinaux jusqu'à 255 en python 2.x.

Commenté el 3 de Septembre, 2011 par cryo

Afficher 4 autres commentaires

Answer 1

5 Réponses

Answer 2

79voto

Keith Points 13800

Si je comprends bien votre question, vous pouvez le faire.

>>> s='㈲'
>>> s.encode("unicode_escape")
b'\\u3232'

Affiche le code d'échappement Unicode en tant que chaîne source.

Répondu el 3 de Septembre, 2011 par Keith (13800 Points )

2 votes

Si cela a de l'importance, j'utilise Python 2.7.

Commenté el 4 de Septembre, 2011 par SK9

0 votes

Que signifie le b ?

Commenté el 18 de Décembre, 2013 par MK Yung

0 votes

@MKYung Ce préfixe signifie qu'il s'agit d'une chaîne de caractères d'octets littérale.

Commenté el 18 de Décembre, 2013 par Keith

Afficher 2 autres commentaires

Answer 3

63voto

Mike Graham Points 22480

>>> ord(u"ć")
263
>>> u"café"[2]
u'f'
>>> u"café"[3]
u'\xe9'
>>> for c in u"café":
...     print repr(c), ord(c)
... 
u'c' 99
u'a' 97
u'f' 102
u'\xe9' 233

Répondu el 3 de Septembre, 2011 par Mike Graham (22480 Points )

3 votes

Bien sûr, cela pourrait afficher u'e' 101 et u'\u0301' 769 à la fin à la place...

Commenté el 3 de Septembre, 2011 par Dietrich Epp

2 votes

Il semble que 'ord()' fait ce que je veux : docs.python.org/library/functions.html#ord. Merci.

Commenté el 3 de Septembre, 2011 par SK9

0 votes

Si 'c' est ma variable de caractère (disons qu'elle est égale à ''), si je fais ucp = ord(c) puis print ucp, j'obtiens trois entiers, pas un seul entier. Comment obtenir un seul entier ?

Commenté el 3 de Septembre, 2011 par SK9

Afficher 5 autres commentaires

Answer 4

15voto

Ben Hamilton Points 101

Il s'avère que réussir à obtenir cela correctement est assez difficile : Python 2 et Python 3 présentent des problèmes subtils avec l'extraction des points de code Unicode à partir d'une chaîne.

Jusqu'à Python 3.3, il était possible de compiler Python dans l'un des deux modes :

sys.maxunicode == 0x10FFFF

Dans ce mode, les chaînes Unicode de Python prennent en charge la gamme complète des points de code Unicode de U+0000 à U+10FFFF. Un point de code est représenté par un élément de chaîne :

>>> import sys
>>> hex(sys.maxunicode)
'0x10ffff'
>>> len(u'\U0001F40D')
1
>>> [c for c in u'\U0001F40D']
[u'\U0001f40d']

C'est la valeur par défaut pour Python 2.7 sur Linux, ainsi que universellement pour Python 3.3 et ultérieur sur tous les systèmes d'exploitation.

sys.maxunicode == 0xFFFF

Dans ce mode, les chaînes Unicode de Python prennent en charge uniquement la gamme des points de code Unicode de U+0000 à U+FFFF. Tout point de code de U+10000 à U+10FFFF est représenté à l'aide d'une paire d'éléments de chaîne dans l'encodage UTF-16 :

>>> import sys
>>> hex(sys.maxunicode)
'0xffff'
>>> len(u'\U0001F40D')
2
>>> [c for c in u'\U0001F40D']
[u'\ud83d', u'\udc0d']

C'est la valeur par défaut pour Python 2.7 sur macOS et Windows.

Cette différence d'exécution rend l'écriture de modules Python pour manipuler des chaînes Unicode en tant que séries de points de code assez contraignante.

Le module codepoints

Pour résoudre cela, j'ai contribué à un nouveau module codepoints à PyPI :

https://pypi.python.org/pypi/codepoints/1.0

Ce module résout le problème en exposant des APIs pour convertir des chaînes Unicode en listes de points de code et vice versa, indépendamment du réglage sous-jacent de sys.maxunicode :

>>> hex(sys.maxunicode)
'0xffff'
>>> snake = tuple(codepoints.from_unicode(u'\U0001F40D'))
>>> len(snake)
1
>>> snake[0]
128013
>> hex(snake[0])
'0x1f40d'
>>> codepoints.to_unicode(snake)
u'\U0001f40d'

Répondu el 16 de Février, 2017 par Ben Hamilton (101 Points )

Answer 5

12voto

cryo Points 4773

Généralement, vous faites simplement ord(character) pour trouver le point de code d'un caractère. Pour être exhaustif cependant, les caractères larges dans le Plan Multilingue Supplémentaire Unicode sont représentés par des paires de substitution (c'est-à-dire deux unités de code) dans les versions étroites de Python, alors dans ce cas, j'ai souvent besoin de faire ce petit contournement :

def get_wide_ordinal(char):
    if len(char) != 2:
        return ord(char)
    return 0x10000 + (ord(char[0]) - 0xD800) * 0x400 + (ord(char[1]) - 0xDC00)

Ceci est rare dans la plupart des applications, donc normalement utilisez simplement ord().

Répondu el 3 de Septembre, 2011 par cryo (4773 Points )

0 votes

Une paire de substitution n'est PAS "deux caractères". Il représente UN caractère. Elle se compose de deux points de code. Voir "point de code" et "type de point de code" dans unicode.org/glossary

Commenté el 3 de Septembre, 2011 par John Machin

3 votes

@JohnMachin: Vous êtes proche, mais pas tout à fait : une paire de substitution reste tout simplement un seul point de code. Ce sont deux unités de code.

Commenté el 6 de Février, 2013 par Thanatos

0 votes

@Thanatos : Avez-vous réellement lu le lien que j'ai fourni ? Avez-vous suivi jusqu'au point de code D71 Haut-surronant : Un point de code Unicode dans la plage U+D800 à U+DBFF. et l'équivalent bas D73 ?

Commenté el 7 de Février, 2013 par John Machin

Afficher 2 autres commentaires

Answer 6

4voto

lookinghong Points 11

Python2

>>> print hex(ord(u'人'))
0x4eba

Répondu el 4 de Juillet, 2019 par lookinghong (11 Points )

Obtenir le point de code unicode d'un caractère en utilisant Python

Réponses

Le module codepoints

Questions en vedette

Top Tags

Prograide.com

Powered by:

Obtenir le point de code unicode d'un caractère en utilisant Python

Réponses

Le module codepoints

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: