Que sont exactement les codes de caractères unicode ? Et en quoi sont-ils différents des caractères ascii ?
Réponses
Trop de publicités?Unicode est un moyen d'attribuer des numéros uniques (appelés points de code) aux caractères de presque toutes les langues utilisées aujourd'hui, ainsi qu'à de nombreux autres caractères tels que les symboles mathématiques. Il existe de nombreuses façons de coder des chaînes Unicode sous forme d'octets, par exemple UTF-8 y UTF-16 .
L'ASCII attribue des valeurs uniquement à 128 caractères (a-z, A-Z, 0-9, espace, certains signes de ponctuation et certains caractères de contrôle).
Pour chaque caractère qui a une valeur ASCII, le point de code Unicode et la valeur ASCII de ce caractère sont les mêmes.
Dans la plupart des applications modernes, il est préférable d'utiliser des chaînes de caractères Unicode plutôt qu'ASCII. Cela vous permettra par exemple d'avoir des utilisateurs avec des caractères accentués dans leur nom ou leur adresse, et de localiser votre interface dans des langues autres que l'anglais.
Les 128 premiers Unicode Les points de code sont les mêmes que ceux de l'ASCII. Il y en a ensuite environ 100 000 de plus :
Il existe deux formats courants pour Unicode, UTF-8 qui utilise 1 à 4 octets pour chaque valeur (ainsi, pour les 128 premiers caractères, UTF-8 est exactement le même que ASCII) et UTF-16, qui utilise 2 ou 4 octets.