Comment décoder des séquences d'échappement Unicode comme " \u00ed " en caractères codés UTF-8 appropriés ?

Question

Comment décoder des séquences d'échappement Unicode comme " \u00ed " en caractères codés UTF-8 appropriés ?

Demandé el 29 de Mai, 2010: Quand la question a-t-elle été
40198 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Existe-t-il une fonction en PHP qui peut décoder les séquences d'échappement Unicode comme " \u00ed " à " í " et toutes les autres occurrences similaires ?

J'ai trouvé une question similaire aquí mais cela ne semble pas fonctionner.

Demandé el 29 de Mai, 2010 par Docstero

Answer 1

5 Réponses

Answer 2

207voto

Gumbo Points 279147

Essayez ça :

$str = preg_replace_callback('/\\\\u([0-9a-fA-F]{4})/', function ($match) {
    return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE');
}, $str);

Dans le cas où il s'agit d'un style C/C++/Java/Json basé sur UTF-16 :

$str = preg_replace_callback('/\\\\u([0-9a-fA-F]{4})/', function ($match) {
    return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UTF-16BE');
}, $str);

Répondu el 29 de Mai, 2010 par Gumbo (279147 Points )

2 votes

@Docstero : L'expression régulière correspondra à toute séquence de \u suivi de quatre chiffres hexadécimaux.

Commenté el 29 de Mai, 2010 par Gumbo

0 votes

Attention : preg_replace_callback() [function.preg-replace-callback] : La compilation a échoué : PCRE ne supporte pas \L , \l , \N , \U ou \u à l'offset 1

Commenté el 29 de Mai, 2010 par Docstero

9 votes

Cette fonction ne peut pas traiter les caractères supplémentaires car ils ne peuvent pas être représentés en UCS-2.

Commenté el 18 de Novembre, 2011 par Artefacto

Afficher 10 autres commentaires

Answer 3

83voto

2BJ Points 219

print_r(json_decode('{"t":"\u00ed"}')); // -> stdClass Object ( [t] => í )

Répondu el 2 de Novembre, 2011 par 2BJ (219 Points )

56 votes

Il n'a même pas besoin de l'enveloppe de l'objet : json_decode('"' . $text . '"')

Commenté el 15 de Mai, 2013 par deceze

5 votes

Merci. Cela semble être la VOIE NORMALE plutôt qu'une réponse acceptée.

Commenté el 25 de Novembre, 2016 par snm-yah

1 votes

Il est intéressant de noter que cela fonctionne également pour des entités complexes comme les smileys... json_decode('{"t":"\uD83D\uDE0A"}') es

Commenté el 23 de Octobre, 2017 par DynamicDan

Afficher 1 autres commentaires

Answer 4

26voto

Rabin Lama Dong Points 1030

PHP 7+.

Depuis PHP 7, vous pouvez utiliser l'option Syntaxe d'échappement des points de code Unicode pour le faire.

echo "\u{00ed}"; sorties í .

Répondu el 6 de Juillet, 2017 par Rabin Lama Dong (1030 Points )

Answer 5

17voto

masakielastic Points 431

$str = '\u0063\u0061\u0074'.'\ud83d\ude38';
$str2 = '\u0063\u0061\u0074'.'\ud83d';

// U+1F638
var_dump(
    "cat\xF0\x9F\x98\xB8" === escape_sequence_decode($str),
    "cat\xEF\xBF\xBD" === escape_sequence_decode($str2)
);

function escape_sequence_decode($str) {

    // [U+D800 - U+DBFF][U+DC00 - U+DFFF]|[U+0000 - U+FFFF]
    $regex = '/\\\u([dD][89abAB][\da-fA-F]{2})\\\u([dD][c-fC-F][\da-fA-F]{2})
              |\\\u([\da-fA-F]{4})/sx';

    return preg_replace_callback($regex, function($matches) {

        if (isset($matches[3])) {
            $cp = hexdec($matches[3]);
        } else {
            $lead = hexdec($matches[1]);
            $trail = hexdec($matches[2]);

            // http://unicode.org/faq/utf_bom.html#utf16-4
            $cp = ($lead << 10) + $trail + 0x10000 - (0xD800 << 10) - 0xDC00;
        }

        // https://tools.ietf.org/html/rfc3629#section-3
        // Characters between U+D800 and U+DFFF are not allowed in UTF-8
        if ($cp > 0xD7FF && 0xE000 > $cp) {
            $cp = 0xFFFD;
        }

        // https://github.com/php/php-src/blob/php-5.6.4/ext/standard/html.c#L471
        // php_utf32_utf8(unsigned char *buf, unsigned k)

        if ($cp < 0x80) {
            return chr($cp);
        } else if ($cp < 0xA0) {
            return chr(0xC0 | $cp >> 6).chr(0x80 | $cp & 0x3F);
        }

        return html_entity_decode('&#'.$cp.';');
    }, $str);
}

Répondu el 16 de Janvier, 2015 par masakielastic (431 Points )

Answer 6

2voto

Nemo Noman Points 204

Il s'agit d'une approche brutale pour remplacer l'UNICODE brut par du HTML. Je n'ai pas vu d'autre endroit pour mettre cette solution, mais je suppose que d'autres ont eu ce problème.

Appliquer cette fonction str_replace à la RAW JSON avant de faire quoi que ce soit autre chose.

function unicode2html($str){
    $i=65535;
    while($i>0){
        $hex=dechex($i);
        $str=str_replace("\u$hex","&#$i;",$str);
        $i--;
     }
     return $str;
}

Cela ne prendra pas autant de temps que vous le pensez, et cela remplacera n'importe quel unicode par du HTML.

Bien sûr, cela peut être réduit si vous connaissez les types unicode qui sont retournés dans le JSON.

Par exemple, mon code recevait beaucoup de flèches et d'unicode dingbat. Ceux-ci sont compris entre 8448 et 11263. Donc mon code de production ressemble à :

$i=11263;
while($i>08448){
    ...etc...

Vous pouvez consulter les blocs d'Unicode par type ici : http://unicode-table.com/en/ Si vous savez que vous traduisez de l'arabe ou du telegu ou autre, vous pouvez juste remplacer ces codes, pas les 65 000.

Vous pourriez appliquer cette même méthode à l'encodage simple :

 $str=str_replace("\u$hex",chr($i),$str);

Répondu el 6 de Mars, 2015 par Nemo Noman (204 Points )

Comment décoder des séquences d'échappement Unicode comme " \u00ed " en caractères codés UTF-8 appropriés ?

Réponses

PHP 7+.

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment décoder des séquences d'échappement Unicode comme " \u00ed " en caractères codés UTF-8 appropriés ?

Réponses

PHP 7+.

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: