On m'a donné un dossier qui est soi-disant en UTF-8, mais il y a des encodages bizarres pour certains des caractères non anglais. Par exemple, dans cet encodage mystérieux, la chaîne Hangul
한국경북영덕군강구면
est codé comme :
0xED959C 0xEAB5AD 0xEAB2BD 0xEBB63F 0xEC983F 0xEB3F95 0xEAB5B0 0xEAB095 0xEAB5AC 0xEBA9B4
(différences en gras) plutôt que le standard UTF-8 :
0xED959C 0xEAB5AD 0xEAB2BD 0xEBB681 0xEC9881 0xEB8D95 0xEAB5B0 0xEAB095 0xEAB5AC 0xEBA9B4 "
Je constate le même phénomène avec les caractères cyrilliques et chinois : certains caractères ont le même codage que l'UTF-8, mais d'autres sont différents. Les caractères déformés ont la même largeur d'octet que les caractères non déformés et j'ai vérifié qu'ils ne font pas partie d'un jeu d'extension. De plus, j'ai déjà vérifié qu'il s'agit de pas Java "Modified UTF-8".
Avez-vous une autre idée de ce que cela peut être ?
BTW : Je n'ai pas accès au code ou aux personnes qui ont écrit le fichier à l'origine.
De plus, je suis sous Mac 10.11.6, au cas où cela aurait un rapport avec la situation.