Existe-t-il une méthode universelle pour détecter les jeux de caractères ? J'utilise des balises IPTC et n'ai pas d'encodage connu. Je dois le détecter et ensuite les changer à utf-8.
Tout le monde peut aider ?
Existe-t-il une méthode universelle pour détecter les jeux de caractères ? J'utilise des balises IPTC et n'ai pas d'encodage connu. Je dois le détecter et ensuite les changer à utf-8.
Tout le monde peut aider ?
Vous voulez utiliser chardet
, un détecteur d'encodage
C'est un peu tard, mais il y a aussi une autre solution : essayer d'utiliser pyicu.
Un exemple :
import icu
def convert_encoding(data, new_coding='UTF-8'):
coding = icu.CharsetDetector(data).detect().getName()
if new_coding.upper() != coding.upper():
data = unicode(data, coding).encode(new_coding)
return data
Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.