Je suis de l'extraction de données d'un Google doc, de le traiter et de les écrire dans un fichier (que finalement je vais la coller dans une page Wordpress).
Il a une certaine non-ASCII symboles. Comment puis-je les convertir en toute sécurité à des symboles qui peuvent être utilisés dans la source HTML?
Actuellement, je suis à la conversion tout en Unicode sur la façon de le, rejoindre tous ensemble dans une chaîne Python, puis de le faire:
import codecs
f = codecs.open('out.txt', mode="w", encoding="iso-8859-1")
f.write(all_html.encode("iso-8859-1", "replace"))
Il y a une erreur de codage sur la dernière ligne:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in
position 12286: ordinal not in range(128)
Solution partielle:
Ce python exécute sans erreur:
row = [unicode(x.strip()) if x is not None else u'' for x in row]
all_html = row[0] + "<br/>" + row[1]
f = open('out.txt', 'w')
f.write(all_html.encode("utf-8")
Mais alors, si j'ouvre le texte du fichier, je vois beaucoup de symboles comme:
Qur’an
Peut-être que j'ai besoin d'écrire quelque chose d'autre qu'un fichier texte?