Comment supprimer les caractères non UTF-8 d'un fichier texte ?

Question

Comment supprimer les caractères non UTF-8 d'un fichier texte ?

Demandé el 21 de Octobre, 2012: Quand la question a-t-elle été
117591 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai un tas de fichiers arabes, anglais et russes qui sont codés en utf-8. En essayant de traiter ces fichiers à l'aide d'un script Perl, j'obtiens cette erreur :

Malformed UTF-8 character (fatal)

En vérifiant manuellement le contenu de ces fichiers, j'y ai trouvé des caractères étranges. Je cherche maintenant un moyen de supprimer automatiquement ces caractères des fichiers.

Y a-t-il un moyen de le faire ?

Demandé el 21 de Octobre, 2012 par Hakim

Answer 1

5 Réponses

Answer 2

175voto

Palantir Points 11889

Cette commande :

iconv -f utf-8 -t utf-8 -c file.txt

nettoiera votre fichier UTF-8, en sautant tous les caractères invalides.

-f is the source format
-t the target format
-c skips any invalid sequence

Répondu el 11 de Juin, 2013 par Palantir (11889 Points )

Answer 3

0voto

Steven Penny Points 18523

iconv peut le faire

iconv -f cp1252 foo.txt

Répondu el 8 de Décembre, 2012 par Steven Penny (18523 Points )

Answer 4

0voto

Charles Knell Points 322

Votre méthode doit être lue octet par octet et comprendre et apprécier pleinement la construction des caractères par octet. La méthode la plus simple est d'utiliser un éditeur qui peut lire n'importe quoi mais qui ne produit que des caractères UTF-8. Textpad est un choix possible.

Répondu el 4 de Février, 2013 par Charles Knell (322 Points )

Answer 5

0voto

Mythos Points 686

Aucune des méthodes proposées ici ou sur d'autres questions similaires n'a fonctionné pour moi. Finalement, ce qui a fonctionné, c'est simplement d'ouvrir le fichier dans Sublime Text 2. Allez dans Fichier > Réouvrir avec Encodage > UTF-8. Copiez l'intégralité du contenu du fichier dans un nouveau fichier et enregistrez-le.

Ce n'est peut-être pas la solution attendue, mais j'aimerais que cela aide quelqu'un, car je me débats depuis des heures avec ce problème.

Répondu el 14 de Octobre, 2021 par Mythos (686 Points )

Answer 6

-4voto

atul jha Points 43

cat foo.txt | strings -n 8 > bar.txt

fera l'affaire.

Répondu el 29 de Octobre, 2013 par atul jha (43 Points )

Comment supprimer les caractères non UTF-8 d'un fichier texte ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment supprimer les caractères non UTF-8 d'un fichier texte ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: