Je suis du traitement de certains fichiers de données qui sont censés être UTF-8 valide, mais ne le sont pas, ce qui provoque l'analyseur (pas sous mon contrôle) à l'échec. Je voudrais ajouter une étape de pré-validation des données pour l'UTF-8-formation, mais je n'ai pas encore trouvé un utilitaire pour aider à faire cela. Il y a un service web par le W3C qui semble être mort, et j'ai trouvé un Windows uniquement la validation de l'outil de que les rapports non valide les fichiers UTF-8 mais n'a pas de rapport, des lignes/caractères à corriger. Je serais heureux avec un outil que je peux déposer et de les utiliser (dans l'idéal de la croix-plate-forme), ou un ruby/perl script je peux faire partie de mes données, processus de chargement.
Toutes les suggestions?
Ian