Je suis à la recherche d'un moyen de détecter les jeux de caractères dans les documents. J'ai lu le Mozilla jeu de caractères de détection de mise en œuvre ici:
Universel Charset De Détection
J'ai aussi trouvé une implémentation Java de ce qui est appelé jCharDet:
Ces deux sont basés sur des recherches effectuées à l'aide d'un ensemble de données statiques. Ce que je me pose est de savoir si quelqu'un a utilisé un autre de mise en œuvre avec succès et si oui quoi? Avez-vous rouler votre propre approche, et si oui quel est l'algorithme utilisé pour détecter le jeu de caractères?
Toute aide serait appréciée. Je ne suis pas à la recherche pour obtenir une liste des approches existantes via Google, je ne suis pas à la recherche d'un lien vers le Joel Spolsky article juste pour clarifier : )
Mise à JOUR: j'ai fait un tas de la recherche dans ce et finit par trouver un cadre appelé cpdetector qui utilise un enfichables approche à caractère détection, voir:
Cette offre de NOMENCLATURE, chardet (Mozilla approche) et ASCII de détection des plugins. Il est aussi très facile d'écrire votre propre. Il y a aussi un autre cadre, qui fournit un bien meilleur personnage de détection que l'Mozilla approche/jchardet etc...
Il est très facile d'écrire votre propre plugin pour cpdetector qui utilise ce cadre pour fournir une mesure plus précise de codage de caractères algorithme de détection. Il fonctionne mieux que la Mozilla approche.