Étant donné un tableau d'octets représentant texte inconnu de l'encodage (généralement de l'UTF-8 ou ISO-8859-1, mais pas forcément), quelle est la meilleure façon d'obtenir une estimation la plus probable de l'encodage utilisé (en Java)?
À noter:
- Aucune autre méta-données est disponible. Le tableau d'octets est littéralement la seule entrée disponible.
- L'algorithme de détection sera bien évidemment de ne pas être 100 % correct. Si l'algorithme est correct dans plus de 80 % des cas, ce qui est assez bon.