C'est quoi ces caractères unicode?
C'est un personnage avec une série de combinaisons de caractères. Parce que la combinaison de caractères en question veulent aller au-dessus de la base de caractère, ils empilent (littéralement). Par exemple, le cas de
ก้้้้้้้้้้้้้้้้้้้้
...c'est un ก (caractères Thaï ko kai) (U+0E01), suivie par 20 exemplaires de l'Thaïlandais combinaison de caractères mai tho (U+0E49).
Comment peut-on désinfecter?
Vous pourriez pré-traiter le texte et de limiter le nombre de combinaisons de caractères qui peut être appliquée qu'à un seul personnage, mais l'effort ne peut pas être une valeur de la récompense. Vous auriez besoin les fiches techniques de tous les personnages donc, si vous voulez savoir s'ils sont la combinaison ou de l', et vous devez assurez-vous de laisser au moins un peu, parce que certaines langues sont écrites avec plusieurs signes diacritiques sur une seule base. Maintenant, si vous voulez limiter les commentaires aux caractères latins, ce serait plus facile de vérification de plage, mais bien sûr ce n'est qu'une option si vous voulez limiter les commentaires de quelques langues. Plus d'informations, les feuilles de code, etc. au unicode.org.
BTW, si jamais vous voulez savoir comment certains de ces caractères a été composé, pour une autre question tout récemment, j'ai codé un rapide et sale "Unicode Me Montrer" à la page sur JSBin. Vous suffit de copier et coller le texte dans la zone de texte, et il vous montre tous les points de code (~caractères) que le texte est constitué de, avec des liens tels que ceux ci-dessus à la page décrivant chaque personnage. Elle ne fonctionne que pour les points de code dans la plage U+FFFF et la vertu, parce que c'est écrit en JavaScript, et pour traiter les caractères au-dessus de U+FFFF en JavaScript que vous avez à faire plus de travail que je voulais faire de cette question (parce qu'en JavaScript, un "caractère" est toujours 16 bits, ce qui signifie que pour certaines langues, un personnage peut être divisée en deux JavaScript "caractères" et je n'ai pas de compte pour ça), mais c'est pratique pour la plupart des textes...