55 votes

Existe-t-il une liste de caractères qui ressemblent aux lettres anglaises ?

J'ai du mal à filtrer les blasphèmes pour un forum Web écrit en Python.

Dans le cadre de cela, j'essaie d'écrire une fonction qui prend un mot et renvoie toutes les orthographes possibles de ce mot qui utilisent des caractères visuellement similaires à la place de lettres spécifiques (par exemple, s†åkøv€rƒ|øw).

Je pense que je devrai étendre cette liste au fil du temps pour couvrir la créativité des gens, mais existe-t-il une liste flottant n'importe où sur Internet que je pourrais utiliser comme point de départ ?

61voto

Robin Points 1856

C'est probablement à la fois beaucoup plus profond que ce dont vous avez besoin, mais pas assez large pour couvrir votre cas d'utilisation, mais le consortium Unicode a dû faire face à des attaques contre des noms de domaine internationalisés et a proposé cette liste d'homographes (caractères avec le même ou similaire le rendu):

http://www.unicode.org/Public/security/latest/confusables.txt

Peut-être au moins un point de départ.

16voto

spnzr Points 375

http://en.wikipedia.org/wiki/Letterlike_Symbols

C'est beaucoup moins complet mais c'est plus compréhensible.

7voto

Stan James Points 373

J'ai créé une classe python pour faire exactement cela, basé sur le lien unicode de Robin pour "confusables"

https://github.com/wanderingstan/Confusables

Par exemple, "Hello" serait développé dans l'ensemble suivant de classes de caractères d'expression régulière :

[H\H\ℋ\ℌ\ℍ\

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X