Comment trier les chaînes unicode par ordre alphabétique en Python ?

Question

Comment trier les chaînes unicode par ordre alphabétique en Python ?

Demandé el 8 de Juillet, 2009: Quand la question a-t-elle été
12633 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Par défaut, Python trie par valeur d'octet, ce qui signifie que é vient après z et d'autres choses tout aussi amusantes. Quelle est la meilleure façon de trier par ordre alphabétique en Python ?

Existe-t-il une bibliothèque pour cela ? Je n'ai rien trouvé. De préférence, le tri devrait avoir un support linguistique afin de comprendre que åäö devrait être trié après z en suédois, mais que ü devrait être trié par u, etc. La prise en charge d'Unicode est donc pratiquement une obligation.

S'il n'existe pas de bibliothèque pour cela, quelle est la meilleure façon de le faire ? Il suffit de faire un mappage de la lettre à une valeur entière et de mapper la chaîne à une liste d'entiers avec cela ?

Demandé el 8 de Juillet, 2009 par Lennart Regebro

12 votes

Notez que cela dépend encore plus de la localité : En suédois (comme vous le dites), "Ä" vient après "Z", mais en allemand, "Ä" est généralement trié comme "AE".

Commenté el 8 de Juillet, 2009 par balpha

0 votes

@Georg : Y a-t-il une raison pour laquelle vous avez ouvert une prime sur ce sujet ? Le site locale.strcoll La réponse est correcte lorsque vous avez besoin d'un tri Unicode utilisant la locale de l'utilisateur, et l'ICU répond à ce que vous voulez lorsque vous avez besoin de plus que cela (collation utilisant plus d'une locale). La plupart du temps, vous voulez locale.strcoll .

Commenté el 15 de Février, 2011 par Glenn Maynard

0 votes

@Glenn : Je voulais savoir à quel point locale.strcoll et surtout ce que UNITÉ DE SOINS INTENSIFS fait mieux que la fonction Python. En gros, un peu plus d'attention pour la question.

Commenté el 15 de Février, 2011 par Georg Schölly

Afficher 1 autres commentaires

Answer 1

5 Réponses

Answer 2

83voto

Rafał Dowgird Points 16600

IBM UNITÉ DE SOINS INTENSIFS fait cela (et bien plus encore). Elle a des liens avec Python : PyICU .

Mise à jour : La principale différence de tri entre l'USI et locale.strcoll est que l'ICU utilise la totalité Algorithme de collationnement d'Unicode tandis que strcoll utilise ISO 14651 .

Les différences entre ces deux algorithmes sont brièvement résumées ici : http://unicode.org/faq/collation.html#13 . Il s'agit de cas particuliers plutôt exotiques, qui devraient rarement avoir de l'importance dans la pratique.

>>> import icu # pip install PyICU
>>> sorted(['a','b','c','ä'])
['a', 'b', 'c', 'ä']
>>> collator = icu.Collator.createInstance(icu.Locale('de_DE.UTF-8'))
>>> sorted(['a','b','c','ä'], key=collator.getSortKey)
['a', 'ä', 'b', 'c']

Répondu el 8 de Juillet, 2009 par Rafał Dowgird (16600 Points )

0 votes

Cela fonctionne-t-il de la même manière pour Python 2 et Python 3 ? J'ai utilisé locale.strxfrm à partir de la réponse de u0b34a0f6ae et cela semble fonctionner et est beaucoup plus élégant et ne nécessite aucun logiciel supplémentaire.

Commenté el 23 de Juin, 2015 par sup

1 votes

Ne fonctionne pas avec Python3 pour moi, sudo pip3 install PyICU ne s'installe pas et il en est de même pour Python2.

Commenté el 19 de Avril, 2016 par Drunken Master

0 votes

J'ai dû installer libicu-devel.x86_64 pour que pyICU puisse compiler et installer à partir de Pip. Cela fonctionne, bien que la sortie de la dernière commande 'sorted' soit : ['a', ' \xc3\xa4 ', 'b', 'c']

Commenté el 7 de Octobre, 2016 par Mike Stoddart

Answer 3

59voto

u0b34a0f6ae Points 14874

Je ne vois pas cela dans les réponses. Mon application trie en fonction de la locale en utilisant la bibliothèque standard de Python. C'est assez simple.

# python2.5 code below
# corpus is our unicode() strings collection as a list
corpus = [u"Art", u"Älg", u"Ved", u"Wasa"]

import locale
# this reads the environment and inits the right locale
locale.setlocale(locale.LC_ALL, "")
# alternatively, (but it's bad to hardcode)
# locale.setlocale(locale.LC_ALL, "sv_SE.UTF-8")

corpus.sort(cmp=locale.strcoll)

# in python2.x, locale.strxfrm is broken and does not work for unicode strings
# in python3.x however:
# corpus.sort(key=locale.strxfrm)

Question à Lennart et aux autres personnes qui ont répondu : Quelqu'un connaît-il 'locale' ou n'est-il pas à la hauteur de cette tâche ?

Répondu el 23 de Août, 2009 par u0b34a0f6ae (14874 Points )

0 votes

Au fait 1) Je ne pense pas que locale.strxfrm soit cassé pour les `str' encodés en UTF-8 ; j'ai fait un benchmarking par application et j'ai conclu que l'utilisation de cmp=strcoll sur les objets unicode est moins chère que le décodage en UTF-8 et l'utilisation de key=strxfrm.

Commenté el 24 de Août, 2009 par u0b34a0f6ae

6 votes

A propos 2) Le module locale ne fonctionnera qu'avec les locales générées (pour une machine Linux), pas avec n'importe quelle locale arbitraire. "locale -a" vous dira quelle

Commenté el 24 de Août, 2009 par u0b34a0f6ae

0 votes

Quelqu'un peut-il confirmer si cela fonctionne ? Si oui, pourquoi y a-t-il tant de réponses utilisant des bibliothèques externes ?

Commenté el 14 de Février, 2011 par Georg Schölly

Afficher 11 autres commentaires

Answer 4

10voto

Vinay Sajip Points 41286

Essayez le livre de James Tauber Algorithme de collation Unicode en Python . Il se peut qu'il ne fasse pas exactement ce que vous voulez, mais il vaut la peine d'y jeter un coup d'œil. Pour un peu plus d'informations sur ces questions, voir ce poste par Christopher Lenz.

Répondu el 8 de Juillet, 2009 par Vinay Sajip (41286 Points )

0 votes

Cela résout au moins le problème générique. Je suppose que des versions sensibles à la langue de la liste de collation pourraient également être créées.

Commenté el 8 de Juillet, 2009 par Lennart Regebro

0 votes

Cela ne vous permet pas de spécifier la locale, et le fichier de configuration de référence provoque une ValueError.

Commenté el 18 de Septembre, 2017 par thebjorn

Answer 5

8voto

Lennart Regebro Points 52510

Un résumé et une réponse étendue :

locale.strcoll sous Python 2, et locale.strxfrm résoudra en fait le problème, et fait un bon travail, en supposant que la locale en question soit installée. Je l'ai également testé sous Windows, où les noms des paramètres régionaux sont différents, mais d'un autre côté, il semble que tous les paramètres régionaux pris en charge soient installés par défaut.

ICU ne fait pas nécessairement mieux dans la pratique, mais il permet cependant de plus . Il prend notamment en charge les séparateurs qui permettent de diviser en mots des textes dans différentes langues. Ceci est très utile pour les langues qui n'ont pas de séparateurs de mots. Vous devrez disposer d'un corpus de mots à utiliser comme base pour le découpage, car cela n'est pas inclus, cependant.

Il possède également des noms longs pour les locales afin que vous puissiez obtenir de jolis noms d'affichage pour la locale, le support pour d'autres calendriers que le grégorien (bien que je ne sois pas sûr que l'interface Python le supporte) et des tonnes et des tonnes d'autres supports de locale plus ou moins obscurs.

Donc, dans l'ensemble : Si vous souhaitez effectuer un tri alphabétique et dépendant de la localisation, vous pouvez utiliser la fonction locale à moins que vous n'ayez des exigences particulières, ou que vous ayez besoin de fonctionnalités plus dépendantes de la langue, comme le séparateur de mots.

Répondu el 16 de Février, 2011 par Lennart Regebro (52510 Points )

Answer 6

6voto

Alex Martelli Points 330805

Je vois que les réponses ont déjà fait un excellent travail, je voulais juste souligner une inefficacité de codage dans Triage humain . Pour appliquer une traduction sélective caractère par caractère à une chaîne unicode s, il utilise le code :

spec_dict = {'Å':'A', 'Ä':'A'}

def spec_order(s):
    return ''.join([spec_dict.get(ch, ch) for ch in s])

Python dispose d'une méthode bien meilleure, plus rapide et plus concise pour effectuer cette tâche auxiliaire (sur les chaînes Unicode -- la méthode analogue pour les chaînes d'octets a une spécification différente et un peu moins utile!-) :

spec_dict = dict((ord(k), spec_dict[k]) for k in spec_dict)

def spec_order(s):
    return s.translate(spec_dict)

Le dict que vous passez au translate a des ordinaux Unicode (et non des chaînes de caractères) comme clés, c'est pourquoi nous avons besoin de cette étape de reconstruction de la méthode originale char-to-char spec_dict . (Les valeurs dans le dict que vous passez pour traduire [par opposition aux clés, qui doivent être des ordinaux] peuvent être des ordinaux Unicode, des chaînes Unicode arbitraires, ou None pour supprimer le caractère correspondant dans le cadre de la traduction, il est donc facile de spécifier "ignorer un certain caractère à des fins de tri", "faire correspondre ä à ae à des fins de tri", et ainsi de suite).

En Python 3, vous pouvez obtenir l'étape de "reconstruction" plus simplement, par ex :

spec_dict = ''.maketrans(spec_dict)

Ver les docs pour d'autres façons d'utiliser cet outil maketrans méthode statique en Python 3.

Répondu el 8 de Juillet, 2009 par Alex Martelli (330805 Points )

0 votes

Cette méthode est intéressante mais ne permet pas de placer á entre az et b.

Commenté el 24 de Mars, 2020 par Barnabas Szabolcs

Comment trier les chaînes unicode par ordre alphabétique en Python ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment trier les chaînes unicode par ordre alphabétique en Python ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: