Sélectionner des valeurs uniques ou distinctes dans une liste dans le shell UNIX script.

Question

Sélectionner des valeurs uniques ou distinctes dans une liste dans le shell UNIX script.

Demandé el 6 de Mars, 2009: Quand la question a-t-elle été
73910 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai un script ksh qui retourne une longue liste de valeurs, séparées par des nouvelles lignes, et je veux voir uniquement les valeurs uniques/distinctes. Est-il possible de faire cela ?

Par exemple, disons que mon résultat est constitué de suffixes de fichiers dans un répertoire :

tar
gz
java
gz
java
tar
class
class

Je veux voir une liste comme :

tar
gz
java
class

Demandé el 6 de Mars, 2009 par Brabster

Answer 1

5 Réponses

Answer 2

527voto

Matthew Scharley Points 43262

Vous pouvez consulter le uniq y sort applications.

./yourscript.ksh | sort | uniq

(Pour info, oui, le tri est nécessaire dans cette ligne de commande, uniq ne dépouille que les lignes dupliquées qui se suivent immédiatement)

EDITAR:

Contrairement à ce qui a été posté par Aaron Digulla en ce qui concerne uniq Les options de la ligne de commande de l'utilisateur :

Étant donné l'entrée suivante :

class
jar
jar
jar
bin
bin
java

uniq affichera toutes les lignes exactement une fois :

class
jar
bin
java

uniq -d sortira toutes les lignes qui apparaissent plus d'une fois, et il les imprimera une fois :

jar
bin

uniq -u sortira toutes les lignes qui apparaissent exactement une fois, et il les imprimera une fois :

class
java

Répondu el 6 de Mars, 2009 par Matthew Scharley (43262 Points )

2 votes

Juste un FYI pour les retardataires : La réponse de @AaronDigulla a depuis été corrigée.

Commenté el 18 de Janvier, 2014 par mklement0

3 votes

Très bon point ce `tri est nécessaire dans cette ligne de commande, uniq ne supprime que les lignes dupliquées qui sont immédiatement après l'autre` ce que je viens d'apprendre ! !!

Commenté el 15 de Avril, 2015 par HattrickNZ

4 votes

GNU sort comporte un -u pour donner les valeurs uniques également.

Commenté el 9 de Décembre, 2015 par Arthur2e5

Afficher 2 autres commentaires

Answer 3

104voto

gpojd Points 12043

./script.sh | sort -u

C'est la même chose que du monoxyde de carbone réponse mais un peu plus concis.

Répondu el 6 de Mars, 2009 par gpojd (12043 Points )

10 votes

Vous êtes modeste : votre solution va également effectuer meilleure (probablement seulement perceptible avec de grands ensembles de données).

Commenté el 18 de Janvier, 2014 par mklement0

0 votes

Je pense que cela devrait être plus efficace que ... | sort | uniq parce qu'elle est exécutée en une seule fois

Commenté el 6 de Août, 2018 par Adrian Antunez

2 votes

@AdrianAntunez peut-être que c'est aussi parce que la sort -u n'a pas besoin de mettre à jour la liste triée à chaque fois qu'il trouve une valeur antérieure déjà rencontrée. alors que la fonction sort | doit trier tous avant de le transmettre à uniq

Commenté el 10 de Novembre, 2020 par whyer

Answer 4

15voto

Dimitre Radoulov Points 9185

Avec zsh vous pouvez le faire :

% cat infile 
tar
more than one word
gz
java
gz
java
tar
class
class
zsh-5.0.0[t]% print -l "${(fu)$(<infile)}"
tar
more than one word
gz
java
class

Ou vous pouvez utiliser AWK :

% awk '!_[$0]++' infile    
tar
more than one word
gz
java
class

Répondu el 6 de Mars, 2009 par Dimitre Radoulov (9185 Points )

2 votes

Des solutions astucieuses qui n'impliquent pas de trier les entrées. Avertissements : Le très astucieux mais cryptique awk (voir stackoverflow.com/a/21200722/45375 pour une explication) fonctionnera avec des fichiers volumineux tant que le nombre de lignes uniques est suffisamment petit (car les lignes uniques sont conservées en mémoire). Le site zsh lit d'abord l'intégralité du fichier en mémoire, ce qui peut ne pas être une option pour les fichiers volumineux. De plus, tel qu'il est écrit, seules les lignes sans espace incorporé sont traitées correctement ; pour corriger cela, utilisez IFS=$'\n' read -d '' -r -A u <file; print -l ${(u)u} à la place.

Commenté el 18 de Janvier, 2014 par mklement0

0 votes

Correct. Ou : (IFS=$'\n' u=($(<infile)); print -l "${(u)u[@]}")

Commenté el 18 de Janvier, 2014 par Dimitre Radoulov

1 votes

Merci, c'est plus simple (en supposant que vous n'avez pas besoin de définir des variables nécessaires en dehors du sous-shell). Je suis curieux de savoir quand vous avez besoin de l'option [@] pour référencer tous les éléments d'un tableau - il semble que - au moins à partir de la version 5 - il fonctionne sans ce suffixe ; ou l'avez-vous simplement ajouté pour plus de clarté ?

Commenté el 18 de Janvier, 2014 par mklement0

Afficher 2 autres commentaires

Answer 5

11voto

paxdiablo Points 341644

Pour les ensembles de données plus importants où le tri n'est pas forcément souhaitable, vous pouvez également utiliser le script perl suivant :

./yourscript.ksh | perl -ne 'if (!defined $x{$_}) { print $_; $x{$_} = 1; }'

Cela permet de mémoriser chaque ligne sortie afin de ne pas la sortir à nouveau.

Il a l'avantage sur le " sort | uniq Il s'agit d'une solution " à la carte " dans la mesure où aucun tri n'est nécessaire au départ.

Répondu el 6 de Mars, 2009 par paxdiablo (341644 Points )

2 votes

Notez que le tri d'un très gros fichier n'est pas un problème en soi avec sort ; il peut trier des fichiers qui sont plus gros que la RAM+swap disponible. Perl, par contre, échouera s'il n'y a que quelques doublons.

Commenté el 6 de Mars, 2009 par Aaron Digulla

1 votes

Oui, c'est un compromis qui dépend des données attendues. Perl est meilleur pour les grands ensembles de données avec beaucoup de doublons (pas de stockage sur disque nécessaire). Les grands ensembles de données avec peu de doublons devraient utiliser le tri (et le stockage sur disque). Les petits ensembles de données peuvent utiliser l'un ou l'autre. Personnellement, j'essaierais d'abord Perl, puis je passerais à sort si cela échoue.

Commenté el 6 de Mars, 2009 par paxdiablo

0 votes

Puisque le tri ne vous donne un avantage que s'il doit être échangé sur le disque.

Commenté el 6 de Mars, 2009 par paxdiablo

Afficher 2 autres commentaires

Answer 6

11voto

Aaron Digulla Points 143830

Passez-les à travers sort y uniq . Cela supprime tous les doublons.

uniq -d ne donne que les doublons, uniq -u ne donne que les uniques (élimine les doublons).

Répondu el 6 de Mars, 2009 par Aaron Digulla (143830 Points )

0 votes

Il faut d'abord trier, à ce qu'il semble.

Commenté el 6 de Mars, 2009 par Brabster

1 votes

Si, vous le savez. Ou plus exactement, vous devez regrouper toutes les lignes en double. Le tri le fait par définition ;)

Commenté el 6 de Mars, 2009 par Matthew Scharley

0 votes

Aussi, uniq -u n'est PAS le comportement par défaut (voir la modification de ma réponse pour plus de détails).

Commenté el 6 de Mars, 2009 par Matthew Scharley

Sélectionner des valeurs uniques ou distinctes dans une liste dans le shell UNIX script.

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Sélectionner des valeurs uniques ou distinctes dans une liste dans le shell UNIX script.

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: