Trouver des doublons dans le dataframe selon des critères composites?

Question

Trouver des doublons dans le dataframe selon des critères composites?

Demandé el 31 de Août, 2020: Quand la question a-t-elle été
29 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je dispose d'un dataframe qui contient des données comme suit :

col1    col2    col3
1       3       bob
2       1       alice
3       3       bob
4       3       rose

Et ce que je veux faire, c'est conserver les lignes dupliquées de col2 et écarter les doublons avec plus d'une occurrence de la valeur de col3. Ou en d'autres termes, des doublons de col2 mais seulement là où les valeurs de col3 sont différentes. Ainsi, dans l'exemple ci-dessus, j'obtiendrais :

col1    col2    col3
1       3       bob
4       3       rose

Alice ne serait pas dans le résultat parce qu'évidemment, il n'y a pas de deuxième valeur du '1' de col2 - ce n'est pas un doublon. La deuxième entrée de Bob (3 3 bob) ne serait pas dans le résultat car même si le '3' de col2 est un doublon, le 'bob' de col3 est déjà dans l'ensemble de résultats (1 3 bob). (Je suis conscient du paramètre keep= pour changer le comportement de la conservation du premier ou du dernier, mais je l'ignore pour des raisons de simplicité.)

Des idées? Merci.

Demandé el 31 de Août, 2020 par uncle-junky

Answer 1

2 Réponses

Answer 2

1voto

wwnde Points 14457

Utilisez une combinaison de .duplicated(), .drop_duplicates() et l'accessor loc

df.loc[df[df['col2'].duplicated(False)].col3.drop_duplicates(keep='first').index,:]

 col1  col2  col3
0     1     3   bob
3     4     3  rose

Comment cela fonctionne

#Filtrer tous les doublons dans col2 en utilisant duplicated(False)

df[df['col2'].duplicated(False)]

#Supprimer les doublons dans col3 en conservant le premier en utilisant .drop_duplicates(keep='first')

df[df['col2'].duplicated(False)].col3.drop_duplicates(keep='first')

#Extraire l'index

df[df['col2'].duplicated(False)].col3.drop_duplicates(keep='first').index

#Enfin filtrer en utilisant l'accessor loc
     df.loc[index, toutes les colonnes]

Répondu el 31 de Août, 2020 par wwnde (14457 Points )

Answer 3

1voto

Scott Boston Points 48995

Essayer:

df.loc[df.drop_duplicates(['col2', 'col3'])
         .duplicated(['col2'], keep=False).loc[lambda x: x].index]

Sortie:

   col1  col2  col3
0     1     3   bob
3     4     3  rose

Détails:

A l'intérieur de df.loc trouver les index en utilisant

premièrement drop_duplicates pour se débarrasser des enregistrements dupliqués de col2 et col3
utiliser duplicated avec keep = False pour retourner True pour tous les enregistrements avec 'col2' dupliqué
enfin, utiliser loc avec lambda pour sélectionner uniquement les index True

Répondu el 1 de Septembre, 2020 par Scott Boston (48995 Points )

Trouver des doublons dans le dataframe selon des critères composites?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Trouver des doublons dans le dataframe selon des critères composites?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: