Je suis coincé avec un problème apparemment facile : laisser tomber les lignes uniques dans un cadre de données pandas. En gros, le contraire de drop_duplicates()
.
Disons que ce sont mes données :
A B C
0 foo 0 A
1 foo 1 A
2 foo 1 B
3 bar 1 A
Je voudrais supprimer les lignes lorsque A, et B sont uniques, c'est-à-dire que je voudrais garder uniquement les lignes 1 et 2.
J'ai essayé ce qui suit :
# Load Dataframe
df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]})
uniques = df[['A', 'B']].drop_duplicates()
duplicates = df[~df.index.isin(uniques.index)]
Mais je n'obtiens que la ligne 2, car 0, 1 et 3 sont dans les uniques !