242 votes

python pandas supprimer les colonnes dupliquées

Quel est le moyen le plus simple de supprimer les colonnes en double d'un cadre de données ?

Je lis un fichier texte qui comporte des colonnes en double via :

import pandas as pd

df=pd.read_table(fname)

Les noms des colonnes sont :

Time, Time Relative, N2, Time, Time Relative, H2, etc...

Toutes les colonnes Time et Time Relative contiennent les mêmes données. Je veux :

Time, Time Relative, N2, H2

Toutes mes tentatives d'abandon, de suppression, etc :

df=df.T.drop_duplicates().T

Entraîne des erreurs d'index à valeur unique :

Reindexing only valid with uniquely valued index objects

Désolé d'être un noob des Pandas. Toute suggestion serait appréciée.


Détails supplémentaires

Version de Pandas : 0.9.0
Version de Python : 2.7.3
Windows 7
(installé via Pythonxy 2.7.3.0)

fichier de données (note : dans le fichier réel, les colonnes sont séparées par des tabulations, ici elles sont séparées par 4 espaces) :

Time    Time Relative [s]    N2[%]    Time    Time Relative [s]    H2[ppm]
2/12/2013 9:20:55 AM    6.177    9.99268e+001    2/12/2013 9:20:55 AM    6.177    3.216293e-005    
2/12/2013 9:21:06 AM    17.689    9.99296e+001    2/12/2013 9:21:06 AM    17.689    3.841667e-005    
2/12/2013 9:21:18 AM    29.186    9.992954e+001    2/12/2013 9:21:18 AM    29.186    3.880365e-005    
... etc ...
2/12/2013 2:12:44 PM    17515.269    9.991756+001    2/12/2013 2:12:44 PM    17515.269    2.800279e-005    
2/12/2013 2:12:55 PM    17526.769    9.991754e+001    2/12/2013 2:12:55 PM    17526.769    2.880386e-005
2/12/2013 2:13:07 PM    17538.273    9.991797e+001    2/12/2013 2:13:07 PM    17538.273    3.131447e-005

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X