En ce moment, j'ai un énorme ensemble de données de recensement que j'essaie de nettoyer via Pandas. Dans l'état actuel des choses, j'ai un tas de colonnes mesurant la "Signification statistique" qui contiennent soit une valeur nulle, soit un '*'. La phrase "Statistical Significance" ne se trouve pas dans le nom de la colonne, mais dans la première ligne de la colonne en tant que ligne de description. Il y en a plus de 2000, et je veux juste les supprimer tous en utilisant Python (je ferai la plupart des analyses de données réelles en R). Après quelques ajustements, j'ai réussi à créer un nouveau fichier CSV :
import pandas as pd
df = pd.read_csv('~/Desktop/ht1.csv')
def drop(data):
df2 = []
for x in data:
if "Significance" in data.loc[0,x]:
data.drop(x, axis = 1, inplace=True)
return data
ndf = drop(df)
ndf.to_csv('~/Desktop/ht2.csv')
Cependant, il y a un problème avec les colonnes qui tombent réellement (c'est-à-dire qu'elles ne tombent pas... du tout). Je suis à bout de nerfs en essayant d'utiliser mes connaissances relativement limitées en matière de codage et des articles Internet frustrants et obtus pour résoudre ce problème.
Toute aide serait grandement appréciée.