pandas DataFrame : remplacer les valeurs nan par la moyenne des colonnes

Question

pandas DataFrame : remplacer les valeurs nan par la moyenne des colonnes

Demandé el 9 de Septembre, 2013: Quand la question a-t-elle été
566772 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai un DataFrame pandas rempli principalement de nombres réels, mais il y a quelques nan dans ce domaine également.

Comment remplacer le nan avec les moyennes des colonnes où ils se trouvent ?

Cette question est très similaire à celle-ci : numpy array : remplacer les valeurs nan par la moyenne des colonnes mais, malheureusement, la solution donnée ne fonctionne pas pour un DataFrame pandas.

Demandé el 9 de Septembre, 2013 par piokuc

Answer 1

5 Réponses

Answer 2

15voto

Roshan jha Points 161

# To read data from csv file
Dataset = pd.read_csv('Data.csv')

X = Dataset.iloc[:, :-1].values

# To calculate mean use imputer class
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer = imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

Répondu el 10 de Juillet, 2017 par Roshan jha (161 Points )

Answer 3

14voto

Sunny Barnwal Points 131

Utiliser directement df.fillna(df.mean()) pour remplir toutes les valeurs nulles avec la moyenne

Si vous voulez remplir la valeur nulle avec la moyenne de cette colonne, vous pouvez utiliser ceci

supposer x=df['Item_Weight'] aquí Item_Weight est le nom de la colonne

Ici, nous assignons (remplir les valeurs nulles de x avec la moyenne de x dans x)

df['Item_Weight'] = df['Item_Weight'].fillna((df['Item_Weight'].mean()))

Si vous souhaitez remplir une valeur nulle avec une chaîne de caractères, utilisez la fonction

aquí Outlet_size est le nom de la colonne

df.Outlet_Size = df.Outlet_Size.fillna('Missing')

Répondu el 28 de Juin, 2018 par Sunny Barnwal (131 Points )

Answer 4

14voto

pink.slash Points 148

Pandas : Comment remplacer NaN ( nan ) avec la moyenne, la médiane ou d'autres statistiques d'une colonne

Disons que votre DataFrame est df et vous avez une colonne appelée nr_items . Il s'agit de : df['nr_items']

Si vous voulez remplacer el NaN les valeurs de votre colonne df['nr_items'] avec le moyenne de la colonne :

Utiliser la méthode .fillna() :

mean_value=df['nr_items'].mean() df['nr_item_ave']=df['nr_items'].fillna(mean_value)

J'ai créé un nouveau df colonne appelée nr_item_ave pour stocker la nouvelle colonne avec l'élément NaN remplacées par les valeurs mean de la colonne.

Il convient d'être prudent lors de l'utilisation de la fonction mean . Si vous avez valeurs aberrantes il est plus recommandé d'utiliser le median

Répondu el 4 de Février, 2019 par pink.slash (148 Points )

Answer 5

10voto

guibor Points 380

Une autre option, en plus de celles mentionnées ci-dessus, est la suivante :

df = df.groupby(df.columns, axis = 1).transform(lambda x: x.fillna(x.mean()))

C'est moins élégant que les réponses précédentes pour la moyenne, mais cela pourrait être plus court si vous souhaitez remplacer les nullités par une autre fonction de colonne.

Répondu el 15 de Novembre, 2016 par guibor (380 Points )

Answer 6

3voto

Shrikant Chaudhari Points 43

Utilisation de la bibliothèque sklearn classe de prétraitement

from sklearn.impute import SimpleImputer
missingvalues = SimpleImputer(missing_values = np.nan, strategy = 'mean', axis = 0)
missingvalues = missingvalues.fit(x[:,1:3])
x[:,1:3] = missingvalues.transform(x[:,1:3])

Note : Dans la version récente du paramètre missing_values changement de valeur à np.nan de NaN

Répondu el 12 de Mars, 2020 par Shrikant Chaudhari (43 Points )

pandas DataFrame : remplacer les valeurs nan par la moyenne des colonnes

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

pandas DataFrame : remplacer les valeurs nan par la moyenne des colonnes

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: