Remplissage en avant des blocs de valeurs ci-dessus pandas

Question

Remplissage en avant des blocs de valeurs ci-dessus pandas

Demandé el 10 de Mai, 2022: Quand la question a-t-elle été
57 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis intéressé par le remplissage en avant de valeurs uniques et multiples dans une colonne de pandas. Avec le dataframe suivant :

import pandas as pd
df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
df
    0   1   2
0   1   2   3
1   4 NaN NaN
2 NaN NaN   9

Le forward fill produira :

df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
df.fillna(method='ffill')
df
   0  1  2
0  1  2  3
1  4  2  3
2  4  2  9

Cependant, j'ai besoin d'une méthode similaire à ffill qui fera cela, ou copiera alternativement toutes les valeurs ci-dessus si les valeurs ci-dessus se suivent :

df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, 5, 9], [None,None,None])
df
    0   1   2
0   1   2   3
1   4 NaN NaN
2 NaN   5   9 
3 NaN NaN NaN

Résultant en :

df
    0   1   2
0   1   2   3
1   4   2   3
2   1   5   9 
3   4   5   9

Modification majeure : Dans mes données les valeurs seront toujours suivies de NaNs dans un multiple inconnu de la longueur des valeurs. Prenons df[0], par exemple 1,4 se répétera aussi longtemps qu'il y a de NaNs. La seule règle est qu'elles seront un multiple de la longueur des valeurs (2)

Demandé el 10 de Mai, 2022 par mattmoore_bioinfo

Answer 1

1 Réponses

Answer 2

5voto

jezrael Points 290608

Vous pouvez créer des valeurs consécutives pour les valeurs manquantes et non manquantes, puis créer un compteur par colonne et remplir les valeurs manquantes par regroupements :

df = pd.DataFrame([[1, 2, 3], [4, None, 8], [None, 5, 9], [None,None,10],
                   [0, 2, None], [5, None, None], [None, 5, None], [None,None,None]])

print (df)
     0    1     2
0  1.0  2.0   3.0
1  4.0  NaN   8.0
2  NaN  5.0   9.0
3  NaN  NaN  10.0
4  0.0  2.0   NaN
5  5.0  NaN   NaN
6  NaN  5.0   NaN
7  NaN  NaN   NaN

m = df.isna()
g = m.ne(m.shift()).cumsum()
for c in df.columns:
    df[c] = df.groupby(g.groupby(c).cumcount())[c].ffill()

print (df)
     0    1     2
0  1.0  2.0   3.0
1  4.0  2.0   8.0
2  1.0  5.0   9.0
3  4.0  5.0  10.0
4  0.0  2.0   3.0
5  5.0  2.0   8.0
6  0.0  5.0   9.0
7  5.0  5.0  10.0

EDIT : Nouvelle solution pour répéter les valeurs non manquantes par les prochaines valeurs manquantes par groupes créés par la première valeur non manquante, ici est utilisé numpy.tile pour générer des séquences :

df = pd.DataFrame([[1, 2, 3], [4, None, 8], [None, 5, 9], [7,None,10],
                   [0, 2, None], [5, None, None], [None, 6, None], [None,8,None]
                   , [None,None,None], [None,None,None]])
print (df)
     0    1     2
0  1.0  2.0   3.0
1  4.0  NaN   8.0
2  NaN  5.0   9.0
3  7.0  NaN  10.0
4  0.0  2.0   NaN
5  5.0  NaN   NaN
6  NaN  6.0   NaN
7  NaN  8.0   NaN
8  NaN  NaN   NaN
9  NaN  NaN   NaN

g = (df.notna() & df.shift().isna()).cumsum()

def f(x):
    non_miss = x.dropna()
    return np.tile(non_miss, int(len(x) // len(non_miss) + 2))[:len(x)]

df = df.apply(lambda x: x.groupby(g[x.name]).transform(f))
print (df)
     0    1     2
0  1.0  2.0   3.0
1  4.0  2.0   8.0
2  1.0  5.0   9.0
3  7.0  5.0  10.0
4  0.0  2.0   3.0
5  5.0  2.0   8.0
6  7.0  6.0   9.0
7  0.0  8.0  10.0
8  5.0  6.0   3.0
9  7.0  8.0   8.0

Répondu el 10 de Mai, 2022 par jezrael (290608 Points )

Remplissage en avant des blocs de valeurs ci-dessus pandas

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Remplissage en avant des blocs de valeurs ci-dessus pandas

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: