Comment coder à partir d'une colonne pandas contenant une liste ?

Question

Comment coder à partir d'une colonne pandas contenant une liste ?

Demandé el 25 de Juillet, 2017: Quand la question a-t-elle été
9040 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je voudrais décomposer une colonne pandas constituée d'une liste d'éléments en autant de colonnes qu'il y a d'éléments uniques, à savoir one-hot-encode les (avec valeur 1 représentant un élément donné existant dans une ligne et 0 en cas d'absence).

Par exemple, en prenant le dataframe df

Col1   Col2         Col3
 C      33     [Apple, Orange, Banana]
 A      2.5    [Apple, Grape]
 B      42     [Banana]

Je voudrais le convertir en :

df

Col1   Col2   Apple   Orange   Banana   Grape
 C      33     1        1        1       0
 A      2.5    1        0        0       1
 B      42     0        0        1       0

Comment puis-je utiliser pandas/sklearn pour y parvenir ?

Demandé el 25 de Juillet, 2017 par Melsauce

Answer 1

5 Réponses

Answer 2

104voto

MaxU Points 5284

Nous pouvons également utiliser sklearn.preprocessing.MultiLabelBinarizer :

Nous voulons souvent utiliser éparses DataFrame pour les données du monde réel afin d'économiser beaucoup de RAM.

Solution éparse (pour Pandas v0.25.0+)

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer(sparse_output=True)

df = df.join(
            pd.DataFrame.sparse.from_spmatrix(
                mlb.fit_transform(df.pop('Col3')),
                index=df.index,
                columns=mlb.classes_))

résultat :

In [38]: df
Out[38]:
  Col1  Col2  Apple  Banana  Grape  Orange
0    C  33.0      1       1      0       1
1    A   2.5      1       0      1       0
2    B  42.0      0       1      0       0

In [39]: df.dtypes
Out[39]:
Col1                object
Col2               float64
Apple     Sparse[int32, 0]
Banana    Sparse[int32, 0]
Grape     Sparse[int32, 0]
Orange    Sparse[int32, 0]
dtype: object

In [40]: df.memory_usage()
Out[40]:
Index     128
Col1       24
Col2       24
Apple      16    #  <--- NOTE!
Banana     16    #  <--- NOTE!
Grape       8    #  <--- NOTE!
Orange      8    #  <--- NOTE!
dtype: int64

Solution dense

mlb = MultiLabelBinarizer()
df = df.join(pd.DataFrame(mlb.fit_transform(df.pop('Col3')),
                          columns=mlb.classes_,
                          index=df.index))

Résultat :

In [77]: df
Out[77]:
  Col1  Col2  Apple  Banana  Grape  Orange
0    C  33.0      1       1      0       1
1    A   2.5      1       0      1       0
2    B  42.0      0       1      0       0

Répondu el 25 de Juillet, 2017 par MaxU (5284 Points )

1 votes

Vous pourriez trouver les horaires intéressants.

Commenté el 26 de Juillet, 2017 par piRSquared

0 votes

Ce processus semble être extrêmement consommateur de mémoire. Ma machine de 160 Go est en train de manquer de mémoire avec 1000000 lignes et 30000 colonnes.

Commenté el 2 de Mai, 2018 par Dawid Laszuk

0 votes

@DawidLaszuk, essayez de faire usage de MultiLabelBinarizer(sparse_output=True)

Commenté el 2 de Mai, 2018 par MaxU

Afficher 4 autres commentaires

Answer 3

83voto

piRSquared Points 159

Option 1
Réponse courte
pir_slow

df.drop('Col3', 1).join(df.Col3.str.join('|').str.get_dummies())

  Col1  Col2  Apple  Banana  Grape  Orange
0    C  33.0      1       1      0       1
1    A   2.5      1       0      1       0
2    B  42.0      0       1      0       0

Option 2
Réponse rapide
pir_fast

v = df.Col3.values
l = [len(x) for x in v.tolist()]
f, u = pd.factorize(np.concatenate(v))
n, m = len(v), u.size
i = np.arange(n).repeat(l)

dummies = pd.DataFrame(
    np.bincount(i * m + f, minlength=n * m).reshape(n, m),
    df.index, u
)

df.drop('Col3', 1).join(dummies)

  Col1  Col2  Apple  Orange  Banana  Grape
0    C  33.0      1       1       1      0
1    A   2.5      1       0       0      1
2    B  42.0      0       0       1      0

Option 3
pir_alt1

df.drop('Col3', 1).join(
    pd.get_dummies(
        pd.DataFrame(df.Col3.tolist()).stack()
    ).astype(int).sum(level=0)
)

  Col1  Col2  Apple  Orange  Banana  Grape
0    C  33.0      1       1       1      0
1    A   2.5      1       0       0      1
2    B  42.0      0       0       1      0

Résultats du chronométrage
Code ci-dessous

def maxu(df):
    mlb = MultiLabelBinarizer()
    d = pd.DataFrame(
        mlb.fit_transform(df.Col3.values)
        , df.index, mlb.classes_
    )
    return df.drop('Col3', 1).join(d)

def bos(df):
    return df.drop('Col3', 1).assign(**pd.get_dummies(df.Col3.apply(lambda x:pd.Series(x)).stack().reset_index(level=1,drop=True)).sum(level=0))

def psi(df):
    return pd.concat([
        df.drop("Col3", 1),
        df.Col3.apply(lambda x: pd.Series(1, x)).fillna(0)
    ], axis=1)

def alex(df):
    return df[['Col1', 'Col2']].assign(**{fruit: [1 if fruit in cell else 0 for cell in df.Col3] 
                                       for fruit in set(fruit for fruits in df.Col3 
                                                        for fruit in fruits)})

def pir_slow(df):
    return df.drop('Col3', 1).join(df.Col3.str.join('|').str.get_dummies())

def pir_alt1(df):
    return df.drop('Col3', 1).join(pd.get_dummies(pd.DataFrame(df.Col3.tolist()).stack()).astype(int).sum(level=0))

def pir_fast(df):
    v = df.Col3.values
    l = [len(x) for x in v.tolist()]
    f, u = pd.factorize(np.concatenate(v))
    n, m = len(v), u.size
    i = np.arange(n).repeat(l)

    dummies = pd.DataFrame(
        np.bincount(i * m + f, minlength=n * m).reshape(n, m),
        df.index, u
    )

    return df.drop('Col3', 1).join(dummies)

results = pd.DataFrame(
    index=(1, 3, 10, 30, 100, 300, 1000, 3000),
    columns='maxu bos psi alex pir_slow pir_fast pir_alt1'.split()
)

for i in results.index:
    d = pd.concat([df] * i, ignore_index=True)
    for j in results.columns:
        stmt = '{}(d)'.format(j)
        setp = 'from __main__ import d, {}'.format(j)
        results.set_value(i, j, timeit(stmt, setp, number=10))

Répondu el 25 de Juillet, 2017 par piRSquared (159 Points )

3 votes

C'est génial, vraiment ! PS Je viens d'utiliser ma dernière photo de vote pour aujourd'hui ;-)

Commenté el 26 de Juillet, 2017 par MaxU

0 votes

C'est rapide ! J'aime bien votre tableau de chronométrage. Je suppose que le Axe x est le nombre de lignes dans le cadre de données ?

Commenté el 26 de Juillet, 2017 par Alexander

0 votes

@Alexander thx, l'axe des x est le nombre de multiples de df ... j'ai été paresseux avec l'étiquetage. Donc 1000 est pd.concat([df] * 1000, ignore_index=True)

Commenté el 26 de Juillet, 2017 par piRSquared

Afficher 7 autres commentaires

Answer 4

8voto

Scott Boston Points 48995

Utilice get_dummies :

df_out = df.assign(**pd.get_dummies(df.Col3.apply(lambda x:pd.Series(x)).stack().reset_index(level=1,drop=True)).sum(level=0))

Sortie :

  Col1  Col2                     Col3  Apple  Banana  Grape  Orange
0    C  33.0  [Apple, Orange, Banana]      1       1      0       1
1    A   2.5           [Apple, Grape]      1       0      1       0
2    B  42.0                 [Banana]      0       1      0       0

Colonne de nettoyage :

df_out.drop('Col3',axis=1)

Sortie :

  Col1  Col2  Apple  Banana  Grape  Orange
0    C  33.0      1       1      0       1
1    A   2.5      1       0      1       0
2    B  42.0      0       1      0       0

Répondu el 25 de Juillet, 2017 par Scott Boston (48995 Points )

1 votes

+1 pour l'utilisation de ** con get_dummies mais cela peut s'avérer lent pour les grandes données à cause de .stack() et le chaînage de méthodes.

Commenté el 25 de Juillet, 2017 par Brad Solomon

0 votes

@BradSolomon Merci.

Commenté el 25 de Juillet, 2017 par Scott Boston

0 votes

Je ne suis pas sûr que cela fonctionne... Essayez-le après : df = pd.concat([df, df])

Commenté el 25 de Juillet, 2017 par Alexander

Answer 5

6voto

Psidom Points 115100

Vous pouvez passer en boucle par Col3 con apply et convertir chaque élément en une série avec la liste comme index qui devient l'en-tête dans le cadre de données du résultat :

pd.concat([
        df.drop("Col3", 1),
        df.Col3.apply(lambda x: pd.Series(1, x)).fillna(0)
    ], axis=1)

#Col1   Col2    Apple   Banana  Grape   Orange
#0  C   33.0      1.0      1.0    0.0     1.0
#1  A    2.5      1.0      0.0    1.0     0.0
#2  B   42.0      0.0      1.0    0.0     0.0

Répondu el 25 de Juillet, 2017 par Psidom (115100 Points )

Answer 6

5voto

Alexander Points 49390

Vous pouvez obtenir tous les fruits uniques dans Col3 en utilisant la compréhension de l'ensemble comme suit :

set(fruit for fruits in df.Col3 for fruit in fruits)

En utilisant un dictionnaire de compréhension, vous pouvez alors passer en revue chaque fruit unique et voir s'il se trouve dans la colonne.

>>> df[['Col1', 'Col2']].assign(**{fruit: [1 if fruit in cell else 0 for cell in df.Col3] 
                                   for fruit in set(fruit for fruits in df.Col3 
                                                    for fruit in fruits)})
  Col1  Col2  Apple  Banana  Grape  Orange
0    C  33.0      1       1      0       1
1    A   2.5      1       0      1       0
2    B  42.0      0       1      0       0

Horaires

dfs = pd.concat([df] * 1000)  # Use 3,000 rows in the dataframe.

# Solution 1 by @Alexander (me)
%%timeit -n 1000 
dfs[['Col1', 'Col2']].assign(**{fruit: [1 if fruit in cell else 0 for cell in dfs.Col3] 
                                for fruit in set(fruit for fruits in dfs.Col3 for fruit in fruits)})
# 10 loops, best of 3: 4.57 ms per loop

# Solution 2 by @Psidom
%%timeit -n 1000
pd.concat([
        dfs.drop("Col3", 1),
        dfs.Col3.apply(lambda x: pd.Series(1, x)).fillna(0)
    ], axis=1)
# 10 loops, best of 3: 748 ms per loop

# Solution 3 by @MaxU
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()

%%timeit -n 10 
dfs.join(pd.DataFrame(mlb.fit_transform(dfs.Col3),
                          columns=mlb.classes_,
                          index=dfs.index))
# 10 loops, best of 3: 283 ms per loop

# Solution 4 by @ScottBoston
%%timeit -n 10
df_out = dfs.assign(**pd.get_dummies(dfs.Col3.apply(lambda x:pd.Series(x)).stack().reset_index(level=1,drop=True)).sum(level=0))
# 10 loops, best of 3: 512 ms per loop

But...
>>> print(df_out.head())
  Col1  Col2                     Col3  Apple  Banana  Grape  Orange
0    C  33.0  [Apple, Orange, Banana]   1000    1000      0    1000
1    A   2.5           [Apple, Grape]   1000       0   1000       0
2    B  42.0                 [Banana]      0    1000      0       0
0    C  33.0  [Apple, Orange, Banana]   1000    1000      0    1000
1    A   2.5           [Apple, Grape]   1000       0   1000       0

Répondu el 25 de Juillet, 2017 par Alexander (49390 Points )

Comment coder à partir d'une colonne pandas contenant une liste ?

Réponses

Solution éparse (pour Pandas v0.25.0+)

Solution dense

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment coder à partir d'une colonne pandas contenant une liste ?

Réponses

Solution éparse (pour Pandas v0.25.0+)

Solution dense

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: