pandas dataframe to numpy array - inclure l'index

Question

pandas dataframe to numpy array - inclure l'index

Demandé el 2 de Novembre, 2012: Quand la question a-t-elle été
14974 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Je suis intéressé à savoir comment convertir une pandas dataframe dans un tableau numpy, y compris l'index, et de définir la dtypes.

dataframe:

label   A    B    C
ID                                 
1   NaN  0.2  NaN
2   NaN  NaN  0.5
3   NaN  0.2  0.5
4   0.1  0.2  NaN
5   0.1  0.2  0.5
6   0.1  NaN  0.5
7   0.1  NaN  NaN

convertir df de tableau renvoie:

array([[ nan,  0.2,  nan],
       [ nan,  nan,  0.5],
       [ nan,  0.2,  0.5],
       [ 0.1,  0.2,  nan],
       [ 0.1,  0.2,  0.5],
       [ 0.1,  nan,  0.5],
       [ 0.1,  nan,  nan]])

Cependant, je voudrais:

array([[ 1, nan,  0.2,  nan],
       [ 2, nan,  nan,  0.5],
       [ 3, nan,  0.2,  0.5],
       [ 4, 0.1,  0.2,  nan],
       [ 5, 0.1,  0.2,  0.5],
       [ 6, 0.1,  nan,  0.5],
       [ 7, 0.1,  nan,  nan]],
     dtype=[('ID', '<i4'), ('A', '<f8'), ('B', '<f8'), ('B', '<f8')])

(ou similaire)

Toutes les suggestions sur la façon d'accomplir ceci? (Je ne sais pas si j'ai besoin 1D ou 2D tableau à ce point.) J'ai vu quelques posts sur ce, mais rien qui traitent spécifiquement de la dataframe.index.

Je suis en train d'écrire le dataframe disque à l'aide de to_csv (et de le lire à créer la matrice) comme une solution de contournement, mais préférez quelque chose de plus éloquent que mes nouveaux pandas kludging.

Demandé el 2 de Novembre, 2012 par mister.nobody.nz

Answer 1

3 Réponses

Answer 2

131voto

ZJS Points 980

Pandas a quelque chose construit dans ...

 numpyMatrix = df.as_matrix()

Répondu el 17 de Juillet, 2014 par ZJS (980 Points )

Answer 3

74voto

MonkeyButter Points 229

Je voudrais juste la chaîne de la DataFrame.reset_index() et DataFrame.les valeurs des fonctions pour obtenir les Numpy représentation du dataframe, y compris l'index:

In [8]: df
Out[8]: 
          A         B         C
0 -0.982726  0.150726  0.691625
1  0.617297 -0.471879  0.505547
2  0.417123 -1.356803 -1.013499
3 -0.166363 -0.957758  1.178659
4 -0.164103  0.074516 -0.674325
5 -0.340169 -0.293698  1.231791
6 -1.062825  0.556273  1.508058
7  0.959610  0.247539  0.091333

[8 rows x 3 columns]

In [9]: df.reset_index().values
Out[9]:
array([[ 0.        , -0.98272574,  0.150726  ,  0.69162512],
       [ 1.        ,  0.61729734, -0.47187926,  0.50554728],
       [ 2.        ,  0.4171228 , -1.35680324, -1.01349922],
       [ 3.        , -0.16636303, -0.95775849,  1.17865945],
       [ 4.        , -0.16410334,  0.0745164 , -0.67432474],
       [ 5.        , -0.34016865, -0.29369841,  1.23179064],
       [ 6.        , -1.06282542,  0.55627285,  1.50805754],
       [ 7.        ,  0.95961001,  0.24753911,  0.09133339]])

Pour obtenir le dtypes, nous aurions besoin de transformer cette ndarray dans une structure de tableau à l'aide de la vue:

In [10]: df.reset_index().values.ravel().view(dtype=[('index', int), ('A', float), ('B', float), ('C', float)])
Out[10]:
array([( 0, -0.98272574,  0.150726  ,  0.69162512),
       ( 1,  0.61729734, -0.47187926,  0.50554728),
       ( 2,  0.4171228 , -1.35680324, -1.01349922),
       ( 3, -0.16636303, -0.95775849,  1.17865945),
       ( 4, -0.16410334,  0.0745164 , -0.67432474),
       ( 5, -0.34016865, -0.29369841,  1.23179064),
       ( 6, -1.06282542,  0.55627285,  1.50805754),
       ( 7,  0.95961001,  0.24753911,  0.09133339),
       dtype=[('index', '<i8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])

Répondu el 26 de Mars, 2014 par MonkeyButter (229 Points )

Answer 4

38voto

meteore Points 828

Vous pouvez utiliser l' to_records méthode, mais ont à jouer un peu avec le dtypes si elles ne sont pas ce que vous voulez de l'aller. Dans mon cas, après avoir copié votre DF à partir d'une chaîne, l'indice est de type string (représenté par un object dtype dans les pandas):

In [102]: df
Out[102]: 
label    A    B    C
ID                  
1      NaN  0.2  NaN
2      NaN  NaN  0.5
3      NaN  0.2  0.5
4      0.1  0.2  NaN
5      0.1  0.2  0.5
6      0.1  NaN  0.5
7      0.1  NaN  NaN

In [103]: df.index.dtype
Out[103]: dtype('object')
In [104]: df.to_records()
Out[104]: 
rec.array([(1, nan, 0.2, nan), (2, nan, nan, 0.5), (3, nan, 0.2, 0.5),
       (4, 0.1, 0.2, nan), (5, 0.1, 0.2, 0.5), (6, 0.1, nan, 0.5),
       (7, 0.1, nan, nan)], 
      dtype=[('index', '|O8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])
In [106]: df.to_records().dtype
Out[106]: dtype([('index', '|O8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])

La conversion de la recarray dtype ne fonctionne pas pour moi, mais on peut faire cela dans les Pandas déjà:

In [109]: df.index = df.index.astype('i8')
In [111]: df.to_records().view([('ID', '<i8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])
Out[111]:
rec.array([(1, nan, 0.2, nan), (2, nan, nan, 0.5), (3, nan, 0.2, 0.5),
       (4, 0.1, 0.2, nan), (5, 0.1, 0.2, 0.5), (6, 0.1, nan, 0.5),
       (7, 0.1, nan, nan)], 
      dtype=[('ID', '<i8'), ('A', '<f8'), ('B', '<f8'), ('C', '<f8')])

Notez que les Pandas ne permet pas de définir le nom de l'indice (à l' ID) dans l'enregistrement exporté tableau (un bug?), nous avons donc le bénéfice de la conversion de type, également, de les corriger ça.

Au moment Pandas a seulement 8 octets entiers, i8, et des chars, f8 (voir ce numéro).

Répondu el 2 de Novembre, 2012 par meteore (828 Points )

pandas dataframe to numpy array - inclure l'index

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

pandas dataframe to numpy array - inclure l'index

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: