Comment convertir un jeu de données Scikit-learn en jeu de données Pandas ?

Question

Comment convertir un jeu de données Scikit-learn en jeu de données Pandas ?

Demandé el 27 de Juin, 2016: Quand la question a-t-elle été
33082 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Comment convertir les données d'un objet Scikit-learn Bunch en un DataFrame Pandas ?

from sklearn.datasets import load_iris
import pandas as pd
data = load_iris()
print(type(data))
data1 = pd. # Is there a Pandas method to accomplish this?

Demandé el 27 de Juin, 2016 par SANBI samples

Answer 1

5 Réponses

Answer 2

185voto

TomDLT Points 1614

Manuellement, vous pouvez utiliser pd.DataFrame en donnant un tableau numpy ( data ) et une liste des noms des colonnes ( columns ). Pour avoir tout dans un seul DataFrame, vous pouvez concaténer les caractéristiques et la cible dans un tableau numpy avec np.c_[...] (notez le [] ):

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

# save load_iris() sklearn dataset to iris
# if you'd like to check dataset type use: type(load_iris())
# if you'd like to view list of attributes use: dir(load_iris())
iris = load_iris()

# np.c_ is the numpy concatenate function
# which is used to concat iris['data'] and iris['target'] arrays 
# for pandas column argument: concat iris['feature_names'] list
# and string list (in this case one string); you can make this anything you'd like..  
# the original dataset would probably call this ['Species']
data1 = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])

Répondu el 29 de Juin, 2016 par TomDLT (1614 Points )

3 votes

Pouvez-vous ajouter un petit texte pour expliquer ce code ? C'est un peu court selon nos normes.

Commenté el 29 de Juin, 2016 par gung

2 votes

Certaines grappes ont les noms des caractéristiques sous la forme d'un tableau ndarray, ce qui casse le paramètre columns.

Commenté el 10 de Juillet, 2017 par Utilisateur non enregistré

1 votes

Clé et valeurs "Species" manquantes pour le cadre de données.

Commenté el 11 de Juillet, 2017 par mastash3ff

Afficher 8 autres commentaires

Answer 3

110voto

justin4480 Points 279

from sklearn.datasets import load_iris
import pandas as pd

data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df.head()

Ce tutoriel peut vous intéresser : http://www.neural.cz/dataset-exploration-boston-house-pricing.html

Répondu el 21 de Avril, 2017 par justin4480 (279 Points )

17 votes

Il faut concaténer les données avec la cible : df = pd.DataFrame(np.concatenate((iris.data, np.array([iris.target])).T), axis=1), columns=iris.feature_names + ['target'])

Commenté el 26 de Avril, 2017 par Tyler

Answer 4

83voto

Nilav Baran Ghosh Points 439

La solution de TOMDLt n'est pas assez générique pour tous les jeux de données de scikit-learn. Par exemple, elle ne fonctionne pas pour le jeu de données des logements de Boston. Je propose une solution différente qui est plus universelle. Il n'est pas nécessaire d'utiliser numpy en plus.

from sklearn import datasets
import pandas as pd

boston_data = datasets.load_boston()
df_boston = pd.DataFrame(boston_data.data,columns=boston_data.feature_names)
df_boston['target'] = pd.Series(boston_data.target)
df_boston.head()

En tant que fonction générale :

def sklearn_to_df(sklearn_dataset):
    df = pd.DataFrame(sklearn_dataset.data, columns=sklearn_dataset.feature_names)
    df['target'] = pd.Series(sklearn_dataset.target)
    return df

df_boston = sklearn_to_df(datasets.load_boston())

Répondu el 23 de Septembre, 2017 par Nilav Baran Ghosh (439 Points )

1 votes

Je pense pd.Series(sklearn_dataset.target) peut être remplacé par sklearn_dataset.target ? En tout cas, cela fonctionne pour moi sur pandas 1.1.3.

Commenté el 28 de Octobre, 2020 par 3142 maple

2 votes

Je trouve cette solution plus facile à comprendre

Commenté el 3 de Février, 2021 par Max Segal

Answer 5

14voto

daguito81 Points 71

C'était juste une alternative que je pouvais comprendre beaucoup plus facilement :

data = load_iris()
df = pd.DataFrame(data['data'], columns=data['feature_names'])
df['target'] = data['target']
df.head()

En fait, au lieu de concaténer dès le départ, il suffit de créer un cadre de données avec la matrice des caractéristiques, puis d'ajouter la colonne cible avec data['whatvername'] et de récupérer les valeurs cibles de l'ensemble de données.

Répondu el 7 de Octobre, 2017 par daguito81 (71 Points )

0 votes

Les réponses simples sont les meilleures...

Commenté el 13 de Novembre, 2021 par Briford Wylie

Answer 6

6voto

Mukul Aggarwal Points 684

Cela fonctionne pour moi.

dataFrame = pd.dataFrame(data = np.c_[ [iris['data'],iris['target'] ],
columns=iris['feature_names'].tolist() + ['target'])

Répondu el 20 de Juillet, 2017 par Mukul Aggarwal (684 Points )

Comment convertir un jeu de données Scikit-learn en jeu de données Pandas ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment convertir un jeu de données Scikit-learn en jeu de données Pandas ?

Réponses

Questions connexes

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: