Python : apprentissage automatique sans imputation des données manquantes

Question

Python : apprentissage automatique sans imputation des données manquantes

Demandé el 12 de Octobre, 2016: Quand la question a-t-elle été
277 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je travaille actuellement avec un jeu de données assez particulier : il comporte environ 1000 colonnes et 1M de lignes, mais environ 90% des valeurs sont des Nan. Ce n'est pas parce que les enregistrements sont mauvais, mais parce que les données représentent des mesures effectuées sur des individus et que seulement une centaine de caractéristiques sont pertinentes pour chaque individu. Ainsi, l'imputation des valeurs manquantes détruirait complètement l'information contenue dans les données.

Il n'est pas non plus facile de regrouper les individus qui ont les mêmes caractéristiques et de ne considérer que la colonne pertinente pour chaque sous-groupe, car cela produirait en fait des groupes extrêmement petits pour chaque ensemble de colonnes (presque toutes les combinaisons de colonnes remplies sont possibles pour un individu donné).

Le problème est que les méthodes de réduction de dimension de Scikit Learn ne peuvent pas gérer les valeurs manquantes. Existe-t-il un paquet qui le fait, ou dois-je utiliser une méthode différente et sauter la réduction de dimension ? I

Demandé el 12 de Octobre, 2016 par Anog

Answer 1

1 Réponses

Answer 2

0voto

Jasdeep Singh Chhabra Points 116

Vous pouvez utiliser les paquets de boosting de gradient qui gèrent les valeurs manquantes et sont idéaux pour votre cas. Puisque vous avez demandé des paquets, gbm en R et xgboost en python peuvent être utilisés. Si vous voulez savoir comment les valeurs manquantes sont gérées automatiquement dans xgboost, consultez la section 3.4 de l'ouvrage intitulé cet article pour en avoir un aperçu.

Répondu el 13 de Octobre, 2016 par Jasdeep Singh Chhabra (116 Points )

Python : apprentissage automatique sans imputation des données manquantes

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Python : apprentissage automatique sans imputation des données manquantes

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: