2 votes

Python : apprentissage automatique sans imputation des données manquantes

Je travaille actuellement avec un jeu de données assez particulier : il comporte environ 1000 colonnes et 1M de lignes, mais environ 90% des valeurs sont des Nan. Ce n'est pas parce que les enregistrements sont mauvais, mais parce que les données représentent des mesures effectuées sur des individus et que seulement une centaine de caractéristiques sont pertinentes pour chaque individu. Ainsi, l'imputation des valeurs manquantes détruirait complètement l'information contenue dans les données.

Il n'est pas non plus facile de regrouper les individus qui ont les mêmes caractéristiques et de ne considérer que la colonne pertinente pour chaque sous-groupe, car cela produirait en fait des groupes extrêmement petits pour chaque ensemble de colonnes (presque toutes les combinaisons de colonnes remplies sont possibles pour un individu donné).

Le problème est que les méthodes de réduction de dimension de Scikit Learn ne peuvent pas gérer les valeurs manquantes. Existe-t-il un paquet qui le fait, ou dois-je utiliser une méthode différente et sauter la réduction de dimension ? I

0voto

Vous pouvez utiliser les paquets de boosting de gradient qui gèrent les valeurs manquantes et sont idéaux pour votre cas. Puisque vous avez demandé des paquets, gbm en R et xgboost en python peuvent être utilisés. Si vous voulez savoir comment les valeurs manquantes sont gérées automatiquement dans xgboost, consultez la section 3.4 de l'ouvrage intitulé cet article pour en avoir un aperçu.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X