Je travaille actuellement avec un jeu de données assez particulier : il comporte environ 1000 colonnes et 1M de lignes, mais environ 90% des valeurs sont des Nan. Ce n'est pas parce que les enregistrements sont mauvais, mais parce que les données représentent des mesures effectuées sur des individus et que seulement une centaine de caractéristiques sont pertinentes pour chaque individu. Ainsi, l'imputation des valeurs manquantes détruirait complètement l'information contenue dans les données.
Il n'est pas non plus facile de regrouper les individus qui ont les mêmes caractéristiques et de ne considérer que la colonne pertinente pour chaque sous-groupe, car cela produirait en fait des groupes extrêmement petits pour chaque ensemble de colonnes (presque toutes les combinaisons de colonnes remplies sont possibles pour un individu donné).
Le problème est que les méthodes de réduction de dimension de Scikit Learn ne peuvent pas gérer les valeurs manquantes. Existe-t-il un paquet qui le fait, ou dois-je utiliser une méthode différente et sauter la réduction de dimension ? I