J'essaie de générer le graphique de l'importance des caractéristiques par le biais de Permutation Feature Importance
complot. J'essaie de m'assurer que les caractéristiques obtenues par les différentes approches sont stables. Pour sélectionner les caractéristiques optimales. Peut-on obtenir p-value
ou quelque chose de ce genre qui puisse indiquer que la caractéristique est significative ? Si je pouvais le faire avec PFI
Je pourrais être plus confiant, mais il semble que les résultats soient totalement opposés.
Voici mon code pour générer le graphique
logreg=LogisticRegression(random_state=1) # i also tried with Random Forest
logreg.fit(X_train_std,y_train)
perm = PermutationImportance(logreg,random_state=1).fit(X_train_std,y_train)
eli5.show_weights(perm) #find the issue with plot below
Questions
1) La caractéristique que je vois en haut était non significative dans d'autres approches (Chi-carré, Xgboost Feature importance, Logistic Regression stats model summary etc) mais ici je la vois en haut ce qui me choque un peu. Est-il classé par ordre décroissant ou par ordre croissant ?
2) Je comprends PFI
randomise la valeur pour voir la réduction de l'erreur du modèle. Si la première ligne ( X18
) est une caractéristique importante, alors c'est totalement opposé à mes autres approches. Est-ce que je fais une erreur ici ? Que dois-je regarder/vérifier dans une situation comme celle-ci ? Ou devrais-je appliquer PFI
uniquement sur les caractéristiques importantes déjà sélectionnées ?
3) Comment puis-je faire en sorte que la cellule Jupyter s'affiche sur toutes les lignes. Actuellement, elle n'affiche pas les 35 lignes restantes, comme indiqué ci-dessous. J'ai déjà défini la largeur de la colonne, les lignes, etc. dans pandas_set.
Pouvez-vous m'aider ?