5 votes

Fonction de validation croisée pour la régression logistique en R

Je suis issu d'une formation essentiellement python + scikit learn, et je me demandais comment obtenir la précision de la validation croisée pour un modèle de régression logistique en R ? J'ai cherché et j'ai été surpris qu'il n'y ait pas de méthode simple pour cela. Je cherche l'équivalent :

import pandas as pd
from sklearn.cross_validation import cross_val_score
from sklearn.linear_model import LogisticRegression

## Assume pandas dataframe of dataset and target exist.

scores = cross_val_score(LogisticRegression(),dataset,target,cv=10)
print(scores)

Pour R : je l'ai fait :

model = glm(df$Y~df$X,family=binomial')
summary(model) 

Et maintenant je suis coincé. La raison est que la déviance pour mon modèle R est de 1900, ce qui implique un mauvais ajustement, mais le modèle python me donne 85% de précision en validation croisée 10 fois... ce qui signifie qu'il est bon. Cela semble un peu étrange... Je voulais donc exécuter la validation croisée en R pour voir si le résultat est le même.

Toute aide est appréciée !

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X