Je suis issu d'une formation essentiellement python + scikit learn, et je me demandais comment obtenir la précision de la validation croisée pour un modèle de régression logistique en R ? J'ai cherché et j'ai été surpris qu'il n'y ait pas de méthode simple pour cela. Je cherche l'équivalent :
import pandas as pd
from sklearn.cross_validation import cross_val_score
from sklearn.linear_model import LogisticRegression
## Assume pandas dataframe of dataset and target exist.
scores = cross_val_score(LogisticRegression(),dataset,target,cv=10)
print(scores)
Pour R : je l'ai fait :
model = glm(df$Y~df$X,family=binomial')
summary(model)
Et maintenant je suis coincé. La raison est que la déviance pour mon modèle R est de 1900, ce qui implique un mauvais ajustement, mais le modèle python me donne 85% de précision en validation croisée 10 fois... ce qui signifie qu'il est bon. Cela semble un peu étrange... Je voulais donc exécuter la validation croisée en R pour voir si le résultat est le même.
Toute aide est appréciée !