40 votes

Quelle est la différence entre plusieurs R-carrés et R-ajustés dans une régression par la méthode des moindres carrés à une variable?

Quelqu'un pourrait-il expliquer au naïf sur le plan statistique quelle est la différence entre Multiple R-squared et Adjusted R-squared ? Je fais une analyse de régression à une variable comme suit:

  v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))
 

Résultats:

 Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 
 

61voto

neilfws Points 3881

Le "réglage" dans adjusted R-squared est liée au nombre de variables et le nombre d'observations.

Si vous continuez à ajouter des variables (prédicteurs) pour votre modèle de R-squared vont s'améliorer - qui est, les prédicteurs apparaîtra à expliquer la variance, mais une partie de cette amélioration peut être due au seul hasard. Donc, adjusted R-squared essaie de corriger ce, en prenant en compte le rapport (N-1)/(N-k-1) où N = nombre d'observations et k = nombre de variables (prédicteurs).

Ce n'est probablement pas une préoccupation dans votre cas, puisque vous avez une seule variable aléatoire.

Quelques références:

  1. Comment élevée, R-squared?
  2. La qualité de l'ajustement statistique
  3. De régression Multiple
  4. Re: qu'est-Ce que "adjusted R^2" dans la Régression Multiple

8voto

George Dontas Points 12116

Le R carré Ajusté est proche, mais différente de la valeur de R2. Au lieu d'être basé sur l'explique somme des carrés SSR et la somme totale des carrés SSY, il est basé sur la variance globale (quantité que nous ne sont généralement pas calculer), s2T = SSY/(n - 1) et de la variance d'erreur MSE (à partir de l'ANOVA tableau) et est travaillé comme ceci: adjusted R-squared = (s2T - MSE) / s2T.

Cette approche fournit une meilleure base pour juger de l'amélioration de l'ajustement dû à l'ajout d'une variable explicative, mais il n'a pas la simple résumant l'interprétation que R2 est.

Si je n'ai pas fait une erreur, vous devriez vérifier les valeurs de R carré ajusté et R-squared comme suit:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

De l'autre côté, R2 est: SSR/SSY, lorsque la SSR = SSY - ESS

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY 

8voto

Jay Points 2003

Le R au carré ne dépend pas du nombre de variables du modèle. Le R-carré ajusté est.

Le R-carré ajusté ajoute une pénalité pour l'ajout de variables au modèle qui ne sont pas corrélées avec la variable que vous essayez d'expliquer. Vous pouvez l'utiliser pour tester si une variable est pertinente pour la chose que vous essayez d'expliquer.

Le R carré ajusté est le R carré avec quelques divisions ajoutées pour le rendre dépendant du nombre de variables dans le modèle.

2voto

Phil Goetz Points 93

Notez que, outre le nombre de variables prédictives, la formule permet également de régler la taille de l'échantillon. Un petit échantillon se donner un air faussement grand R-squared.

Ping Yin & Xitao Fan, J., de l'Enseignement Expérimental 69(2): 203-224, "Estimation de R-squared diminution de régression multiple", compare les différentes méthodes d'ajustement de la r-squared et conclut que le couramment utilisées ceux cités ci-dessus ne sont pas bonnes. Ils recommandent à l'Olkin & Pratt formule.

Cependant, j'ai vu une indication que la taille de la population a un effet beaucoup plus important que n'importe quel de ces formules indiquent. Je ne suis pas convaincu que l'une de ces formules sont assez bonnes pour vous permettre de comparer les régressions faire avec des échantillons de tailles différentes (par exemple, de 2 000 contre 200 000 d'échantillons; les formules standard ferait presque aucun échantillon de la taille d'ajustement). Je voudrais faire quelques cross-validation pour vérifier le r-carré sur chaque échantillon.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X