8 votes

Comment plot.lm() détermine-t-il les valeurs aberrantes pour le tracé résiduel par rapport au tracé ajusté ?

Comment plot.lm() détermine-t-il quels points sont aberrants (c'est-à-dire quels points doivent être étiquetés) pour le tracé résiduel par rapport au tracé ajusté ? La seule chose que j'ai trouvée dans le la documentation est la suivante :

Détails

sub.caption - par défaut l'appel de fonction - est affiché comme sous-titre (sous le titre de l'axe des x) sur chaque tracé lorsque les tracés sont sur des pages séparées, ou comme sous-titre dans la marge extérieure (le cas échéant) lorsqu'il y a plusieurs tracés par page.

Le graphique "Échelle-Localisation", également appelé "Étendue-Localisation" ou "S-L", prend la racine carrée des résidus absolus afin de réduire l'asymétrie (sqrt(|E|)) est beaucoup moins asymétrique que | E | pour une moyenne zéro gaussienne E).

Les diagrammes "S-L", Q-Q et Résidu-Levage utilisent des résidus standardisés qui ont une variance identique (sous l'hypothèse). Ils sont donnés comme R[i] / (s * sqrt(1 - h.ii)) où h.ii sont les entrées diagonales de la matrice hat, influence()$hat (voir aussi hat), et où le diagramme Résidu-Levage utilise les résidus de Pearson standardisés (residuals.glm(type = "pearson")) pour R[i].

Le diagramme résiduel-levier montre les contours de la distance de Cook égale, pour des valeurs de cook.levels (par défaut 0,5 et 1) et omet les cas avec un levier de un avec un avertissement. Si les leviers sont constants (comme c'est généralement le cas dans une situation d'aov équilibrée), le graphique utilise des combinaisons de niveaux de facteurs au lieu des leviers pour l'axe des x. (Les niveaux de facteurs sont classés par ordre d'importance. (Les niveaux de facteurs sont classés par valeur moyenne ajustée).

Dans le graphique de la distance de Cook par rapport à l'effet de levier/(1 effet de levier), les contours des résidus standardisés qui sont de même ampleur sont des lignes passant par l'origine. Les lignes de contour sont étiquetées avec les magnitudes.

Mais il ne dit rien sur la façon dont les résidus par rapport au tracé ajusté ont été générés et sur la façon dont il choisit les points à étiqueter.

Mise à jour : La réponse de Zheyuan Li suggère que la façon dont le graphique résiduel vs ajusté étiquette les points est, en fait, simplement en regardant les 3 points avec les résidus les plus importants. C'est effectivement le cas. Cela peut être démontré par l'exemple "extrême" suivant.

x = c(1,2,3,4,5,6)
y = c(2,4,6,8,10,12)
foo = data.frame(x,y)
model = lm(y ~ x, data = foo)

enter image description here

13voto

李哲源 Points 45737

Ils localisent les 3 plus grands résidus standardisés absolus. Prenons l'exemple suivant :

fit <- lm(dist ~ speed, cars)
plot(fit, which = 1)

enter image description here

r <- rstandard(fit)  ## get standardised residuals
order(abs(r), decreasing = TRUE)[1:3]
# [1] 49 23 35

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X