Comment plot.lm() détermine-t-il les valeurs aberrantes pour le tracé résiduel par rapport au tracé ajusté ?

Question

Comment plot.lm() détermine-t-il les valeurs aberrantes pour le tracé résiduel par rapport au tracé ajusté ?

Demandé el 31 de Août, 2016: Quand la question a-t-elle été
1316 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Comment plot.lm() détermine-t-il quels points sont aberrants (c'est-à-dire quels points doivent être étiquetés) pour le tracé résiduel par rapport au tracé ajusté ? La seule chose que j'ai trouvée dans le la documentation est la suivante :

Détails

sub.caption - par défaut l'appel de fonction - est affiché comme sous-titre (sous le titre de l'axe des x) sur chaque tracé lorsque les tracés sont sur des pages séparées, ou comme sous-titre dans la marge extérieure (le cas échéant) lorsqu'il y a plusieurs tracés par page.

Le graphique "Échelle-Localisation", également appelé "Étendue-Localisation" ou "S-L", prend la racine carrée des résidus absolus afin de réduire l'asymétrie (sqrt(|E|)) est beaucoup moins asymétrique que | E | pour une moyenne zéro gaussienne E).

Les diagrammes "S-L", Q-Q et Résidu-Levage utilisent des résidus standardisés qui ont une variance identique (sous l'hypothèse). Ils sont donnés comme R[i] / (s * sqrt(1 - h.ii)) où h.ii sont les entrées diagonales de la matrice hat, influence()$hat (voir aussi hat), et où le diagramme Résidu-Levage utilise les résidus de Pearson standardisés (residuals.glm(type = "pearson")) pour R[i].

Le diagramme résiduel-levier montre les contours de la distance de Cook égale, pour des valeurs de cook.levels (par défaut 0,5 et 1) et omet les cas avec un levier de un avec un avertissement. Si les leviers sont constants (comme c'est généralement le cas dans une situation d'aov équilibrée), le graphique utilise des combinaisons de niveaux de facteurs au lieu des leviers pour l'axe des x. (Les niveaux de facteurs sont classés par ordre d'importance. (Les niveaux de facteurs sont classés par valeur moyenne ajustée).

Dans le graphique de la distance de Cook par rapport à l'effet de levier/(1 effet de levier), les contours des résidus standardisés qui sont de même ampleur sont des lignes passant par l'origine. Les lignes de contour sont étiquetées avec les magnitudes.

Mais il ne dit rien sur la façon dont les résidus par rapport au tracé ajusté ont été générés et sur la façon dont il choisit les points à étiqueter.

Mise à jour : La réponse de Zheyuan Li suggère que la façon dont le graphique résiduel vs ajusté étiquette les points est, en fait, simplement en regardant les 3 points avec les résidus les plus importants. C'est effectivement le cas. Cela peut être démontré par l'exemple "extrême" suivant.

x = c(1,2,3,4,5,6)
y = c(2,4,6,8,10,12)
foo = data.frame(x,y)
model = lm(y ~ x, data = foo)

Demandé el 31 de Août, 2016 par 3x89g2

Answer 1

1 Réponses

Answer 2

13voto

李哲源 Points 45737

Ils localisent les 3 plus grands résidus standardisés absolus. Prenons l'exemple suivant :

fit <- lm(dist ~ speed, cars)
plot(fit, which = 1)

r <- rstandard(fit)  ## get standardised residuals
order(abs(r), decreasing = TRUE)[1:3]
# [1] 49 23 35

Répondu el 31 de Août, 2016 par 李哲源 (45737 Points )

Comment plot.lm() détermine-t-il les valeurs aberrantes pour le tracé résiduel par rapport au tracé ajusté ?

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment plot.lm() détermine-t-il les valeurs aberrantes pour le tracé résiduel par rapport au tracé ajusté ?

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: