Régression linéaire (STT-2400) Section 7 Diagnostiques de régression: les résidus Version: 28 décembre 2007
STT-2400; Régression linéaire Introduction Les graphiques peuvent être utiles au tout début d’une analyse afin de nous orienter dans l’ajustement d’un modèle de régression. Les diagnostiques de régression sont des outils qui sont utilisés après un ajustement, afin de cerner s’il semble vraisemblable que la fonction moyenne et les hypothèses de Gauss-Markov sont compatibles avec les données. Les outils de base sont les résidus, que l’on a déjà définis. Il existe d’autres types de résidus (ex: les résidus standardisés, les résidus studentizés). STT-2400; Régression linéaire
Observations influentes Une question d’importance concerne l’influence d’une observation particulière sur l’ajustement (ex: estimateurs des coefficients, tests d’hypothèses). Si une observation particulière peut changer significativement les conclusions d’une analyse, on dira que cette observation est influente. Nous introduirons des mesures de distances et des mesures de levier afin de quantifier l’influence d’une observation. Une question reliée est la recherche de valeurs aberrantes. STT-2400; Régression linéaire
STT-2400; Régression linéaire Matrice « chapeau » On considère le modèle (avec b0): L’estimateur OLS est: On peut écrire: La matrice « chapeau »: STT-2400; Régression linéaire
Matrice « chapeau » (suite) La matrice « chapeau » transforme le vecteur correspondant à la variable réponse en le vecteur des valeurs prédites: . On a déjà vu: STT-2400; Régression linéaire
Quelques propriétés de la matrice « chapeau » La matrice « chapeau » est symétrique, idempotente et satisfait les propriétés suivantes: On rappelle que la matrice « chapeau » est une matrice de projection dans l’espace colonne de la matrice de design. STT-2400; Régression linéaire
Autres propriétés de la matrice « chapeau » Rappel: La matrice de design: Ainsi: Prenant la trace de H: STT-2400; Régression linéaire
Matrice « chapeau » et leviers On rappelle les deux relations suivantes: On déduit que les hii satisfont les relations: Remarque: Ce ne sont pas les meilleures bornes. Il peut être montré que: Le nombre r dans la relation précédente est le nombre de lignes de la matrice de design identiques à xi. STT-2400; Régression linéaire
Interprétation des hii Si un hii est grand et proche de un, il en ressort que la variance du ième résidu sera proche de zéro. Si il ressort que le ième résidu est une v.a. dégénérée, essentiellement une constante. Or Ainsi si hii approche un, le ième résidu sera proche de zéro, quelque soit la valeur de la variable réponse pour l’observation i. On dit que hii est un levier de l’observation i. STT-2400; Régression linéaire
Les leviers comme des mesures de distance Il faut retenir qu’habituellement, si une observation possède un grand hii, alors le préviseur xi sera inhabituel. Dans un modèle avec ordonnée à l’origine, il peut être montré que: La matrice Z est celle du modèle centré, et Le second terme du membre de droite de la relation précédente est l’équation d’un ellipsoïde centré à STT-2400; Régression linéaire
Seuils recommandés pour les leviers On rappelle la relation: Compte tenu du résultat précédent, Belsey, Kuh et Welsch (1980, p.17), suggèrent que chaque observation ayant un levier supérieur à 2(p+1)/n devrait être déclarée influente et examinée attentivement. STT-2400; Régression linéaire
Comportement des résidus lorsque le modèle est correct Graphique des résidus versus les valeurs prédites: on devrait retrouver un « graphique nul » (moyenne constante de zéro, variance constante, pas de points isolés). Graphique des résidus versus les préviseurs (ou des combinaisons linéaires des préviseurs): on devrait retrouver des « graphiques nuls ». Remarques: Puisque même lorsque le modèle est correct, la fonction variance basée sur les résidus n’est jamais parfaitement constante. De plus, les résidus sont corrélés, mais cette corrélation est habituellement non importante et non visible dans les graphiques de résidus. STT-2400; Régression linéaire
Comportement des résidus lorsque le modèle n’est pas correct De manière générale, si le modèle ajusté repose sur des hypothèses qui ne sont pas justes, on s’attend à retrouver des graphiques qui ne seront pas des « graphiques nuls ». En régression linéaire simple, il est facile de distinguer les situations où la variance n’est pas constante des situations où la fonction moyenne est mal spécifiée. Il faut rester prudent en régression linéaire multiple, car un motif dans le graphique des résidus ne correspond pas nécessairement à un problème particulier dans les hypothèses. Un « graphique non nul » indique qu’il y a un problème, mais ne dit pas nécessairement la source du problème. STT-2400; Régression linéaire
Graphique des résidus en régression linéaire simple et multiple Les graphiques des résidus dans un contexte de régression linéaire multiple peuvent s’interpréter comme en régression linéaire simple si deux conditions sont satisfaites: Les préviseurs doivent être reliés de manière linéaire, au moins approximativement; Pour une certaine fonction g, la fonction moyenne doit être de la forme: STT-2400; Régression linéaire
Diagnostics de régression avec SAS Avec la procédure PROC REG, la ligne de commande: MODEL Y = X1 X2 … Xp / R P INFLUENCE; L’option « / R » demande une analyse des résidus. L’option « / P » demande le calcul des valeurs prédites. L’option « / INFLUENCE » calcule (entre autres) les leviers. STT-2400; Régression linéaire