Régression linéaire (STT-2400) Section 8 Valeurs aberrantes et influentes Version: 28 décembre 2007
STT-2400; Régression linéaire Introduction Pour certaines observations, il arrive que les valeurs de la variable réponse et/ou des préviseurs semblent se comporter différemment de la majorité des observations. En régression linéaire simple, ceci peut être apprécié visuellement: un graphique de la variable réponse versus le préviseur peut révéler que la majorité des points semble se répartir autour d’une droite, mais quelques observations peuvent s’en éloigner passablement. Des observations qui ne suivent pas le même modèle (linéaire) que la majorité des données sont appelées des valeurs aberrantes (de régression). STT-2400; Régression linéaire
STT-2400; Régression linéaire Introduction (suite) Les valeurs aberrantes peuvent survenir pour diverses raisons, dont la plus évidente est lors d’erreurs de mesure, erreurs de transcription des données, etc. Cependant, les valeurs aberrantes ne sont pas forcément erronées. Parfois, elles sont des valeurs qui révèlent un phénomène particulier qui peut être différent du modèle suivi par la majorité des observations. La formulation d’un modèle vise à expliquer aussi bien que possible un phénomène général; il peut avoir ses propres limites et les valeurs aberrantes peuvent suggérer des pistes pour des modèles plus élaborés. STT-2400; Régression linéaire
Classification des valeurs aberrantes Dans un contexte de régression, les valeurs aberrantes peuvent survenir de diverses manières: Valeurs aberrantes dans la variable réponse mais pas dans les préviseurs (valeurs aberrantes dans la direction des Y); Valeurs aberrantes dans les préviseurs mais pas dans la variable réponse (valeurs aberrantes dans la direction des X; points de leviers); Valeurs aberrantes à la fois dans la direction des X et des Y (bon ou mauvais points de leviers). STT-2400; Régression linéaire
Points de levier et valeurs aberrantes de régression Un point de levier est un type de valeur aberrante. Cependant, les points de levier ne sont pas forcément des valeurs aberrantes de régression. Lorsque les points de levier suivent la tendance linéaire générale de la majorité des observations, on parle de bons points de levier. Il est souvent crucial de distinguer les bons points de levier des mauvais. STT-2400; Régression linéaire
Un simple test pour des valeurs aberrantes dans la direction des Y Le modèle de la moyenne translatée peut être facilement mis en œuvre avec SAS afin de tester si une observation donnée est aberrante (en Y). Dans ce modèle, si on soupçonne que l’observation i est aberrante (en Y), on présume que: On désire tester l’hypothèse STT-2400; Régression linéaire
STT-2400; Régression linéaire Mise en œuvre du test Afin de mettre en œuvre le test, soupçonnant que l’observation i est aberrante, on procède comme suit: On définit une variable indicatrice de l’observation i, en introduisant une variable U: La variable U est donc 0 partout sauf pour l’observation i. On régresse Y sur les préviseurs et la variable U. L’estimateur du coefficient correspondant à U est l’estimateur de d dans le modèle. On regarde la statistique-t associée à la variable U. STT-2400; Régression linéaire
STT-2400; Régression linéaire Résidus standardisés On rappelle que les résidus sont tels que: Les résidus standardisés ont moyenne zéro et de même variance valant un: STT-2400; Régression linéaire
STT-2400; Régression linéaire Calcul du test Il peut être montré que la statistique de test est: Cette valeur est appelée un résidu studentizé et est fournie par SAS sous la colonne RStudent lorsque l’option INFLUENCE est utilisée. De plus, la distribution est: STT-2400; Régression linéaire
STT-2400; Régression linéaire Ajustement du niveau Si une observation particulière est soupçonnée être aberrantes, alors on peut faire le test de manière usuelle et utiliser la valeur-p fournie par SAS. Cependant, une pratique courante consiste à examiner toutes les statistiques | ti | et déclarer la plus grande comme une valeur aberrante. Cependant, ceci revient à effectuer n tests. Si on effectue n tests de niveau a, alors le niveau global du test est bien supérieur à a. Considérons n = 65, et soit un test Ti dont la région de rejet est: de telle sorte que . STT-2400; Régression linéaire
Ajustement du niveau (suite) Alors si les n tests sont indépendants: L’inégalité de Bonferroni dit que pour n tests de niveau a, la probabilité de faussement considérer au moins une observation comme aberrante n’est pas plus grande que na. En pratique pour obtenir la valeur-p il suffit de multiplier la valeur-p fournit par SAS par n. STT-2400; Régression linéaire
Influence des observations Une analyse de l’influence des observations est basée sur l’idée de comparer l’ajustement avec et sans des observations pouvant être qualifiées de douteuses. Ainsi, on peut retirer la première observation, effectuer l’analyse, et comparer avec l’analyse reposant sur l’ensemble des données. On procède ainsi pour chacune des observations du jeu de données. STT-2400; Régression linéaire
Calcul des estimateurs sans l’observation i Introduisons la notation « (i) » qui veut dire: « sans l’observation i ». Ainsi, calculer l’estimateur des moindres carrés sans l’observation i donne: On note que: STT-2400; Régression linéaire
STT-2400; Régression linéaire Distance de Cook On dispose de: L’idée de Cook (Technometrics, 1977) est de comparer ces deux quantités. Cook a définit la mesure suivante: STT-2400; Régression linéaire
Interprétation des distances de Cook La distance de Cook est essentiellement une mesure de distance standardisée qui permet de décrire le changement dans l’estimateur de b lorsque l’on retire l’observation i. Une grande valeur de la distance de Cook suggère que l’observation i possède une grande influence. On note la ressemblance avec l’ellipsoïde de confiance: STT-2400; Régression linéaire
Utilisation des distances de Cook En pratique, les distances de Cook sont souvent comparées avec un. Une valeur grandement inférieure à un suggère que l’impact de l’observation i ne semble pas très important. En revanche, une distance de Cook plus grande que un suggère que l’observation i possède un grand impact. STT-2400; Régression linéaire
Distance de Cook et une identité remarquable Des arguments algébriques permettent de montrer la relation suivante: On constate que la distance de Cook, pour p fixé, peut être grande si les résidus standardisés sont grands ou si les leviers sont grands (ou si les deux sont grands). STT-2400; Régression linéaire
D’autres mesures populaires: DFBETAS et DFFITS SAS inclut d’autres mesures dans le même esprit que la distance de Cook. Les mesures DFBETAS et DFFITS (noter le S supplémentaire) sont des mesures proprement standardisées (et indépendantes des systèmes d’unités). STT-2400; Régression linéaire
Quelques mots sur l’hypothèse de normalité De manière générale, il est souvent reconnu que l’hypothèse de normalité joue un rôle mineur en analyse de régression. De manière générale, l’hypothèse de normalité est utile à des fins d’inférence, surtout pour les petits échantillons. Cependant, il est à noter qu’en présence de petits échantillons, la non-normalité peut être particulièrement difficile à diagnostiquer par un examen des résidus. STT-2400; Régression linéaire
Hypothèse de normalité (suite) On rappelle les relations: Pour des échantillons petits à modérés, le second terme peut dominer le premier. En invoquant le théorème central limite, il peut être montré que la somme sera approximativement normale même si les erreurs originales ne sont pas normales. Cependant, si n est assez grand, le second terme a une plus petite variance par rapport au premier terme et par conséquent est moins important. Ainsi, pour n grand, les résidus peuvent être utilisés afin de cerner la normalité des erreurs (sauf que l’hypothèse de normalité n’est plus aussi importante!). STT-2400; Régression linéaire
« Normal Probability Plot » Afin de vérifier l’hypothèse de normalité, on peut procéder comme suit. Soit: On désire vérifier si les zi proviennent d’une loi normale 1. On commence par ordonner les zi: 2. Soit STT-2400; Régression linéaire
« Normal Probability Plot » (suite) Les ui sont les valeurs moyennes des statistiques d’ordre qui seraient obtenues si les observations étaient vraiment normales N(0,1). Il peut être montré que la ième statistique d’ordre espérée d’une N(0,1) est approximativement: Si les zi étaient de loi normale: 3. La régression des z(i) sur les u(i) devrait être une ligne droite sous l’hypothèse de normalité. Si ce n’est pas une ligne droite, on peut questionner l’hypothèse de normalité. STT-2400; Régression linéaire