Régression linéaire (STT-2400)

Slides:



Advertisements
Présentations similaires
C1 Bio-statistiques F. KOHLER
Advertisements

Comparaison de deux moyennes observées
Inférence statistique
Les tests d’hypothèses
Régression -corrélation
variable aléatoire Discrète
Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.
Méthodes de prévision (STT-3220)
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Un neurone élémentaire
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
TECHNIQUES QUANTITATIVES APPLIQUEES A LA FINANCE
La droite dans R2 Montage préparé par : André Ross
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Modeles Lineaires.
La corrélation et la régression multiple
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Régression linéaire (STT-2400)
Introduction à l’algèbre
Modélisation Nuage de points.
STT-3220 Méthodes de prévision
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Primitives Montage préparé par : André Ross
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Échantillonnage (STT-2000) Section 2 Tirage de Bernoulli (plan BE). Version: 4 septembre 2003.
Chapitre 5 Prévisions.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Méthodes de prévision (STT-3220)
STT-3220 Méthodes de prévision
Méthodes de prévision (STT-3220) Section 6 Exemple: Prévisions dans un modèle AR(1) Version: 18 décembre 2008.
Présentation de la méthode des Eléments Finis
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Pour Principes de microéconomie, svp ajouter en haut de la page :
Régression linéaire multiple : hypothèses & tests. Partie 3.
Corrélation et régression linéaire
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Méthodes de Biostatistique
Méthodes de Biostatistique
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
Seconde partie - cours n°3 Théorie des tests
Suites numériques Définitions.
Chimiometrie (Chemometrics)
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Présentation du marché obligataire
Intervalles de confiance pour des proportions L’inférence statistique
Échantillonnage (STT-2000)
Probabilités et Statistiques Année 2010/2011
STT-3220 Méthodes de prévision
Séries chronologiques univariées (STT-6615)
Chapitre 4 Variables aléatoires discrètes
Échantillonnage (STT-2000)
Régression linéaire (STT-2400)
Séries chronologiques univariées (STT-6615)
STATISTIQUES.
Méthodes de prévision (STT-3220)
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
Transcription de la présentation:

Régression linéaire (STT-2400) Section 8 Valeurs aberrantes et influentes Version: 28 décembre 2007

STT-2400; Régression linéaire Introduction Pour certaines observations, il arrive que les valeurs de la variable réponse et/ou des préviseurs semblent se comporter différemment de la majorité des observations. En régression linéaire simple, ceci peut être apprécié visuellement: un graphique de la variable réponse versus le préviseur peut révéler que la majorité des points semble se répartir autour d’une droite, mais quelques observations peuvent s’en éloigner passablement. Des observations qui ne suivent pas le même modèle (linéaire) que la majorité des données sont appelées des valeurs aberrantes (de régression). STT-2400; Régression linéaire

STT-2400; Régression linéaire Introduction (suite) Les valeurs aberrantes peuvent survenir pour diverses raisons, dont la plus évidente est lors d’erreurs de mesure, erreurs de transcription des données, etc. Cependant, les valeurs aberrantes ne sont pas forcément erronées. Parfois, elles sont des valeurs qui révèlent un phénomène particulier qui peut être différent du modèle suivi par la majorité des observations. La formulation d’un modèle vise à expliquer aussi bien que possible un phénomène général; il peut avoir ses propres limites et les valeurs aberrantes peuvent suggérer des pistes pour des modèles plus élaborés. STT-2400; Régression linéaire

Classification des valeurs aberrantes Dans un contexte de régression, les valeurs aberrantes peuvent survenir de diverses manières: Valeurs aberrantes dans la variable réponse mais pas dans les préviseurs (valeurs aberrantes dans la direction des Y); Valeurs aberrantes dans les préviseurs mais pas dans la variable réponse (valeurs aberrantes dans la direction des X; points de leviers); Valeurs aberrantes à la fois dans la direction des X et des Y (bon ou mauvais points de leviers). STT-2400; Régression linéaire

Points de levier et valeurs aberrantes de régression Un point de levier est un type de valeur aberrante. Cependant, les points de levier ne sont pas forcément des valeurs aberrantes de régression. Lorsque les points de levier suivent la tendance linéaire générale de la majorité des observations, on parle de bons points de levier. Il est souvent crucial de distinguer les bons points de levier des mauvais. STT-2400; Régression linéaire

Un simple test pour des valeurs aberrantes dans la direction des Y Le modèle de la moyenne translatée peut être facilement mis en œuvre avec SAS afin de tester si une observation donnée est aberrante (en Y). Dans ce modèle, si on soupçonne que l’observation i est aberrante (en Y), on présume que: On désire tester l’hypothèse STT-2400; Régression linéaire

STT-2400; Régression linéaire Mise en œuvre du test Afin de mettre en œuvre le test, soupçonnant que l’observation i est aberrante, on procède comme suit: On définit une variable indicatrice de l’observation i, en introduisant une variable U: La variable U est donc 0 partout sauf pour l’observation i. On régresse Y sur les préviseurs et la variable U. L’estimateur du coefficient correspondant à U est l’estimateur de d dans le modèle. On regarde la statistique-t associée à la variable U. STT-2400; Régression linéaire

STT-2400; Régression linéaire Résidus standardisés On rappelle que les résidus sont tels que: Les résidus standardisés ont moyenne zéro et de même variance valant un: STT-2400; Régression linéaire

STT-2400; Régression linéaire Calcul du test Il peut être montré que la statistique de test est: Cette valeur est appelée un résidu studentizé et est fournie par SAS sous la colonne RStudent lorsque l’option INFLUENCE est utilisée. De plus, la distribution est: STT-2400; Régression linéaire

STT-2400; Régression linéaire Ajustement du niveau Si une observation particulière est soupçonnée être aberrantes, alors on peut faire le test de manière usuelle et utiliser la valeur-p fournie par SAS. Cependant, une pratique courante consiste à examiner toutes les statistiques | ti | et déclarer la plus grande comme une valeur aberrante. Cependant, ceci revient à effectuer n tests. Si on effectue n tests de niveau a, alors le niveau global du test est bien supérieur à a. Considérons n = 65, et soit un test Ti dont la région de rejet est: de telle sorte que . STT-2400; Régression linéaire

Ajustement du niveau (suite) Alors si les n tests sont indépendants: L’inégalité de Bonferroni dit que pour n tests de niveau a, la probabilité de faussement considérer au moins une observation comme aberrante n’est pas plus grande que na. En pratique pour obtenir la valeur-p il suffit de multiplier la valeur-p fournit par SAS par n. STT-2400; Régression linéaire

Influence des observations Une analyse de l’influence des observations est basée sur l’idée de comparer l’ajustement avec et sans des observations pouvant être qualifiées de douteuses. Ainsi, on peut retirer la première observation, effectuer l’analyse, et comparer avec l’analyse reposant sur l’ensemble des données. On procède ainsi pour chacune des observations du jeu de données. STT-2400; Régression linéaire

Calcul des estimateurs sans l’observation i Introduisons la notation « (i) » qui veut dire: « sans l’observation i ». Ainsi, calculer l’estimateur des moindres carrés sans l’observation i donne: On note que: STT-2400; Régression linéaire

STT-2400; Régression linéaire Distance de Cook On dispose de: L’idée de Cook (Technometrics, 1977) est de comparer ces deux quantités. Cook a définit la mesure suivante: STT-2400; Régression linéaire

Interprétation des distances de Cook La distance de Cook est essentiellement une mesure de distance standardisée qui permet de décrire le changement dans l’estimateur de b lorsque l’on retire l’observation i. Une grande valeur de la distance de Cook suggère que l’observation i possède une grande influence. On note la ressemblance avec l’ellipsoïde de confiance: STT-2400; Régression linéaire

Utilisation des distances de Cook En pratique, les distances de Cook sont souvent comparées avec un. Une valeur grandement inférieure à un suggère que l’impact de l’observation i ne semble pas très important. En revanche, une distance de Cook plus grande que un suggère que l’observation i possède un grand impact. STT-2400; Régression linéaire

Distance de Cook et une identité remarquable Des arguments algébriques permettent de montrer la relation suivante: On constate que la distance de Cook, pour p fixé, peut être grande si les résidus standardisés sont grands ou si les leviers sont grands (ou si les deux sont grands). STT-2400; Régression linéaire

D’autres mesures populaires: DFBETAS et DFFITS SAS inclut d’autres mesures dans le même esprit que la distance de Cook. Les mesures DFBETAS et DFFITS (noter le S supplémentaire) sont des mesures proprement standardisées (et indépendantes des systèmes d’unités). STT-2400; Régression linéaire

Quelques mots sur l’hypothèse de normalité De manière générale, il est souvent reconnu que l’hypothèse de normalité joue un rôle mineur en analyse de régression. De manière générale, l’hypothèse de normalité est utile à des fins d’inférence, surtout pour les petits échantillons. Cependant, il est à noter qu’en présence de petits échantillons, la non-normalité peut être particulièrement difficile à diagnostiquer par un examen des résidus. STT-2400; Régression linéaire

Hypothèse de normalité (suite) On rappelle les relations: Pour des échantillons petits à modérés, le second terme peut dominer le premier. En invoquant le théorème central limite, il peut être montré que la somme sera approximativement normale même si les erreurs originales ne sont pas normales. Cependant, si n est assez grand, le second terme a une plus petite variance par rapport au premier terme et par conséquent est moins important. Ainsi, pour n grand, les résidus peuvent être utilisés afin de cerner la normalité des erreurs (sauf que l’hypothèse de normalité n’est plus aussi importante!). STT-2400; Régression linéaire

« Normal Probability Plot » Afin de vérifier l’hypothèse de normalité, on peut procéder comme suit. Soit: On désire vérifier si les zi proviennent d’une loi normale 1. On commence par ordonner les zi: 2. Soit STT-2400; Régression linéaire

« Normal Probability Plot » (suite) Les ui sont les valeurs moyennes des statistiques d’ordre qui seraient obtenues si les observations étaient vraiment normales N(0,1). Il peut être montré que la ième statistique d’ordre espérée d’une N(0,1) est approximativement: Si les zi étaient de loi normale: 3. La régression des z(i) sur les u(i) devrait être une ligne droite sous l’hypothèse de normalité. Si ce n’est pas une ligne droite, on peut questionner l’hypothèse de normalité. STT-2400; Régression linéaire