Régression linéaire (STT-2400)

Slides:



Advertisements
Présentations similaires
Eléments d'algèbre linéaire
Advertisements

Cours 8 Problèmes de dynamiques : techniques de résolution pas-à-pas
VII) Formalisme Quantique
Chapitre 6: Stabilité des systèmes bouclés linéaires
C1 Bio-statistiques F. KOHLER
Inférence statistique
M. EL Adel & M. Ouladsine LSIS – UMR-CNRS 6168 Marseille - France
Cours du 20 septembre Exceptionnellement, le cours prévu pour le mercredi 20 septembre se donnera Mardi le 19 septembre de 13h30 à 15h20 à la salle 1112.
Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.
Corrélation linéaire et la droite de régression
Méthodes de prévision (STT-3220)
Chapitre 2 Les indices.
Géométrie vectorielle
Chapitre 6 : Restauration d’images

Rappel... Opérations élémentaires sur les matrices:
Régression linéaire simple
Systèmes d’équations linéaires
Échantillonnage (STT-2000)
Groupe 1: Classes de même intervalle
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Espaces vectoriels Montage préparé par : S André Ross
Examen partiel #3 Mercredi le 15 décembre de 15h30 à 17h20
Rappel... Systèmes dynamiques: discrets; continus.
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Méthodes de prévision (STT-3220) Section 4 Concepts fondamentaux de séries chronologiques Version: 8 novembre 2004.
Méthodes de prévision (STT-3220)
Modeles Lineaires.
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Le comportement des coûts Chapitre 3
Régression linéaire (STT-2400)
STT-3220 Méthodes de prévision Section 2 Modèle avec deux variances inconnues: Méthode reposant sur un test préliminaire Version: 21 janvier 2008.
STT-3220 Méthodes de prévision
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire (STT-2400)
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Transformations linéaires et sous-espaces associés
Méthodes de prévision (STT-3220)
Régression linéaire (STT-2400)
STT-3220 Méthodes de prévision
La décomposition en valeurs singulières: un outil fort utile
Programmation linéaire en nombres entiers
STT-3220 Méthodes de prévision
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
CHAPITRE III Calcul vectoriel
OUTILS MATHEMATIQUES POUR LES SII
Gestion du portefeuille 07A – Modèle à facteurs
Les fonctions de référence
Séries chronologiques univariées (STT-6615)
ETUDE DE 2 VARIABLES QUANTITATIVES
Échantillonnage (STT-2000)
Le modèle de régression linéaire Claude Marois © 2010.
Méthodes de prévision (STT-3220)
Pierre Joli Cours de Mathématique Pierre Joli
Corrélation et causalité
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Formation Black Belt Lean Six Sigma
STT-3220; Méthodes de prévision 1 Exemple: Test d’une dépendance d’ordre un Supposons que l’on a observé une série chronologique de taille n = 100. La.
Simulation de robots en MATLAB Fabrice LE BARS. Simulation de robots en MATLAB 01/06/  Modélisation de systèmes avec des équations d'état Le fonctionnement.
Régression linéaire (STT-2400) Section 3 Préliminaires, Partie II, La loi multinormale Version: 8 février 2007.
Transcription de la présentation:

Régression linéaire (STT-2400) Section 7 Diagnostiques de régression: les résidus Version: 28 décembre 2007

STT-2400; Régression linéaire Introduction Les graphiques peuvent être utiles au tout début d’une analyse afin de nous orienter dans l’ajustement d’un modèle de régression. Les diagnostiques de régression sont des outils qui sont utilisés après un ajustement, afin de cerner s’il semble vraisemblable que la fonction moyenne et les hypothèses de Gauss-Markov sont compatibles avec les données. Les outils de base sont les résidus, que l’on a déjà définis. Il existe d’autres types de résidus (ex: les résidus standardisés, les résidus studentizés). STT-2400; Régression linéaire

Observations influentes Une question d’importance concerne l’influence d’une observation particulière sur l’ajustement (ex: estimateurs des coefficients, tests d’hypothèses). Si une observation particulière peut changer significativement les conclusions d’une analyse, on dira que cette observation est influente. Nous introduirons des mesures de distances et des mesures de levier afin de quantifier l’influence d’une observation. Une question reliée est la recherche de valeurs aberrantes. STT-2400; Régression linéaire

STT-2400; Régression linéaire Matrice « chapeau » On considère le modèle (avec b0): L’estimateur OLS est: On peut écrire: La matrice « chapeau »: STT-2400; Régression linéaire

Matrice « chapeau » (suite) La matrice « chapeau » transforme le vecteur correspondant à la variable réponse en le vecteur des valeurs prédites: . On a déjà vu: STT-2400; Régression linéaire

Quelques propriétés de la matrice « chapeau » La matrice « chapeau » est symétrique, idempotente et satisfait les propriétés suivantes: On rappelle que la matrice « chapeau » est une matrice de projection dans l’espace colonne de la matrice de design. STT-2400; Régression linéaire

Autres propriétés de la matrice « chapeau » Rappel: La matrice de design: Ainsi: Prenant la trace de H: STT-2400; Régression linéaire

Matrice « chapeau » et leviers On rappelle les deux relations suivantes: On déduit que les hii satisfont les relations: Remarque: Ce ne sont pas les meilleures bornes. Il peut être montré que: Le nombre r dans la relation précédente est le nombre de lignes de la matrice de design identiques à xi. STT-2400; Régression linéaire

Interprétation des hii Si un hii est grand et proche de un, il en ressort que la variance du ième résidu sera proche de zéro. Si il ressort que le ième résidu est une v.a. dégénérée, essentiellement une constante. Or Ainsi si hii approche un, le ième résidu sera proche de zéro, quelque soit la valeur de la variable réponse pour l’observation i. On dit que hii est un levier de l’observation i. STT-2400; Régression linéaire

Les leviers comme des mesures de distance Il faut retenir qu’habituellement, si une observation possède un grand hii, alors le préviseur xi sera inhabituel. Dans un modèle avec ordonnée à l’origine, il peut être montré que: La matrice Z est celle du modèle centré, et Le second terme du membre de droite de la relation précédente est l’équation d’un ellipsoïde centré à STT-2400; Régression linéaire

Seuils recommandés pour les leviers On rappelle la relation: Compte tenu du résultat précédent, Belsey, Kuh et Welsch (1980, p.17), suggèrent que chaque observation ayant un levier supérieur à 2(p+1)/n devrait être déclarée influente et examinée attentivement. STT-2400; Régression linéaire

Comportement des résidus lorsque le modèle est correct Graphique des résidus versus les valeurs prédites: on devrait retrouver un « graphique nul » (moyenne constante de zéro, variance constante, pas de points isolés). Graphique des résidus versus les préviseurs (ou des combinaisons linéaires des préviseurs): on devrait retrouver des « graphiques nuls ». Remarques: Puisque même lorsque le modèle est correct, la fonction variance basée sur les résidus n’est jamais parfaitement constante. De plus, les résidus sont corrélés, mais cette corrélation est habituellement non importante et non visible dans les graphiques de résidus. STT-2400; Régression linéaire

Comportement des résidus lorsque le modèle n’est pas correct De manière générale, si le modèle ajusté repose sur des hypothèses qui ne sont pas justes, on s’attend à retrouver des graphiques qui ne seront pas des « graphiques nuls ». En régression linéaire simple, il est facile de distinguer les situations où la variance n’est pas constante des situations où la fonction moyenne est mal spécifiée. Il faut rester prudent en régression linéaire multiple, car un motif dans le graphique des résidus ne correspond pas nécessairement à un problème particulier dans les hypothèses. Un « graphique non nul » indique qu’il y a un problème, mais ne dit pas nécessairement la source du problème. STT-2400; Régression linéaire

Graphique des résidus en régression linéaire simple et multiple Les graphiques des résidus dans un contexte de régression linéaire multiple peuvent s’interpréter comme en régression linéaire simple si deux conditions sont satisfaites: Les préviseurs doivent être reliés de manière linéaire, au moins approximativement; Pour une certaine fonction g, la fonction moyenne doit être de la forme: STT-2400; Régression linéaire

Diagnostics de régression avec SAS Avec la procédure PROC REG, la ligne de commande: MODEL Y = X1 X2 … Xp / R P INFLUENCE; L’option « / R » demande une analyse des résidus. L’option « / P » demande le calcul des valeurs prédites. L’option « / INFLUENCE » calcule (entre autres) les leviers. STT-2400; Régression linéaire