Régression linéaire multiple : hypothèses & tests. Partie 3.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

But de la lecture critique
Université de Ouagadougou
La régression logistique: fondements et conditions d’application
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison de plusieurs moyennes observées
Régression ou corrélation
Régression -corrélation
Laboratoire Inter-universitaire de Psychologie
Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
La Régression Multiple
Régression linéaire simple
Howell, Chap. 1 Position générale
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Méthodes de prévision (STT-3220)
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La régression logistique
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Le comportement des coûts Chapitre 3
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Régression linéaire (STT-2400)
STT-3220 Méthodes de prévision Section 2 Modèle avec deux variances inconnues: Méthode reposant sur un test préliminaire Version: 21 janvier 2008.
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire (STT-2400)
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Régression linéaire (STT-2400)
STT-3220 Méthodes de prévision
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
M1 2013/2014 Implémentation des procédures statistiques Introduction aux régressions linéaires.
Corrélation et régression linéaire
Méthodes de Biostatistique
Méthodes de Biostatistique
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Méthodologie expérimentale : l’analyse des données
LA REGRESSION MULTIPLE
Incertitude d’un résultat d’analyse liée à la courbe d’étalonnage
2. Modèles linéaires.
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
STATISTIQUES ANALYTIQUES (suite)
Théorème de la limite centrale l’inférence statistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
LA REGRESSION LINEAIRE
Statistique Cours #4 Régression linéaire simple et multiple
Probabilités et statistique Test d’hypothèse de deux moyennes
Méthode des moindres carrés (1)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
Probabilités et statistique MQT-1102
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Régression linéaire multiple : hypothèses & tests. Partie 3.

R2 ajusté Rappel : Le R2 mesure la proportion de la variation de Y qui est expliquée par les régresseurs X1 … Xk. L’inconvénient du R2 est qu’il augmente mécaniquement avec le nombre de variables explicatives, ce qui ne permet pas de comparer directement la performance de deux modèles (avec une même variable expliquée) dès lors qu’ils ne possèdent un même nombre de variables explicatives. En effet, le R2 ne « pénalise » pas les modèles les plus complexes, c’est à dire ceux qui possèdent un grand nombre de régresseurs. Toute chose égale par ailleurs (ceteris paribus), les modèles les plus simples sont meilleurs.

R2 ajusté On définit ainsi le R2 ajusté en « pénalisant » l’ajout de variables explicatives. L’avantage du R2 ajusté sur le R2 est que le R2 ajusté peut voir sa valeur augmenter ou diminuer lorsqu’on ajoute un régresseur au modèle. On peut ainsi comparer les performances respectives de deux modèles en utilisant le R2 ajusté. L’inconvénient du R2 ajusté est qu’il ne permet pas de comparer deux modèles si leurs variables explicatives sont différentes. Autrement dit, pour comparer deux modèles via le R2 ajusté, il faut que l’un des deux modèles contienne toutes les variables explicatives du second modèle ainsi qu’un certain nombre de variables en plus.

Comment vérifier que toutes ces hypothèses sont respectées? Rappel hypothèse #1 : Linéarité du modèle en ses paramètres hypothèse #2 : Echantillon aléatoire hypothèse #3: Moyenne conditionnelle nulle hypothèse #4 : Pas de colinéarité parfaite hypothèse #5: Homoscédasticité Comment vérifier que toutes ces hypothèses sont respectées?

Tester l’hétéroscédasticité Rappel : hypothèse #5: Homoscédasticité Quelque soient les caractéristiques de l’échantillon considéré, la variance du terme d’erreur reste constante. Elle ne dépend donc pas des X1, …Xk. Si cette hypothèse n’est pas respectée, on parle alors d’hétéroscédasticité. L’hétéroscédasticité n’affecte pas le biais des estimateurs des Bj. En revanche, la variance de ces estimateurs n’est plus minimale parmi la classe des estimateurs linéaires non biaisés. Autrement dit, l’hétéroscédasticité affecte la précision des estimateurs des Bj. La formulation générale de l’hétéroscédascité est la suivante (la variance du terme d’erreur dépend des caractéristiques X1, …Xk de l’échantillon considéré): Ainsi, la valeur de la variance des estimateurs change et ce faisant, la valeur des standard errors aussi (celles que l’on peut voir sur les sorties SAS). Ceci implique que les tests qui ont recours aux t et F statistiques et aux intervalles de confiance ne sont plus valides.

Tester l’hétéroscédasticité Le test de Breusch-Pagan & le test de White. L’idée générale de ces tests est de savoir si le terme d’erreur u dépend des variables explicatives X1 … Xk. L’encadré ci-dessous ajoute quelques précisons. L’hypothèse nulle de ces deux tests est celle d’homoscédasticité. Si le test est rejeté, c’est que l’on est en présence d’hétéroscédascité Le test de Breusch-Pagan : On régresse le carré du terme d’erreur u2 (les erreurs estimés plus précisément) sur les variables explicatives X1 … Xk et on implémente la F statistique pour étudier la significativité jointe de tous les régresseurs. On conclut à partir des valeurs critiques à 5% d’une distribution de Fisher (donné par les sorties SAS). Le test de White : la seule différence avec le test de Breusch-Pagan est que l’on régresse u2 sur les variables explicatives X1 … Xk ainsi que sur tous les produits croisés Xj2 et Xl*Xk pour k ≠ l (pour tenir compte des effets non linéaires).

Comment vérifier que les autres hypothèses sont bien respectées? Tests Comment vérifier que les autres hypothèses sont bien respectées? Les hypothèses 1 et 4 sont liées à la spécification du modèle. Pour l’H. 4, on peut étudier l’injectivité de la matrice XtX du modèle … L’hypothèse 2 est liée aux conditions de recueils des informations. Pour l’hypothèse 3, on est souvent amener à alléger cette hypothèse …