La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco
Quand utiliser la régression multiple Pour estimer la relation entre une variable dépendante (Y ) et plusieurs variables indépendantes (X1, X2, …) Exemples Expliquer les ventes d’un magasin par le marché total, le prix, l’investissement, la publicité,… Expliquer la consommation des véhicules par le prix, la cylindrée, la puissance et le poids.
Le modèle général de régression multiple Equation de régression multiple Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives : où b0, b1, b2, . . . , bp sont les paramètres et e est un bruit aléatoire représentant le terme d’erreur.
Le modèle général de régression multiple Les termes de l’équation ième observation de Y Terme constant Influence de la variable Xp Influence de la variable X1 Résidu de la ième observation
Le modèle général de régression multiple Ecriture matricielle du modèle
Le modèle général de régression multiple Les hypothèses du modèle Les hypothèses de nature probabiliste Les variables Xi sont aléatoires E(ei)=0 pour tout i V(ei)=s2 pour tout 1≤i≤p (homoscédasticité des erreurs) Cov(ei , ei )=0 pour tout i≠j Le vecteur aléatoire e suit une loi normale à n dimensions N(0, s 2In) Les hypothèses structurelles Det(XTX)≠0 (absence de colinéarité entre les variables explicatives). n>p+1
Le modèle général de régression multiple Interprétation géométrique Le modèle général définit un hyperplan de dimension p. Nous illustrons le cas p=2. E(Yi|X1i, X2i) = 0+1X1i+2X2i Yi : observation Y b0 ei X2 (X1i, X2i) X1
Le processus d’estimation Modèle de régression multiple Y = 0 + 1X1 + 2X2 +. . .+ pXp + e Equation de régression multiple E(Y|X1,…,Xp) = 0 + 1X1 + 2X2 +. . .+ pXp Paramètres inconnus b0, b1, b2, . . . , bp Données: x1 x2 . . . xp y . . . . Equation estimée Estimateurs de b0, b1, b2, . . . , bp Estimateurs
Le processus d’estimation Interprétation géométrique Illustration du cas p=2. yi : observation Y X2 (X1i, X2i) X1
Le processus d’estimation Estimation des coefficients de régression La méthode : les moindres carrés ordinaires Le principe de l’estimation des coefficients de régression : consiste à minimiser la somme des carrés des résidus : Le calcul numérique lui-même (calcul matriciel) peut s’effectuer à l’aide de logiciels statistiques (SAS, SPSS, S+, R, Gretl,…).
Le processus d’estimation Estimation des coefficients du modèle La méthode des moindres carrés donne pour résultat : suit une loi est sans biais : Parmi les estimateurs de b linéaires par rapport à X, sans biais, les éléments de ont la plus petite variance.
Le processus d’estimation Interprétation des coefficients de régression estimés La pente (k≠0) L’estimée de Y varie d’un facteur égal à lorsque Xk augmente d’une unité, les autres variables étant maintenues constantes. L’ordonnée à l’origine C’est la valeur moyenne de Y lorsque toutes les Xi sont nulles.
Le processus d’estimation Estimation de la variance des résidus
Le processus d’estimation Les données Taille de l’échantillon Les données doivent être suffisamment nombreuses : 15 à 20 par variable au moins. La nature des variables Dans la pratique, Y est une variable quantitative et les Xi peuvent être quantitatives ou binaires.
La qualité de la régression Décomposition de la somme des carrés totale SCT : somme des carrés totale SCR : somme des carrés du modèle de régression SCE : somme des carrés résiduels SCT = SSR + SCE
Qualité de la régression Les coefficients de détermination Le coefficient de détermination R2 Il exprime le pourcentage de la variance de Y expliquée par le modèle. Il donne une idée globale de l'ajustement du modèle. Le R2 ajusté se calcule en fonction du R2 : Il traduit à la fois la qualité de l’ajustement (liaison entre Y et les Xi) et la complexité du modèle (nombre de variables explicatives). R2 = SCR/SCT
Qualité de la régression Le test de Fisher Il permet de répondre à la question : la liaison globale entre Y et les Xi est-elle significative ? Hypothèses H0: 1 = 2 = ... = p = 0 Y ne dépend pas des variables Xi . H1: Au moins un coefficient est non nul Y dépend d’au moins une variable Xi .
Qualité de la régression Statistique utilisée Règle de décision Au risque a, on rejette H0 si : F F1- où F1- est un fractile d’une loi de Fisher à p et n-p-1 degrés de liberté.
Qualité de la régression R2 et test de Fisher F bon, R² mauvais F bon, R² bon
Qualité de la régression Le test de Student Il permet de répondre à la question suivante : l’apport marginal d’une variable Xi est-il significatif ? Hypothèses H0 : j = 0 (j≠0) On peut supprimer la variable Xj H1 : j 0 Il faut conserver la variable Xj
Qualité de la régression Statistique utilisée Règle de décision Au risque a, on rejette H0 si : |t| ≥ t1- où t1- est un fractile d’une loi de Student à n-p-1 degrés de liberté.
Analyse des résidus Normalité Homoscédasticité QQ plot Tests de normalité Homoscédasticité La variance des résidus n’est pas stable. Transformation des données Indépendance des résidus Test de Durbin-Watson Détection des valeurs atypiques
Les variables indicatrices Variable indicatrice (dummy variable) Variable prenant les valeurs 0 ou 1 pour indiquer que l’observation présente une certaine caractéristique, par exemple une périodicité (trimestre, mois,…). Exemple : la consommation de fuel trimestrielle di = 1 pour le iéme trimestre di = 0 sinon