La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco.

Présentations similaires


Présentation au sujet: "La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco."— Transcription de la présentation:

1 La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco

2 Quand utiliser la régression multiple Pour estimer la relation entre une variable dépendante ( Y ) et plusieurs variables indépendantes ( X 1, X 2, … ) Exemples Expliquer les ventes dun magasin par le marché total, le prix, linvestissement, la publicité,… Expliquer les ventes dun magasin par le marché total, le prix, linvestissement, la publicité,… Expliquer la consommation des véhicules par le prix, la cylindrée, la puissance et le poids. Expliquer la consommation des véhicules par le prix, la cylindrée, la puissance et le poids.

3 Le modèle général de régression multiple Equation de régression multiple Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives : où p et est un bruit aléatoire représentant le terme derreur. où p sont les paramètres et est un bruit aléatoire représentant le terme derreur.

4 Le modèle général de régression multiple Les termes de léquation i ème observation de Y Terme constant Influence de la variable X 1 Influence de la variable X p Résidu de la i ème observation

5 Le modèle général de régression multiple Ecriture matricielle du modèle

6 Le modèle général de régression multiple Les hypothèses du modèle Les hypothèses de nature probabiliste Les hypothèses de nature probabiliste Les variables X i sont aléatoires E( i )= 0 pour tout i V( i )= 2 pour tout 1 i p (homoscédasticité des erreurs) Cov( i, i )=0 pour tout i j Le vecteur aléatoire suit une loi normale à n dimensions N(0, 2 I n ) Les hypothèses structurelles Les hypothèses structurelles Det( X T X ) 0 (absence de colinéarité entre les variables explicatives). n > p +1

7 Le modèle général de régression multiple Interprétation géométrique Le modèle général définit un hyperplan de dimension p. Nous illustrons le cas p = 2. X1X1 X2X2 Y 0 (X 1i, X 2i ) E(Y i |X 1i, X 2i ) = X 1i + 2 X 2i i Y i : observation

8 Le processus destimation Modèle de régression multiple Y = X X p X p + Y = X X p X p + Equation de régression multiple E(Y|X 1,…,X p ) = X X p X p Paramètres inconnus 0, 1, 2,..., p 0, 1, 2,..., pDonnées: x 1 x 2... x p y.... Estimateurs de 0, 1, 2,..., p Equation estimée Estimateurs

9 Le processus destimation Interprétation géométrique Illustration du cas p=2. X1X1 X2X2 Y (X 1i, X 2i ) y i : observation

10 Le processus destimation Estimation des coefficients de régression La méthode : les moindres carrés ordinaires Le principe de lestimation des coefficients de régression : La méthode : les moindres carrés ordinaires Le principe de lestimation des coefficients de régression : consiste à minimiser la somme des carrés des résidus : Le calcul numérique lui-même (calcul matriciel) peut seffectuer à laide de logiciels statistiques (SAS, SPSS, S+, R, Gretl,…). Le calcul numérique lui-même (calcul matriciel) peut seffectuer à laide de logiciels statistiques (SAS, SPSS, S+, R, Gretl,…).

11 Le processus destimation Estimation des coefficients du modèle La méthode des moindres carrés donne pour résultat : suit une loi suit une loi est sans biais : est sans biais : Parmi les estimateurs de linéaires par rapport à X, sans biais, les éléments de ont la plus petite variance.

12 Le processus destimation Interprétation des coefficients de régression estimés La pente ( k 0 ) La pente ( k 0 ) Lestimée de Y varie dun facteur égal à Lestimée de Y varie dun facteur égal à lorsque X k augmente dune unité, les autres lorsque X k augmente dune unité, les autres variables étant maintenues constantes. variables étant maintenues constantes. Lordonnée à lorigine Lordonnée à lorigine Cest la valeur moyenne de Y lorsque toutes les X i sont nulles.

13 Le processus destimation Estimation de la variance des résidus

14 Le processus destimation Les données Taille de léchantillon Taille de léchantillon Les données doivent être suffisamment nombreuses : 15 à 20 par variable au moins. La nature des variables La nature des variables Dans la pratique, Y est une variable quantitative et les X i peuvent être quantitatives ou binaires.

15 La qualité de la régression Décomposition de la somme des carrés totale SCT : somme des carrés totale SCR : somme des carrés du modèle de régression SCE : somme des carrés résiduels SCT = SSR + SCE

16 Qualité de la régression Les coefficients de détermination Le coefficient de détermination R 2 Le coefficient de détermination R 2 Il exprime le pourcentage de la variance de Y expliquée par le modèle. Il donne une idée globale de l'ajustement du modèle. Le R 2 ajusté se calcule en fonction du R 2 : Le R 2 ajusté se calcule en fonction du R 2 : Il traduit à la fois la qualité de lajustement (liaison entre Y et les X i ) et la complexité du modèle (nombre de variables explicatives). Il traduit à la fois la qualité de lajustement (liaison entre Y et les X i ) et la complexité du modèle (nombre de variables explicatives). R 2 = SCR/SCT

17 Qualité de la régression Le test de Fisher Il permet de répondre à la question : la liaison globale entre Y et les X i est-elle significative ? Hypothèses Hypothèses H0: 1 = 2 =... = p = 0 Y ne dépend pas des variables X i. H1: Au moins un coefficient est non nul Y dépend dau moins une variable X i.

18 Qualité de la régression Statistique utilisée Statistique utilisée Règle de décision Règle de décision Au risque, on rejette H0 si : F F 1- où F 1- est un fractile dune loi de Fisher à p et n - p -1 degrés de liberté.

19 Qualité de la régression R 2 et test de Fisher F bon, R² mauvais F bon, R² bon

20 Qualité de la régression Le test de Student Il permet de répondre à la question suivante : lapport marginal dune variable X i est-il significatif ? Hypothèses Hypothèses H 0 : j = 0 (j0) On peut supprimer la variable X j H 1 : j 0 Il faut conserver la variable X j

21 Qualité de la régression Statistique utilisée Statistique utilisée Règle de décision Règle de décision Au risque, on rejette H0 si : |t| t 1- où t 1- est un fractile dune loi de Student où t 1- est un fractile dune loi de Student à n-p-1 degrés de liberté. à n-p-1 degrés de liberté.

22 Analyse des résidus Normalité QQ plot QQ plot Tests de normalité Tests de normalitéHomoscédasticité La variance des résidus nest pas stable. La variance des résidus nest pas stable. Transformation des données Transformation des données Indépendance des résidus Test de Durbin-Watson Test de Durbin-Watson Détection des valeurs atypiques

23 Les variables indicatrices Variable indicatrice (dummy variable) Variable prenant les valeurs 0 ou 1 pour indiquer que lobservation présente une certaine caractéristique, par exemple une périodicité (trimestre, mois,…). Exemple : la consommation de fuel trimestrielle d i = 1 pour le i éme trimestre d i = 0 sinon


Télécharger ppt "La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco."

Présentations similaires


Annonces Google