La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco.

Présentations similaires


Présentation au sujet: "La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco."— Transcription de la présentation:

1 La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco

2 Quand utiliser la régression multiple Pour estimer la relation entre une variable dépendante ( Y ) et plusieurs variables indépendantes ( X 1, X 2, … ) Exemples Expliquer le prix dun appartement par la superficie, les prestations, lemplacement,… Expliquer le prix dun appartement par la superficie, les prestations, lemplacement,… Expliquer les ventes dun magasin par le marché total, le prix, linvestissement, la publicité,… Expliquer les ventes dun magasin par le marché total, le prix, linvestissement, la publicité,… Expliquer la consommation des véhicules par le prix, la cylindrée, la puissance et le poids. Expliquer la consommation des véhicules par le prix, la cylindrée, la puissance et le poids.

3 Le modèle linéaire de régression multiple Equation de régression multiple Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives : où p et est un bruit aléatoire représentant le terme derreur. où p sont les paramètres et est un bruit aléatoire représentant le terme derreur.

4 Le modèle linéaire de régression multiple Les termes de léquation i ème observation de Y Terme constant Influence de la variable X 1 Influence de la variable X p Résidu de la i ème observation

5 Le modèle linéaire de régression multiple Ecriture matricielle du modèle

6 Le modèle linéaire de régression multiple Les hypothèses du modèle Les hypothèses de nature probabiliste Les hypothèses de nature probabiliste Les variables X i sont aléatoires E( i )= 0 pour tout i V( i )= 2 pour tout 1 i p (homoscédasticité des erreurs) Cov( i, i )=0 pour tout i j Le vecteur aléatoire suit une loi normale à n dimensions N(0, 2 I n ) Les hypothèses structurelles Les hypothèses structurelles Det( X T X ) 0 (absence de colinéarité entre les variables explicatives). n > p +1

7 Le modèle linéaire de régression multiple Interprétation géométrique Le modèle général définit un hyperplan de dimension p. Nous illustrons le cas p = 2. X1X1 X2X2 Y 0 (X 1i, X 2i ) E(Y i |X 1i, X 2i ) = X 1i + 2 X 2i i Y i : observation

8 Le processus destimation Modèle de régression multiple Y = X X p X p + Y = X X p X p + Hyperplan de régression multiple E(Y|X 1,…,X p ) = X X p X p Paramètres inconnus 0, 1, 2,..., p 0, 1, 2,..., pDonnées: x 1 x 2... x p y.... Estimateurs de 0, 1, 2,..., p Equation estimée Estimateurs

9 Le processus destimation Interprétation géométrique Illustration du cas p=2. X1X1 X2X2 Y (X 1i, X 2i ) y i : observation

10 Le processus destimation Estimation des coefficients de régression La méthode : les moindres carrés ordinaires Le principe de lestimation des coefficients de régression : La méthode : les moindres carrés ordinaires Le principe de lestimation des coefficients de régression : consiste à minimiser la somme des carrés des résidus : Le calcul numérique lui-même (calcul matriciel) peut seffectuer à laide de logiciels statistiques (SAS, SPSS, S+, R, Gretl,…). Le calcul numérique lui-même (calcul matriciel) peut seffectuer à laide de logiciels statistiques (SAS, SPSS, S+, R, Gretl,…).

11 Le processus destimation Estimation des coefficients du modèle La méthode des moindres carrés donne pour résultat : suit une loi suit une loi est sans biais : est sans biais : Parmi les estimateurs de linéaires par rapport à X, sans biais, les éléments de ont la plus petite variance.

12 Le processus destimation Interprétation des coefficients de régression estimés La pente ( k 0 ) La pente ( k 0 ) Lestimée de Y varie dun facteur égal à Lestimée de Y varie dun facteur égal à lorsque X k augmente dune unité, les autres lorsque X k augmente dune unité, les autres variables étant maintenues constantes. variables étant maintenues constantes. Lordonnée à lorigine Lordonnée à lorigine Cest la valeur moyenne de Y lorsque toutes les X i sont nulles.

13 Le processus destimation Estimation de la variance des résidus

14 Le processus destimation Les intervalles de confiance On peut calculer pour chaque coefficient du modèle un intervalle de confiance de niveau (1-) donné par : où t/2 se calcule à partir de : T suivant une de Student à n-p-1 d.d.l.

15 Le processus destimation Les données Taille de léchantillon Taille de léchantillon Les données doivent être suffisamment nombreuses : 15 à 20 par variable au moins. La nature des variables La nature des variables Dans la pratique, Y est une variable quantitative et les X i peuvent être quantitatives ou binaires.

16 Qualité de la régression Décomposition de la somme des carrés totale SCT : somme des carrés totale SCR : somme des carrés des résidus SCE : somme des carrés expliqués par le modèle SCT = SSE + SCR

17 Qualité de la régression Interprétation géométrique de la décomposition en somme de carrés Théorème de Pythagore

18 Qualité de la régression Les coefficients de détermination Le coefficient de détermination R 2 Le coefficient de détermination R 2 Il exprime le pourcentage de la variance de Y expliquée par le modèle. Il donne une idée globale de l'ajustement du modèle. Le R 2 ajusté se calcule en fonction du R 2 : Le R 2 ajusté se calcule en fonction du R 2 : Il traduit à la fois la qualité de lajustement (liaison entre Y et les X i ) et la complexité du modèle (nombre de variables explicatives). Il traduit à la fois la qualité de lajustement (liaison entre Y et les X i ) et la complexité du modèle (nombre de variables explicatives). R 2 = SCE/SCT

19 Qualité de la régression Remarques sur le R 2 0R 2 1 0R 2 1 Lorsque le R 2 est proche de 1, cela se signifie que la variable dépendante Y est bien expliquée par les variables X i. Lorsque le R 2 est proche de 1, cela se signifie que la variable dépendante Y est bien expliquée par les variables X i. La racine carrée de R 2, R, porte le nom de coefficient de corrélation multiple entre Y et les X i. La racine carrée de R 2, R, porte le nom de coefficient de corrélation multiple entre Y et les X i. Lorsque lon ajoute de nouvelles variables explicatives au modèle, le R 2 augmente (même dans le cas où les nouvelles variables explicatives sont très liées à la variable dépendante). Lorsque lon ajoute de nouvelles variables explicatives au modèle, le R 2 augmente (même dans le cas où les nouvelles variables explicatives sont très liées à la variable dépendante). Cest la raison pour laquelle on introduit le R 2 ajusté. Cest la raison pour laquelle on introduit le R 2 ajusté.

20 Qualité de la régression Le test global de Fisher Il permet de répondre à la question : la liaison globale entre Y et les X i est-elle significative ? Hypothèses Hypothèses H0: 1 = 2 =... = p = 0 Y ne dépend pas des variables X i. H1: Au moins un coefficient est non nul Y dépend dau moins une variable X i.

21 Qualité de la régression Statistique utilisée Statistique utilisée Règle de décision Règle de décision Au risque, on rejette H0 si : p-value (calculée avec une loi de Fisher à p et n - p -1 degrés de liberté)

22 Qualité de la régression R 2 et test de Fisher F bon, R² mauvais F bon, R² bon

23 Qualité de la régression Le test de Student sur un coefficient de régression Il permet de répondre à la question suivante : lapport marginal dune variable X j est-il significatif ? Hypothèses Hypothèses H 0 : j = 0 (j0) On peut supprimer la variable X j H 1 : j 0 Il faut conserver la variable X j

24 Qualité de la régression Statistique utilisée sous lhypothèse H0 Statistique utilisée sous lhypothèse H0 Règle de décision Règle de décision Au risque, on rejette H0 si : p-value loi de Student Au risque, on rejette H0 si : p-value (calculée à partir dune loi de Student à n-p-1 degrés de liberté). à n-p-1 degrés de liberté).

25 Analyse des résidus Normalité QQ plot QQ plot Tests de normalité Tests de normalitéHomoscédasticité La variance des résidus nest pas stable. La variance des résidus nest pas stable. Transformation des données Transformation des données Indépendance des résidus Test de Durbin-Watson Test de Durbin-Watson Détection des valeurs atypiques

26 Les variables indicatrices Variable muette ou indicatrice (dummy variable) Variable prenant les valeurs 0 ou 1 pour indiquer que lobservation présente une certaine caractéristique, par exemple une périodicité (trimestre, mois,…). Exemple : la consommation de fuel trimestrielle d i = 1 pour le i éme trimestre d i = 0 sinon

27 Multicolinéarité Définition Cest lexistence de corrélations élevées (au delà de 0.70) entre les variables indépendantes (variables explicatives). La multicolinéarité a notamment pour conséquences : - de fausser la précision de lestimation des coefficients de régression - de fausser la précision de lestimation des coefficients de régression - de rendre sensible lestimation des coefficients à de petites variations des données.

28 Multicolinéarité X1X1 Variables indépendantes X3X3 X2X2 Variables colinéaires X2X2

29 Multicolinéarité Détection Examen de la matrice de variance covariance ou de corrélation. Examen de la matrice de variance covariance ou de corrélation. R 2 élevé mais peu de variables significatives. R 2 élevé mais peu de variables significatives. Fortes corrélations entre les X i Fortes corrélations entre les X i Fortes corrélations partielles entre les variables indépendantes. Fortes corrélations partielles entre les variables indépendantes.

30 Sélection des variables Problématique Comment choisir le modèle comportant la meilleure combinaison de variables indépendantes expliquant la variable dépendante ? Stratégies Examiner tous les modèles possibles Examiner tous les modèles possibles Sélection progressive Sélection progressive Régression pas à pas descendante Régression pas à pas descendante Régression pas à pas ascendante Régression pas à pas ascendante

31 Sélection des variables Examiner tous les modèles possibles Cette stratégie consiste à envisager tous les modèles et à retenir le meilleur. Inconvénients Inconvénients Lenteur (2 p modèles si p est le nombre de variables explicatives) et coût de cette approche Cest quoi le meilleur modèle ?

32 Sélection des variables Le test de Fisher Il permet de tester si le fait dajouter une variable indépendante à un modèle comportant déjà une variable (ou de supprimer une variable dun modèle comportant deux variables) est statistiquement significatif. La p-value correspondante est utilisée comme critère de décision pou ajouter ou supprimer une variable.

33 Régression pas à pas Calcul de F et de la p-value pour chaque X i du modèle Début p -value > seuil ? Arrêt La variable X i ayant la plus grande p-value est supprimée du modèle Calcul de F et de la p-value pour chaque X i ne se trouvant pas Dans le modèle p -value < seuil ? La variable X i ayant la plus petite p-value est entrée dans le modèle Non Non Oui Oui

34 Régression pas à pas descendante Arrêt Calcul de F et de la p-value pour chaque X i p-value > seuil ? La variable X i ayant la plus grande p-value est supprimée du modèle Non Oui Au départ toutes les variables X i sont dans le modèle

35 Exemples Deux exemples sont traités en cours à laide du logiciel SPSS : lun dentre eux illustre la mise en œuvre dune régression multiple et lautre la sélection des variables dans un modèle à laide de la méthode de régression descendante.

36 Une étude empirique Titre de larticle : Reliving the 50s: the Big Push, Poverty Traps, and Take-offs in Economic Development, William Easterly (2005) Données utilisées : Maddison, Angus. The World Economy : Historical Statistics. OECD 2003.

37 Une étude empirique Lauteur William Easterly Expert reconnu du développement économique et de l'Afrique Expert reconnu du développement économique et de l'Afrique Professeur à lUniversité de New York Professeur à lUniversité de New York Chercheur au Center for Global Development (Washington) Chercheur au Center for Global Development (Washington) Il a travaillé en tant quéconomiste pendant 16 ans à la Banque Mondiale. Il a dû quitter linstitution à la suite de la parution de son ouvrage : « Les pays pauvres sont-ils condamnés à le rester ? » (juin 2006). Il a travaillé en tant quéconomiste pendant 16 ans à la Banque Mondiale. Il a dû quitter linstitution à la suite de la parution de son ouvrage : « Les pays pauvres sont-ils condamnés à le rester ? » (juin 2006).

38 Une étude empirique Termes importants dans le titre de larticle É conomie du d é veloppement É conomie du d é veloppement Big Push Big Push Poverty traps Poverty traps Take-offs Take-offs

39 Economie du développement Quest ce que léconomie du développement ? Branche de léconomie qui applique les méthodes macroéconomiques et microéconomiques à létude des problèmes économiques, sociaux, environnementaux et institutionnels rencontrés par les PVD (Pays en Voie de Développement). Points focaux Déterminants de la pauvreté et du sous développement Déterminants de la pauvreté et du sous développement Politiques à mettre en œuvre pour sortir les PVD de leur sous-développement. Politiques à mettre en œuvre pour sortir les PVD de leur sous-développement.

40 Une étude empirique Le « big push » Les économistes du développement des années 50 préconisaient la théorie du "Big Push": les pays les plus pauvres se trouvent enfermés dans une trappe à pauvreté. Daprès eux, seul un effort massif d'investissement financé par l'aide internationale peut leur permettre de décoller.

41 Une étude empirique La problématique de larticle Le rapport des Nations unies sur les objectifs du millénaire de janvier 2005 et celui de la Commission britannique pour l'Afrique de mars 2005 sont marqués par le retour de lidée quune combinaison dinvestissements peut permettre aux économies africaines de sortir des trappes à pauvreté. Le rapport des Nations unies sur les objectifs du millénaire de janvier 2005 et celui de la Commission britannique pour l'Afrique de mars 2005 sont marqués par le retour de lidée quune combinaison dinvestissements peut permettre aux économies africaines de sortir des trappes à pauvreté. William Easterly a voulu tester cette approche du « big push » comme réponse aux trappes à pauvreté en utilisant des régressions sur le taux de croissance.

42 Une étude empirique Comment tester lexistence de trappes à pauvreté ? Revue de la littérature Revue de la littérature Les pays pauvres ont-ils une croissance par tête significativement inférieure à celle des autres pays et cette croissance est-elle nulle ? Les pays pauvres ont-ils une croissance par tête significativement inférieure à celle des autres pays et cette croissance est-elle nulle ? Données : revenu par tête de 1950 à 2001 pour 137 pays. Données : revenu par tête de 1950 à 2001 pour 137 pays.

43 Une étude empirique Test de stationnarité sur le taux de croissance par tête

44 Une étude empirique Que signifie la stationnarité ? Si lhypothèse dune trappe à pauvreté est vraie, alors le Log du revenu par tête pour les pays les plus pauvres doit être stationnaire. Le revenu va fluctuer dune façon aléatoire autour de son niveau moyen.

45 Une étude empirique Formulation dun test de stationnarité Hypothèse H0 : le Log du revenu par tête est stationnaire. Hypothèse H1 : le Log du revenu par tête nest pas stationnaire.

46 Une étude empirique « Divergence Big Time » (Pritchett,1996) Le creusement considérable de lécart de revenu entre les pays les plus riches et les plus pauvres du monde. Le creusement considérable de lécart de revenu entre les pays les plus riches et les plus pauvres du monde. Le ratio de revenu par habitant entre le pays le plus riche et le plus pauvre du monde a été multiplié par 6 au cours du dernier demi-siècle. Le ratio de revenu par habitant entre le pays le plus riche et le plus pauvre du monde a été multiplié par 6 au cours du dernier demi-siècle. Selon la Banque Mondiale, le revenu moyen dans les 20 pays les plus riches est 37 fois plus élevé que le revenu moyen dans les 20 pays les plus pauvres, et ce ratio a doublé depuis Selon la Banque Mondiale, le revenu moyen dans les 20 pays les plus riches est 37 fois plus élevé que le revenu moyen dans les 20 pays les plus pauvres, et ce ratio a doublé depuis 1960.

47 Une étude empirique Big time divergence Utilisation dune régression : pour expliquer le taux de croissance par tête par le revenu initial et des indicateurs de démocratie des institutions politiques.

48 Une étude empirique

49 Les indicateurs de démocratie Lindicateur de Freedom House (ONG) attribue: Lindicateur de Freedom House (ONG) attribue: deux notes, lune relative aux droits politiques et lautre aux droits civils. une lettre dépendant de la moyenne des deux notes précédentes. Lindicateur Polity IV Lindicateur Polity IV Ce coefficient (qui va de 1, niveau de contrainte le plus faible, à 7) rend compte de la qualité initiale des institutions politiques, mesurée par les contraintes pesant sur le pouvoir exécutif.

50 Une étude empirique Take-off (décollage) Une suite continue de régimes à croissance nulle suivie dune suite continue de régimes à croissance positive. Une suite continue de régimes à croissance nulle suivie dune suite continue de régimes à croissance positive. La croissance sera considérée comme nulle dès que le taux de croissance se trouve dans lintervalle [-0.5%,0.5%]. La croissance sera considérée comme nulle dès que le taux de croissance se trouve dans lintervalle [-0.5%,0.5%]. La croissance par tête est considérée comme positive et stable lorsquelle est au-dessus de 1.5% su une période suffisamment longue. La croissance par tête est considérée comme positive et stable lorsquelle est au-dessus de 1.5% su une période suffisamment longue.

51 Une étude empirique Situation de décollage t Taux de croissance 0.5% -0.5% 1.5%

52 Take-offs dans les pays riches

53 Une étude empirique Take-offs dans les pays riches Parmi les pays riches, seul le Japon répond à la définition donnée du décollage. Parmi les pays riches, seul le Japon répond à la définition donnée du décollage. Pour tous les autres pays on observe plutôt une accélération graduelle de la croissance plutôt quun décollage. Pour tous les autres pays on observe plutôt une accélération graduelle de la croissance plutôt quun décollage. Cela nest pas compatible avec la notion dun Cela nest pas compatible avec la notion dun « big push » entraînant une transition soudaine dune stagnation vers une croissance vigoureuse.

54 Take-offs dans les régions en développement Région Africa0.3%0.6%0.9%1.8%0.2% Caribbean countries (24) -0.3%1.8%1.4%3.2%1.0% East Asian countries (16 ) -0.1%0.5%-0.1%3.5%3.4% East European Countries (7) 0.6%1.4%0.6%3.7%0.4% Latin America 0.0%1.8%1.4%2.5%0.8% West Asian countries (15) 0.4%0.9%1.3%4.4%0.2%

55 Une étude empirique Take-offs dans les régions en développement Seule la région du sud est asiatique satisfait à la définition proposée du take-off. Seule la région du sud est asiatique satisfait à la définition proposée du take-off. LAmérique latine et les Caraïbes ont connu pendant la période un pré-décollage mais il na pas été soutenu. LAmérique latine et les Caraïbes ont connu pendant la période un pré-décollage mais il na pas été soutenu.

56 Une étude empirique Take-offs dans les pays Sur les 44 pays étudiés, seuls 5 dentre eux satisfont à la définition dEasterly dun take- off. Sur les 44 pays étudiés, seuls 5 dentre eux satisfont à la définition dEasterly dun take- off.

57 Une étude empirique Sur lexistence des trappes à pauvreté Easterly rejette lhypothèse de lexistence des trappes à pauvreté sur la base des deux arguments suivants : - il y a très peu de pays à taux de croissance sur lintervalle [-0.5, 0.5] pour la période 1950 – le logarithme du revenu par tête nest pas stationnaire. Cependant sur le premier point, on peut argumenter que cette conclusion est dépendante des périodes ou sous périodes considérées.

58 Une étude empirique Conclusions de larticle Aucun des pays testés dans létude nest dans une trappe à pauvreté (définie par une absence totale et durable de croissance). Aucun des pays testés dans létude nest dans une trappe à pauvreté (définie par une absence totale et durable de croissance). L'influence de l'aide sur l'investissement et la croissance nest pas évidente. Il ne semble pas non plus que l'aide soit un facteur déterminant pour les rares pays à avoir décollé. L'influence de l'aide sur l'investissement et la croissance nest pas évidente. Il ne semble pas non plus que l'aide soit un facteur déterminant pour les rares pays à avoir décollé. Pour Easterly, la qualité des institutions politiques est un facteur bien plus important pour le développement que lapport dune d'aide massive et soudaine. Pour Easterly, la qualité des institutions politiques est un facteur bien plus important pour le développement que lapport dune d'aide massive et soudaine.

59 Une étude empirique Remarque importante Ce working paper est controversé sur un certain nombre de points par dautres économistes. Donc prudence dans les conclusions quen tire lauteur. Dans ce cours, cela a surtout servi à introduire une problématique de recherche et à mettre en évidence un certain nombre de méthodes et outils.

60 Une étude empirique Méthodes et outils Cet article montre la nécessité dutiliser, entre autres, des méthodes de régression et des tests pour valider des hypothèses dans les études empiriques. La régression et les tests dhypothèses sont deux outils fondamentaux dans les études empiriques.


Télécharger ppt "La régression multiple Econométrie appliquée Cours de M1 deuxième partie Armand Taranco."

Présentations similaires


Annonces Google