Introduction à l’économétrie appliquée sous STATA Mémoire de politiques du développement Master 1 Olivia Bertelli– Victoire Girard Février 2014
Plan de la séance Introduction: statistique et économétrie, quelques définitions 1. Visualisation des données (graphiques) 2. Exploration des données: statistiques descriptives 3. Modélisation: économétrie linéaire Conclusion: autres modèles rencontrés dans la littérature
Statistique et économétrie, quelques définitions INTRODUCTION: Statistique et économétrie, quelques définitions
Statistique: quelques définitions La statistique, c’est l’art de collecter les données, de les organiser, de les décrire et de faire des projections pour expliquer ou prévoir. Les méthodes statistiques sont l’ensemble des outils qui permettent d’analyser des faits représentés par des données.
Démarche en statistique John Wilder TUKEY (1915-2000): 1977: exploratory data analysis. 1980: “We need both exploratory and confirmatory statistics.” Analyse des données Analyse exploratoire des données Analyse confirmatoire des données idées/découverte vérifier des hypothèses/confirmer
Rappel: distinction théorique-empirique La recherche en économie repose sur deux piliers : la production de théories visant à expliquer la réalité modélisation des phénomènes étudiés (choix, interactions) avec les outils de la microéconomie et de la macroéconomie l'étude de la validité de ces théories lorsqu'on les confronte aux données réelles étude des prédictions théoriques sur données statistiques
Démarche en statistique Question Définir une problématique Elaborer un questionnaire Choisir une méthode de sondage Tirer un échantillon Phase préparatoire Recueillir des informations Chiffrer, saisir des questionnaires Contrôler Corriger Collecte Recoder des variables Elaborer des tableaux (moyennes, corrélations,…) Mettre à l’épreuve des hypothèses Modéliser Utiliser une règle de décision Analyse Réponse Ne pas promettre la lune! Les statistiques et l’économétrie ne donnent jamais une réponse exacte au 100%. Vous êtes en mesure de fournir des résultats moyens avec un certain niveau de certitude.
Définitions Une variable aléatoire est une application qui associe une information simple (observation) à un événement particulier. Un échantillon est un ensemble fini d’observations. La distribution d’échantillonage d’une variable aléatoire G est la distribution des différentes valeurs que peut prendre G, pour les différents échantillons d’effectif fixé qu’il serait possible d’extraire de la population.
Types de variables VARIABLES Qualitatives Quantitatives Nominales Ordinales Intervalle Ratio Ex: sexe Ex: opinion Ex: température Ex: revenu Données Catégorielles Discrètes ou Continues Si Recodage en tranches
Types de données (ensemble d’observations) Soit N le nombre d’individus et T le nombre de périodes: Si T=1 et N>1: Cross-section: transversal (même année ‘à travers’ les individus) Si N>1 et T>1 et N_i=N_i(t+1): Time series: longitudinal (mêmes individus à travers les années) Si T>1 et N>1 et N_i≠N_i(t+1): : Time series: cross-section
Types de données Exemples de format de base de données en panel: Format Long Format Large Id Time Var1 1 2 … 2000 2001 140 120 130 110 Id Var1- 2000 Var1- 2001 … 1 2 140 130 120 110 L’analyse et la modélisation économétrique que vous choisirez dépendra en partie de la nature des variables et du type de données dont vous disposerez.
Stata: créer sa base de données et l’observer Commode de partir d’un fichier excel qu’on copie et colle dans un fichier .dta de Stata Quelques commandes pour observer la base de données edit list describe Pour nommer des variables: label Pour générer des variables: gen
1. Visualisation des données: graphiques
La « boite à moustaches » graph box gdp_capita outliers max 4ème quart Q3 médiane Q1 1er quart min
Histogrammes histogram gdp_capita, percent title ("Histogramme")
Nuage de points graph twoway scatter opennessrate gdp_capita
2. Exploration des données: statistiques descriptives
Expliquer une variable DEPENDENTE (Y) par des variables INDEPENDENTES (X) coefficient Terme d’erreur paramètre intercepte
Terminologie Source: Wooldridge (2003)
Les commandes classiques summarize <variables>: pour des variables numériques, donne (nbre obs, moy, écart-type, min, max) tabulate <nom d’une variable>: donne le tri à plat de la variable (fréquence et % par modalité) tabulate <nom de 2 variables>, ro col: donne le tableau croisé, les % lignes, les % colonnes, et le test d’indépendance du chi2. correlate <variables> : donne la matrice des coefficients de corrélation
La corrélation (1) Corrélation positive Corrélation négative Corrélation parfaite
Absence de Corrélation La corrélation (2) Absence de Corrélation Corrélation forte Corrélation faible
Calcul du coefficient de corrélation linéaire La représentation graphique ne donne qu’une impression. Pour avoir une idée précise de l’intensité de la liaison on calcule le coefficient de corrélation linéaire simple (compris entre -1 et 1):
Exemples
Limites du coefficient de corrélation Dans la pratique r est rarement proche de -1, 1 ou 0 : Il est donc difficile de proposer une interprétation fiable à la simple lecture du coefficient surtout en économie où les variables sont toutes plus ou moins reliées entre elles. Il n’est calculé que sur un échantillon La théorie des tests statistiques (t de Student empirique) nous permet de lever cette indétermination: Sous STATA: pwcorr <variables>, sig
Limites du coefficient de corrélation La relation testée est linéaire. Pour pallier cette limite, on peut transformer les variables Corrélation ne veut pas dire causalité: « corrélations fortuites ». La modélisation permet d’aller plus loin.
Correlations folles: http://www.tylervigen.com/ 0.992 r= 0.947
3. Modélisation: économétrie linéaire
Le rôle de l’économétrie L’économétrie rassemble l’ensemble des outils statistiques de validation des théories économiques. L’économétrie est aussi un outil d’investigation.
Recherche de liaisons X Intervalle/ Ratio Ordinale/ Nominale Y Intervalle/Ratio Régression linéaire Analyse de variance (Anova) Y Ordinale/Nominale Régression logistique/probit
La régression linéaire La régression linéaire se classe parmi les méthodes d’analyses multivariées qui traitent des données quantitatives. C'est une méthode d'investigation sur données d'observations, ou d’expérimentations, où l'objectif principal est de rechercher une liaison linéaire entre une variable Y quantitative et une ou plusieurs variables X également quantitatives.
Expliquer Problème: On peut chercher à approcher E(Y| =[X1,…,Xn] ) Y et =[X1,…,Xn] sont des variables aléatoires. Nous disposons d’observations de Y et de . On souhaite étudier comment permet d’expliquer Y. On peut chercher à approcher E(Y| =[X1,…,Xn] ) En se cantonnant à des fonctions linéaires par rapport aux paramètres: économétrie linéaire En utilisant des fonctions non linéaires par rapport aux paramètres: économétrie non linéaire En n’imposant pas de contraintes paramétriques (on ne fait plus d’hypothèse sur la distribution des résidus): économétrie non paramétrique
La régression linéaire C’est la méthode la plus utilisée pour deux raisons majeures : c’est une méthode ancienne, c’est l'outil de base de la plupart des modélisations plus sophistiquées. Rappel: On recherche la droite affine qui passe au plus près de l’ensemble des points. Ceci nous permet d’avoir une idée de la relation linéaire qui existe entre deux ou plusieurs variables quantitatives.
La régression linéaire
La régression linéaire Comment trouver la droite qui passe au plus près des points? Critère d’ajustement: le critère des moindres carrés. Pourquoi? Pour des raisons de simplicité de calcul. Pour les propriétés de l’estimateur des moindres carrés.
La régression linéaire
La régression linéaire: tableau d’analyse de la variance Non expliqué par le modèle Expliqué par le modèle
Exemple: The Phillips Curve Données1958–1969 (USA) suggèrent un trade-off entre inflation et chomage.
Exemple: The Phillips Curve (cont.) Comment les interpréter? Si l’inflation est 0, le chômage augmente de 0.06 points de pourcentage. Si l’inflation augmente de 1 points de pourcentage le chômage diminue de 0.55 points de pourcentage.
U.S.A. Chomage et Inflation, 1958–1969
Transformation en log et interprétation Le coefficient estimé ne dit plus l’effet d’un changement d’une unité de X sur Y. Il montre le changement unitaire de log(X) on log(Y). Les changements unitaires de log-X se traduisent en changement de pourcentage de X.
Exemple: The Phillips Curve Si chômage et inflation sont en forme logarithmique, on prédit le changement de pourcentage de chômage déterminé par un changement de l’1% de l’inflation Attention! Les changements de pourcentage ne son pas linéaires: Si l’inflation augmente de 0.01 a 0.02 =>100% augmentation Si l’inflation augmente de 0.02 a 0.03 => 50% augmentation
Figure 4.6 A Logarithmic Phillips Curve
Transformation en log et interprétation Source: Wooldridge (2003)
Correlation ou causalité? OLS ne va pas donner une relation causale si: Variables manquantes (omitted variables bias) Causalité inverse Erreur de mesure Pour s’approcher d’une relation causale: Données Panel => séquence temporelle et effets fixes Variation exogène Eviter données qualitatives (bien-être)
CONCLUSION: l’économetrie comme utile pour mieux comprendre les phénomènes empiriques
Dans votre analyse: Bien définir la régression d’interet D-stat des variables: trends, means-test Pourquoi juste de la corrélation et pas de la causalité? Pourquoi de la causalité? Interprétation des coefficients estimés: direction et magnitude de l’effet
Merci! NB: certaines diapositives de cette séance sont issues de notes du cours de Monique Leguen (AED et SAS/INSIGHT) et d’une présentation de R. Bazillier et Lionel Page (Une introduction générale aux outils économétriques). A travers les années, ces slides ont bénéficié des apports des chargés de TD successifs, merci à tous. Olivia.bertelli@ehess.fr
ANNEXES
Biais possibles de variables omises Source: Wooldridge (2003)
Autres transformations possibles
La régression linéaire: tableau d’analyse de la variance
La régression linéaire: Estimation et inférence. Jusqu’ici aucune supposition n’était nécessaire. Si on veut utiliser les résultats obtenus sur l’échantillon pour inférer sur la population, il faut faire appel à des notions de probabilité et de statistique. Pour cela, changement de point de vue: Il n’y a plus une valeur unique associée à une valeur Xi mais une distribution de valeurs. Yi est une variable aléatoire qui a une distribution de probabilité p(Yi|Xi) Le résidu observé n’est qu’une estimation de l’erreur inobservable. La régression linéaire suppose que les E(Yi|Xi) sont alignés sur la vraie droite de régression qui est inconnue.
Rappel sur les Estimateurs MCO: Hypothèses (1) Hypothèses du modèle de régression multiple en cross-section (Wooldridge (2003)): H1: On raisonne en supposant que le modèle linéaire postulé est le véritable modèle dans la population. Y = 0 + 1 X1 + … + k Xk + (=erreur) H2: Nous disposons d’un échantillon aléatoire de n observations de coordonnées {(Xi1, Xi2 ,…, Xik , Yi): i = 1,2,…,n} pour le modèle décrit en H1. H3: L’espérance mathématique de l’erreur est nulle: en moyenne le modèle est bien spécifié et donc l’erreur moyenne est nulle. E( | X1, X2 ,…, Xk )=0
Rappel sur les Estimateurs MCO: Hypothèses (2) H4: Dans l’échantillon (et donc dans la population), aucune des variables indépendantes n’est constante et il n’y a pas de relation exactement linéaire entre les variables indépendantes. H5: Hypothèse d’homoscédasticité. La variance du terme d’erreur, conditionnellement aux variables X1, X2 ,…, Xk « explicatives » ou « indépendantes » est la même:V( | X1, X2 ,…, Xk )=2
Le Théorème de Gauss Markov: H1 à H5 Si les hypothèses H1 à H5 sont vérifiées l’estimateur MCO est BLUE (Best linear unbiased estimator): Sans biais: E(^)= (H1 à H4) A variance minimale (estimateur le plus efficace (H5)): ^ est l’estimateur qui possède la variance la plus faible parmi l’ensemble des estimateurs linéaires et sans biais.
Quid si certaines hypothèses sont relâchées? Relâche de H1: transformer les variables Y ou X de façon à rétablir cette relation linéaire (voir annexes) Relâche de H2: il n’y a pas grand-chose à faire… si ce n’est être conscient que les résultats obtenus ne peuvent être généralisables Relâche de H3: cela signifie qu’il y a un problème d’endogénéité (causalité inverse, variable omise, erreur de mesure): il faut instrumenter Relâche de H4: il faut essayer d’augmenter la taille de l’échantillon pour diminuer l’hyper corrélation/covariance entre les variables explicatives Relâche de H5: il faut corriger l’hétéroscédasticité en utilisant les MCG (Moindre Carrés Généralisés). Plus simplement, utilisez la commande ro.
Econométrie linéaire Liste (quasi-exhaustive) des modèles rencontrés dans la littérature: OLS 2SLS GLS: WLS 3SLS Panel Data GMM Séries temporelles (Time-series) ARIMA GARCH
Econométrie non linéaire Liste (quasi-exhaustive) des modèles rencontrés dans la littérature: GLM Probit/Logit Poisson Maximum Likelihood: Politomic variables Ordered Probit/Logit Conditional Logit/Multinomial Logit Tobit Selection Models Biprobit Duration Models Modèles structurels