La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à l’économétrie appliquée sous STATA

Présentations similaires


Présentation au sujet: "Introduction à l’économétrie appliquée sous STATA"— Transcription de la présentation:

1 Introduction à l’économétrie appliquée sous STATA
Mémoire de politiques du développement Master 1 Olivia Bertelli– Victoire Girard Février 2014

2 Plan de la séance Introduction: statistique et économétrie, quelques définitions 1. Visualisation des données (graphiques) 2. Exploration des données: statistiques descriptives 3. Modélisation: économétrie linéaire Conclusion: autres modèles rencontrés dans la littérature

3 Statistique et économétrie, quelques définitions
INTRODUCTION: Statistique et économétrie, quelques définitions

4 Statistique: quelques définitions
La statistique, c’est l’art de collecter les données, de les organiser, de les décrire et de faire des projections pour expliquer ou prévoir. Les méthodes statistiques sont l’ensemble des outils qui permettent d’analyser des faits représentés par des données.

5 Démarche en statistique
John Wilder TUKEY ( ): 1977: exploratory data analysis. 1980: “We need both exploratory and confirmatory statistics.” Analyse des données Analyse exploratoire des données Analyse confirmatoire des données idées/découverte vérifier des hypothèses/confirmer

6 Rappel: distinction théorique-empirique
La recherche en économie repose sur deux piliers : la production de théories visant à expliquer la réalité modélisation des phénomènes étudiés (choix, interactions) avec les outils de la microéconomie et de la macroéconomie l'étude de la validité de ces théories lorsqu'on les confronte aux données réelles étude des prédictions théoriques sur données statistiques

7 Démarche en statistique
Question Définir une problématique Elaborer un questionnaire Choisir une méthode de sondage Tirer un échantillon Phase préparatoire Recueillir des informations Chiffrer, saisir des questionnaires Contrôler Corriger Collecte Recoder des variables Elaborer des tableaux (moyennes, corrélations,…) Mettre à l’épreuve des hypothèses Modéliser Utiliser une règle de décision Analyse Réponse Ne pas promettre la lune! Les statistiques et l’économétrie ne donnent jamais une réponse exacte au 100%. Vous êtes en mesure de fournir des résultats moyens avec un certain niveau de certitude.

8 Définitions Une variable aléatoire est une application qui associe une information simple (observation) à un événement particulier. Un échantillon est un ensemble fini d’observations. La distribution d’échantillonage d’une variable aléatoire G est la distribution des différentes valeurs que peut prendre G, pour les différents échantillons d’effectif fixé qu’il serait possible d’extraire de la population.

9 Types de variables VARIABLES Qualitatives Quantitatives Nominales
Ordinales Intervalle Ratio Ex: sexe Ex: opinion Ex: température Ex: revenu Données Catégorielles Discrètes ou Continues Si Recodage en tranches

10 Types de données (ensemble d’observations)
Soit N le nombre d’individus et T le nombre de périodes: Si T=1 et N>1: Cross-section: transversal (même année ‘à travers’ les individus) Si N>1 et T>1 et N_i=N_i(t+1): Time series: longitudinal (mêmes individus à travers les années) Si T>1 et N>1 et N_i≠N_i(t+1): : Time series: cross-section

11 Types de données Exemples de format de base de données en panel:
Format Long Format Large Id Time Var1 1 2 2000 2001 140 120 130 110 Id Var Var 1 2 140 130 120 110 L’analyse et la modélisation économétrique que vous choisirez dépendra en partie de la nature des variables et du type de données dont vous disposerez.

12 Stata: créer sa base de données et l’observer
Commode de partir d’un fichier excel qu’on copie et colle dans un fichier .dta de Stata Quelques commandes pour observer la base de données edit list describe Pour nommer des variables: label Pour générer des variables: gen

13 1. Visualisation des données: graphiques

14 La « boite à moustaches »
graph box gdp_capita outliers max 4ème quart Q3 médiane Q1 1er quart min

15 Histogrammes histogram gdp_capita, percent title ("Histogramme")

16 Nuage de points graph twoway scatter opennessrate gdp_capita

17 2. Exploration des données: statistiques descriptives

18 Expliquer une variable DEPENDENTE (Y) par des variables INDEPENDENTES (X)
coefficient Terme d’erreur paramètre intercepte

19 Terminologie Source: Wooldridge (2003)

20 Les commandes classiques
summarize <variables>: pour des variables numériques, donne (nbre obs, moy, écart-type, min, max) tabulate <nom d’une variable>: donne le tri à plat de la variable (fréquence et % par modalité) tabulate <nom de 2 variables>, ro col: donne le tableau croisé, les % lignes, les % colonnes, et le test d’indépendance du chi2. correlate <variables> : donne la matrice des coefficients de corrélation

21 La corrélation (1) Corrélation positive Corrélation négative
Corrélation parfaite

22 Absence de Corrélation
La corrélation (2) Absence de Corrélation Corrélation forte Corrélation faible

23 Calcul du coefficient de corrélation linéaire
La représentation graphique ne donne qu’une impression. Pour avoir une idée précise de l’intensité de la liaison on calcule le coefficient de corrélation linéaire simple (compris entre -1 et 1):

24 Exemples

25 Limites du coefficient de corrélation
Dans la pratique r est rarement proche de -1, 1 ou 0 : Il est donc difficile de proposer une interprétation fiable à la simple lecture du coefficient surtout en économie où les variables sont toutes plus ou moins reliées entre elles. Il n’est calculé que sur un échantillon La théorie des tests statistiques (t de Student empirique) nous permet de lever cette indétermination: Sous STATA: pwcorr <variables>, sig

26 Limites du coefficient de corrélation
La relation testée est linéaire. Pour pallier cette limite, on peut transformer les variables Corrélation ne veut pas dire causalité: « corrélations fortuites ». La modélisation permet d’aller plus loin.

27 Correlations folles: http://www.tylervigen.com/
0.992 r= 0.947

28 3. Modélisation: économétrie linéaire

29 Le rôle de l’économétrie
L’économétrie rassemble l’ensemble des outils statistiques de validation des théories économiques. L’économétrie est aussi un outil d’investigation.

30 Recherche de liaisons X Intervalle/ Ratio Ordinale/ Nominale
Y Intervalle/Ratio Régression linéaire Analyse de variance (Anova) Y Ordinale/Nominale Régression logistique/probit

31 La régression linéaire
La régression linéaire se classe parmi les méthodes d’analyses multivariées qui traitent des données quantitatives. C'est une méthode d'investigation sur données d'observations, ou d’expérimentations, où l'objectif principal est de rechercher une liaison linéaire entre une variable Y quantitative et une ou plusieurs variables X également quantitatives.

32 Expliquer Problème: On peut chercher à approcher E(Y| =[X1,…,Xn] )
Y et =[X1,…,Xn] sont des variables aléatoires. Nous disposons d’observations de Y et de . On souhaite étudier comment  permet d’expliquer Y. On peut chercher à approcher E(Y| =[X1,…,Xn] ) En se cantonnant à des fonctions linéaires par rapport aux paramètres: économétrie linéaire En utilisant des fonctions non linéaires par rapport aux paramètres: économétrie non linéaire En n’imposant pas de contraintes paramétriques (on ne fait plus d’hypothèse sur la distribution des résidus): économétrie non paramétrique

33 La régression linéaire
C’est la méthode la plus utilisée pour deux raisons majeures : c’est une méthode ancienne, c’est l'outil de base de la plupart des modélisations plus sophistiquées. Rappel: On recherche la droite affine qui passe au plus près de l’ensemble des points. Ceci nous permet d’avoir une idée de la relation linéaire qui existe entre deux ou plusieurs variables quantitatives.

34 La régression linéaire

35 La régression linéaire
Comment trouver la droite qui passe au plus près des points? Critère d’ajustement: le critère des moindres carrés. Pourquoi? Pour des raisons de simplicité de calcul. Pour les propriétés de l’estimateur des moindres carrés.

36 La régression linéaire

37 La régression linéaire: tableau d’analyse de la variance
Non expliqué par le modèle Expliqué par le modèle

38 Exemple: The Phillips Curve
Données1958–1969 (USA) suggèrent un trade-off entre inflation et chomage.

39 Exemple: The Phillips Curve (cont.)
Comment les interpréter? Si l’inflation est 0, le chômage augmente de 0.06 points de pourcentage. Si l’inflation augmente de 1 points de pourcentage le chômage diminue de 0.55 points de pourcentage.

40 U.S.A. Chomage et Inflation, 1958–1969

41 Transformation en log et interprétation
Le coefficient estimé ne dit plus l’effet d’un changement d’une unité de X sur Y. Il montre le changement unitaire de log(X) on log(Y). Les changements unitaires de log-X se traduisent en changement de pourcentage de X.

42 Exemple: The Phillips Curve
Si chômage et inflation sont en forme logarithmique, on prédit le changement de pourcentage de chômage déterminé par un changement de l’1% de l’inflation Attention! Les changements de pourcentage ne son pas linéaires: Si l’inflation augmente de 0.01 a 0.02 =>100% augmentation Si l’inflation augmente de 0.02 a 0.03 => 50% augmentation

43 Figure 4.6 A Logarithmic Phillips Curve

44 Transformation en log et interprétation
Source: Wooldridge (2003)

45 Correlation ou causalité?
OLS ne va pas donner une relation causale si: Variables manquantes (omitted variables bias) Causalité inverse Erreur de mesure Pour s’approcher d’une relation causale: Données Panel => séquence temporelle et effets fixes Variation exogène Eviter données qualitatives (bien-être)

46 CONCLUSION: l’économetrie comme utile pour mieux comprendre les phénomènes empiriques

47 Dans votre analyse: Bien définir la régression d’interet
D-stat des variables: trends, means-test Pourquoi juste de la corrélation et pas de la causalité? Pourquoi de la causalité? Interprétation des coefficients estimés: direction et magnitude de l’effet

48 Merci! NB: certaines diapositives de cette séance sont issues de notes du cours de Monique Leguen (AED et SAS/INSIGHT) et d’une présentation de R. Bazillier et Lionel Page (Une introduction générale aux outils économétriques). A travers les années, ces slides ont bénéficié des apports des chargés de TD successifs, merci à tous.

49 ANNEXES

50 Biais possibles de variables omises
Source: Wooldridge (2003)

51 Autres transformations possibles

52 La régression linéaire: tableau d’analyse de la variance

53 La régression linéaire: Estimation et inférence.
Jusqu’ici aucune supposition n’était nécessaire. Si on veut utiliser les résultats obtenus sur l’échantillon pour inférer sur la population, il faut faire appel à des notions de probabilité et de statistique. Pour cela, changement de point de vue: Il n’y a plus une valeur unique associée à une valeur Xi mais une distribution de valeurs. Yi est une variable aléatoire qui a une distribution de probabilité p(Yi|Xi) Le résidu observé n’est qu’une estimation de l’erreur inobservable. La régression linéaire suppose que les E(Yi|Xi) sont alignés sur la vraie droite de régression qui est inconnue.

54 Rappel sur les Estimateurs MCO: Hypothèses (1)
Hypothèses du modèle de régression multiple en cross-section (Wooldridge (2003)): H1: On raisonne en supposant que le modèle linéaire postulé est le véritable modèle dans la population. Y = 0 + 1 X1 + … + k Xk +  (=erreur) H2: Nous disposons d’un échantillon aléatoire de n observations de coordonnées {(Xi1, Xi2 ,…, Xik , Yi): i = 1,2,…,n} pour le modèle décrit en H1. H3: L’espérance mathématique de l’erreur est nulle: en moyenne le modèle est bien spécifié et donc l’erreur moyenne est nulle. E( | X1, X2 ,…, Xk )=0

55 Rappel sur les Estimateurs MCO: Hypothèses (2)
H4: Dans l’échantillon (et donc dans la population), aucune des variables indépendantes n’est constante et il n’y a pas de relation exactement linéaire entre les variables indépendantes. H5: Hypothèse d’homoscédasticité. La variance du terme d’erreur, conditionnellement aux variables X1, X2 ,…, Xk « explicatives » ou « indépendantes » est la même:V( | X1, X2 ,…, Xk )=2

56 Le Théorème de Gauss Markov:
H1 à H5 Si les hypothèses H1 à H5 sont vérifiées l’estimateur MCO est BLUE (Best linear unbiased estimator): Sans biais: E(^)=  (H1 à H4) A variance minimale (estimateur le plus efficace (H5)): ^ est l’estimateur qui possède la variance la plus faible parmi l’ensemble des estimateurs linéaires et sans biais.

57 Quid si certaines hypothèses sont relâchées?
Relâche de H1: transformer les variables Y ou X de façon à rétablir cette relation linéaire (voir annexes) Relâche de H2: il n’y a pas grand-chose à faire… si ce n’est être conscient que les résultats obtenus ne peuvent être généralisables Relâche de H3: cela signifie qu’il y a un problème d’endogénéité (causalité inverse, variable omise, erreur de mesure): il faut instrumenter Relâche de H4: il faut essayer d’augmenter la taille de l’échantillon pour diminuer l’hyper corrélation/covariance entre les variables explicatives Relâche de H5: il faut corriger l’hétéroscédasticité en utilisant les MCG (Moindre Carrés Généralisés). Plus simplement, utilisez la commande ro.

58 Econométrie linéaire Liste (quasi-exhaustive) des modèles rencontrés dans la littérature: OLS 2SLS GLS: WLS 3SLS Panel Data GMM Séries temporelles (Time-series) ARIMA GARCH

59 Econométrie non linéaire
Liste (quasi-exhaustive) des modèles rencontrés dans la littérature: GLM Probit/Logit Poisson Maximum Likelihood: Politomic variables Ordered Probit/Logit Conditional Logit/Multinomial Logit Tobit Selection Models Biprobit Duration Models Modèles structurels


Télécharger ppt "Introduction à l’économétrie appliquée sous STATA"

Présentations similaires


Annonces Google