Introduction à l’économétrie appliquée sous STATA

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
Collecte de données F. Kohler.
Inférence statistique
C1 Bio-statistiques F. KOHLER
Inférence statistique
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Régression ou corrélation
Nombre de sujets nécessaires en recherche clinique
DEME - La méthode d’enquête – introduction
Les TESTS STATISTIQUES
Dr DEVILLE Emmanuelle J D V 12/07/2006
Régression -corrélation
Modélisation des systèmes non linéaires par des SIFs
Vérification des données
Corrélation linéaire et la droite de régression
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Un neurone élémentaire
Chapitre 2 Les indices.

Etude longitudinale d’essais multilocaux: apports du modèle mixte
Régression linéaire simple
Groupe 1: Classes de même intervalle
Howell, Chap. 1 Position générale
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Modeles Lineaires.
POLI-D-208 Introduction à la recherche en sciences politiques Partie Exercices Titulaire: Jean-Benoit Pilet.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La corrélation et la régression
Les analyses multivariées
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
M1 2013/2014 Implémentation des procédures statistiques Introduction aux régressions linéaires.
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Initiation à la Méthodologie de Recherche
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
LA REGRESSION LINEAIRE
Présentation du marché obligataire
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
Probabilités et Statistiques Année 2010/2011
TNS et Analyse Spectrale
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
Principes d'économétrie
Régression linéaire (STT-2400)
Échantillonnage (STT-2000)
STATISTIQUES.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Bienvenue au cours MAT-350 Probabilités et statistiques.
Transcription de la présentation:

Introduction à l’économétrie appliquée sous STATA Mémoire de politiques du développement Master 1 Olivia Bertelli– Victoire Girard Février 2014

Plan de la séance Introduction: statistique et économétrie, quelques définitions 1. Visualisation des données (graphiques) 2. Exploration des données: statistiques descriptives 3. Modélisation: économétrie linéaire Conclusion: autres modèles rencontrés dans la littérature

Statistique et économétrie, quelques définitions INTRODUCTION: Statistique et économétrie, quelques définitions

Statistique: quelques définitions La statistique, c’est l’art de collecter les données, de les organiser, de les décrire et de faire des projections pour expliquer ou prévoir. Les méthodes statistiques sont l’ensemble des outils qui permettent d’analyser des faits représentés par des données.

Démarche en statistique John Wilder TUKEY (1915-2000): 1977: exploratory data analysis. 1980: “We need both exploratory and confirmatory statistics.” Analyse des données Analyse exploratoire des données Analyse confirmatoire des données idées/découverte vérifier des hypothèses/confirmer

Rappel: distinction théorique-empirique La recherche en économie repose sur deux piliers : la production de théories visant à expliquer la réalité modélisation des phénomènes étudiés (choix, interactions) avec les outils de la microéconomie et de la macroéconomie l'étude de la validité de ces théories lorsqu'on les confronte aux données réelles étude des prédictions théoriques sur données statistiques

Démarche en statistique Question Définir une problématique Elaborer un questionnaire Choisir une méthode de sondage Tirer un échantillon Phase préparatoire Recueillir des informations Chiffrer, saisir des questionnaires Contrôler Corriger Collecte Recoder des variables Elaborer des tableaux (moyennes, corrélations,…) Mettre à l’épreuve des hypothèses Modéliser Utiliser une règle de décision Analyse Réponse Ne pas promettre la lune! Les statistiques et l’économétrie ne donnent jamais une réponse exacte au 100%. Vous êtes en mesure de fournir des résultats moyens avec un certain niveau de certitude.

Définitions Une variable aléatoire est une application qui associe une information simple (observation) à un événement particulier. Un échantillon est un ensemble fini d’observations. La distribution d’échantillonage d’une variable aléatoire G est la distribution des différentes valeurs que peut prendre G, pour les différents échantillons d’effectif fixé qu’il serait possible d’extraire de la population.

Types de variables VARIABLES Qualitatives Quantitatives Nominales Ordinales Intervalle Ratio Ex: sexe Ex: opinion Ex: température Ex: revenu Données Catégorielles Discrètes ou Continues Si Recodage en tranches

Types de données (ensemble d’observations) Soit N le nombre d’individus et T le nombre de périodes: Si T=1 et N>1: Cross-section: transversal (même année ‘à travers’ les individus) Si N>1 et T>1 et N_i=N_i(t+1): Time series: longitudinal (mêmes individus à travers les années) Si T>1 et N>1 et N_i≠N_i(t+1): : Time series: cross-section

Types de données Exemples de format de base de données en panel: Format Long Format Large Id Time Var1 1 2 … 2000 2001 140 120 130 110 Id Var1- 2000 Var1- 2001 … 1 2 140 130 120 110 L’analyse et la modélisation économétrique que vous choisirez dépendra en partie de la nature des variables et du type de données dont vous disposerez.

Stata: créer sa base de données et l’observer Commode de partir d’un fichier excel qu’on copie et colle dans un fichier .dta de Stata Quelques commandes pour observer la base de données edit list describe Pour nommer des variables: label Pour générer des variables: gen

1. Visualisation des données: graphiques

La « boite à moustaches » graph box gdp_capita outliers max 4ème quart Q3 médiane Q1 1er quart min

Histogrammes histogram gdp_capita, percent title ("Histogramme")

Nuage de points graph twoway scatter opennessrate gdp_capita

2. Exploration des données: statistiques descriptives

Expliquer une variable DEPENDENTE (Y) par des variables INDEPENDENTES (X) coefficient Terme d’erreur paramètre intercepte

Terminologie Source: Wooldridge (2003)

Les commandes classiques summarize <variables>: pour des variables numériques, donne (nbre obs, moy, écart-type, min, max) tabulate <nom d’une variable>: donne le tri à plat de la variable (fréquence et % par modalité) tabulate <nom de 2 variables>, ro col: donne le tableau croisé, les % lignes, les % colonnes, et le test d’indépendance du chi2. correlate <variables> : donne la matrice des coefficients de corrélation

La corrélation (1) Corrélation positive Corrélation négative Corrélation parfaite

Absence de Corrélation La corrélation (2) Absence de Corrélation Corrélation forte Corrélation faible

Calcul du coefficient de corrélation linéaire La représentation graphique ne donne qu’une impression. Pour avoir une idée précise de l’intensité de la liaison on calcule le coefficient de corrélation linéaire simple (compris entre -1 et 1):

Exemples

Limites du coefficient de corrélation Dans la pratique r est rarement proche de -1, 1 ou 0 : Il est donc difficile de proposer une interprétation fiable à la simple lecture du coefficient surtout en économie où les variables sont toutes plus ou moins reliées entre elles. Il n’est calculé que sur un échantillon La théorie des tests statistiques (t de Student empirique) nous permet de lever cette indétermination: Sous STATA: pwcorr <variables>, sig

Limites du coefficient de corrélation La relation testée est linéaire. Pour pallier cette limite, on peut transformer les variables Corrélation ne veut pas dire causalité: « corrélations fortuites ». La modélisation permet d’aller plus loin.

Correlations folles: http://www.tylervigen.com/ 0.992 r= 0.947

3. Modélisation: économétrie linéaire

Le rôle de l’économétrie L’économétrie rassemble l’ensemble des outils statistiques de validation des théories économiques. L’économétrie est aussi un outil d’investigation.

Recherche de liaisons X Intervalle/ Ratio Ordinale/ Nominale Y Intervalle/Ratio Régression linéaire Analyse de variance (Anova) Y Ordinale/Nominale Régression logistique/probit

La régression linéaire La régression linéaire se classe parmi les méthodes d’analyses multivariées qui traitent des données quantitatives. C'est une méthode d'investigation sur données d'observations, ou d’expérimentations, où l'objectif principal est de rechercher une liaison linéaire entre une variable Y quantitative et une ou plusieurs variables X également quantitatives.

Expliquer Problème: On peut chercher à approcher E(Y| =[X1,…,Xn] ) Y et =[X1,…,Xn] sont des variables aléatoires. Nous disposons d’observations de Y et de . On souhaite étudier comment  permet d’expliquer Y. On peut chercher à approcher E(Y| =[X1,…,Xn] ) En se cantonnant à des fonctions linéaires par rapport aux paramètres: économétrie linéaire En utilisant des fonctions non linéaires par rapport aux paramètres: économétrie non linéaire En n’imposant pas de contraintes paramétriques (on ne fait plus d’hypothèse sur la distribution des résidus): économétrie non paramétrique

La régression linéaire C’est la méthode la plus utilisée pour deux raisons majeures : c’est une méthode ancienne, c’est l'outil de base de la plupart des modélisations plus sophistiquées. Rappel: On recherche la droite affine qui passe au plus près de l’ensemble des points. Ceci nous permet d’avoir une idée de la relation linéaire qui existe entre deux ou plusieurs variables quantitatives.

La régression linéaire

La régression linéaire Comment trouver la droite qui passe au plus près des points? Critère d’ajustement: le critère des moindres carrés. Pourquoi? Pour des raisons de simplicité de calcul. Pour les propriétés de l’estimateur des moindres carrés.

La régression linéaire

La régression linéaire: tableau d’analyse de la variance Non expliqué par le modèle Expliqué par le modèle

Exemple: The Phillips Curve Données1958–1969 (USA) suggèrent un trade-off entre inflation et chomage.

Exemple: The Phillips Curve (cont.) Comment les interpréter? Si l’inflation est 0, le chômage augmente de 0.06 points de pourcentage. Si l’inflation augmente de 1 points de pourcentage le chômage diminue de 0.55 points de pourcentage.

U.S.A. Chomage et Inflation, 1958–1969

Transformation en log et interprétation Le coefficient estimé ne dit plus l’effet d’un changement d’une unité de X sur Y. Il montre le changement unitaire de log(X) on log(Y). Les changements unitaires de log-X se traduisent en changement de pourcentage de X.

Exemple: The Phillips Curve Si chômage et inflation sont en forme logarithmique, on prédit le changement de pourcentage de chômage déterminé par un changement de l’1% de l’inflation Attention! Les changements de pourcentage ne son pas linéaires: Si l’inflation augmente de 0.01 a 0.02 =>100% augmentation Si l’inflation augmente de 0.02 a 0.03 => 50% augmentation

Figure 4.6 A Logarithmic Phillips Curve

Transformation en log et interprétation Source: Wooldridge (2003)

Correlation ou causalité? OLS ne va pas donner une relation causale si: Variables manquantes (omitted variables bias) Causalité inverse Erreur de mesure Pour s’approcher d’une relation causale: Données Panel => séquence temporelle et effets fixes Variation exogène Eviter données qualitatives (bien-être)

CONCLUSION: l’économetrie comme utile pour mieux comprendre les phénomènes empiriques

Dans votre analyse: Bien définir la régression d’interet D-stat des variables: trends, means-test Pourquoi juste de la corrélation et pas de la causalité? Pourquoi de la causalité? Interprétation des coefficients estimés: direction et magnitude de l’effet

Merci! NB: certaines diapositives de cette séance sont issues de notes du cours de Monique Leguen (AED et SAS/INSIGHT) et d’une présentation de R. Bazillier et Lionel Page (Une introduction générale aux outils économétriques). A travers les années, ces slides ont bénéficié des apports des chargés de TD successifs, merci à tous. Olivia.bertelli@ehess.fr

ANNEXES

Biais possibles de variables omises Source: Wooldridge (2003)

Autres transformations possibles

La régression linéaire: tableau d’analyse de la variance

La régression linéaire: Estimation et inférence. Jusqu’ici aucune supposition n’était nécessaire. Si on veut utiliser les résultats obtenus sur l’échantillon pour inférer sur la population, il faut faire appel à des notions de probabilité et de statistique. Pour cela, changement de point de vue: Il n’y a plus une valeur unique associée à une valeur Xi mais une distribution de valeurs. Yi est une variable aléatoire qui a une distribution de probabilité p(Yi|Xi) Le résidu observé n’est qu’une estimation de l’erreur inobservable. La régression linéaire suppose que les E(Yi|Xi) sont alignés sur la vraie droite de régression qui est inconnue.

Rappel sur les Estimateurs MCO: Hypothèses (1) Hypothèses du modèle de régression multiple en cross-section (Wooldridge (2003)): H1: On raisonne en supposant que le modèle linéaire postulé est le véritable modèle dans la population. Y = 0 + 1 X1 + … + k Xk +  (=erreur) H2: Nous disposons d’un échantillon aléatoire de n observations de coordonnées {(Xi1, Xi2 ,…, Xik , Yi): i = 1,2,…,n} pour le modèle décrit en H1. H3: L’espérance mathématique de l’erreur est nulle: en moyenne le modèle est bien spécifié et donc l’erreur moyenne est nulle. E( | X1, X2 ,…, Xk )=0

Rappel sur les Estimateurs MCO: Hypothèses (2) H4: Dans l’échantillon (et donc dans la population), aucune des variables indépendantes n’est constante et il n’y a pas de relation exactement linéaire entre les variables indépendantes. H5: Hypothèse d’homoscédasticité. La variance du terme d’erreur, conditionnellement aux variables X1, X2 ,…, Xk « explicatives » ou « indépendantes » est la même:V( | X1, X2 ,…, Xk )=2

Le Théorème de Gauss Markov: H1 à H5 Si les hypothèses H1 à H5 sont vérifiées l’estimateur MCO est BLUE (Best linear unbiased estimator): Sans biais: E(^)=  (H1 à H4) A variance minimale (estimateur le plus efficace (H5)): ^ est l’estimateur qui possède la variance la plus faible parmi l’ensemble des estimateurs linéaires et sans biais.

Quid si certaines hypothèses sont relâchées? Relâche de H1: transformer les variables Y ou X de façon à rétablir cette relation linéaire (voir annexes) Relâche de H2: il n’y a pas grand-chose à faire… si ce n’est être conscient que les résultats obtenus ne peuvent être généralisables Relâche de H3: cela signifie qu’il y a un problème d’endogénéité (causalité inverse, variable omise, erreur de mesure): il faut instrumenter Relâche de H4: il faut essayer d’augmenter la taille de l’échantillon pour diminuer l’hyper corrélation/covariance entre les variables explicatives Relâche de H5: il faut corriger l’hétéroscédasticité en utilisant les MCG (Moindre Carrés Généralisés). Plus simplement, utilisez la commande ro.

Econométrie linéaire Liste (quasi-exhaustive) des modèles rencontrés dans la littérature: OLS 2SLS GLS: WLS 3SLS Panel Data GMM Séries temporelles (Time-series) ARIMA GARCH

Econométrie non linéaire Liste (quasi-exhaustive) des modèles rencontrés dans la littérature: GLM Probit/Logit Poisson Maximum Likelihood: Politomic variables Ordered Probit/Logit Conditional Logit/Multinomial Logit Tobit Selection Models Biprobit Duration Models Modèles structurels