La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La régression multiple

Présentations similaires


Présentation au sujet: "La régression multiple"— Transcription de la présentation:

1 La régression multiple
Econométrie appliquée Cours de M1 deuxième partie Armand Taranco

2 Quand utiliser la régression multiple
Pour estimer la relation entre une variable dépendante (Y ) et plusieurs variables indépendantes (X1, X2, …) Exemples Expliquer le prix d’un appartement par la superficie, les prestations, l’emplacement,… Expliquer les ventes d’un magasin par le marché total, le prix, l’investissement, la publicité,… Expliquer la consommation des véhicules par le prix, la cylindrée, la puissance et le poids.

3 Le modèle linéaire de régression multiple
Equation de régression multiple Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives : où b0, b1, b2, , bp sont les paramètres et e est un bruit aléatoire représentant le terme d’erreur.

4 Le modèle linéaire de régression multiple
Les termes de l’équation ième observation de Y Terme constant Influence de la variable Xp Influence de la variable X1 Résidu de la ième observation

5 Le modèle linéaire de régression multiple
Ecriture matricielle du modèle

6 Le modèle linéaire de régression multiple
Les hypothèses du modèle Les hypothèses de nature probabiliste Les variables Xi sont aléatoires E(ei)=0 pour tout i V(ei)=s2 pour tout 1≤i≤p (homoscédasticité des erreurs) Cov(ei , ei )=0 pour tout i≠j Le vecteur aléatoire e suit une loi normale à n dimensions N(0, s 2In) Les hypothèses structurelles Det(XTX)≠0 (absence de colinéarité entre les variables explicatives). n>p+1

7 Le modèle linéaire de régression multiple
Interprétation géométrique Le modèle général définit un hyperplan de dimension p. Nous illustrons le cas p=2. E(Yi|X1i, X2i) = 0+1X1i+2X2i Yi : observation Y b0 ei X2 (X1i, X2i) X1

8 Le processus d’estimation
Modèle de régression multiple Y = 0 + 1X1 + 2X pXp + e Hyperplan de régression multiple E(Y|X1,…,Xp) = 0 + 1X1 + 2X pXp Paramètres inconnus b0, b1, b2, , bp Données: x1 x xp y Equation estimée Estimateurs de b0, b1, b2, , bp Estimateurs

9 Le processus d’estimation
Interprétation géométrique Illustration du cas p=2. yi : observation Y X2 (X1i, X2i) X1

10 Le processus d’estimation
Estimation des coefficients de régression La méthode : les moindres carrés ordinaires Le principe de l’estimation des coefficients de régression : consiste à minimiser la somme des carrés des résidus : Le calcul numérique lui-même (calcul matriciel) peut s’effectuer à l’aide de logiciels statistiques (SAS, SPSS, S+, R, Gretl,…).

11 Le processus d’estimation
Estimation des coefficients du modèle La méthode des moindres carrés donne pour résultat : suit une loi est sans biais : Parmi les estimateurs de b linéaires par rapport à X, sans biais, les éléments de ont la plus petite variance.

12 Le processus d’estimation
Interprétation des coefficients de régression estimés La pente (k≠0) L’estimée de Y varie d’un facteur égal à lorsque Xk augmente d’une unité, les autres variables étant maintenues constantes. L’ordonnée à l’origine C’est la valeur moyenne de Y lorsque toutes les Xi sont nulles.

13 Le processus d’estimation
Estimation de la variance des résidus

14 Le processus d’estimation
Les intervalles de confiance On peut calculer pour chaque coefficient du modèle un intervalle de confiance de niveau (1-a) donné par : où ta/2 se calcule à partir de : T suivant une de Student à n-p-1 d.d.l.

15 Le processus d’estimation
Les données Taille de l’échantillon Les données doivent être suffisamment nombreuses : 15 à 20 par variable au moins. La nature des variables Dans la pratique, Y est une variable quantitative et les Xi peuvent être quantitatives ou binaires.

16 Qualité de la régression
Décomposition de la somme des carrés totale SCT : somme des carrés totale SCR : somme des carrés des résidus SCE : somme des carrés expliqués par le modèle SCT = SSE + SCR

17 Qualité de la régression
Interprétation géométrique de la décomposition en somme de carrés Théorème de Pythagore

18 Qualité de la régression
Les coefficients de détermination Le coefficient de détermination R2 Il exprime le pourcentage de la variance de Y expliquée par le modèle. Il donne une idée globale de l'ajustement du modèle. Le R2 ajusté se calcule en fonction du R2 : Il traduit à la fois la qualité de l’ajustement (liaison entre Y et les Xi) et la complexité du modèle (nombre de variables explicatives). R2 = SCE/SCT

19 Qualité de la régression
Remarques sur le R2 0≤R2 ≤1 Lorsque le R2 est proche de 1, cela se signifie que la variable dépendante Y est bien expliquée par les variables Xi. La racine carrée de R2, R, porte le nom de coefficient de corrélation multiple entre Y et les Xi. Lorsque l’on ajoute de nouvelles variables explicatives au modèle, le R2 augmente (même dans le cas où les nouvelles variables explicatives sont très liées à la variable dépendante). C’est la raison pour laquelle on introduit le R2 ajusté.

20 Qualité de la régression
Le test global de Fisher Il permet de répondre à la question : la liaison globale entre Y et les Xi est-elle significative ? Hypothèses H0: 1 = 2 = ... = p = 0 Y ne dépend pas des variables Xi . H1: Au moins un coefficient est non nul Y dépend d’au moins une variable Xi .

21 Qualité de la régression
Statistique utilisée Règle de décision Au risque a, on rejette H0 si : a ≥ p-value (calculée avec une loi de Fisher à p et n-p-1 degrés de liberté)

22 Qualité de la régression
R2 et test de Fisher F bon, R² mauvais F bon, R² bon

23 Qualité de la régression
Le test de Student sur un coefficient de régression Il permet de répondre à la question suivante : l’apport marginal d’une variable Xj est-il significatif ? Hypothèses H0 : j = 0 (j≠0) On peut supprimer la variable Xj H1 : j  0 Il faut conserver la variable Xj

24 Qualité de la régression
Statistique utilisée sous l’hypothèse H0 Règle de décision Au risque a, on rejette H0 si : a ≥ p-value (calculée à partir d’une loi de Student à n-p-1 degrés de liberté).

25 Analyse des résidus Normalité Homoscédasticité
QQ plot Tests de normalité Homoscédasticité La variance des résidus n’est pas stable. Transformation des données Indépendance des résidus Test de Durbin-Watson Détection des valeurs atypiques

26 Les variables indicatrices
Variable muette ou indicatrice (dummy variable) Variable prenant les valeurs 0 ou 1 pour indiquer que l’observation présente une certaine caractéristique, par exemple une périodicité (trimestre, mois,…). Exemple : la consommation de fuel trimestrielle di = 1 pour le iéme trimestre di = 0 sinon

27 Multicolinéarité Définition
C’est l’existence de corrélations élevées (au delà de 0.70) entre les variables indépendantes (variables explicatives). La multicolinéarité a notamment pour conséquences : - de fausser la précision de l’estimation des coefficients de régression - de rendre sensible l’estimation des coefficients à de petites variations des données.

28 Multicolinéarité Variables colinéaires X1 X2 Variables indépendantes

29 Multicolinéarité Détection
Examen de la matrice de variance covariance ou de corrélation. R2 élevé mais peu de variables significatives. Fortes corrélations entre les Xi Fortes corrélations partielles entre les variables indépendantes.

30 Sélection des variables
Problématique Comment choisir le modèle comportant la meilleure combinaison de variables indépendantes expliquant la variable dépendante ? Stratégies Examiner tous les modèles possibles Sélection progressive Régression pas à pas descendante Régression pas à pas ascendante

31 Sélection des variables
Examiner tous les modèles possibles Cette stratégie consiste à envisager tous les modèles et à retenir le meilleur. Inconvénients Lenteur (2p modèles si p est le nombre de variables explicatives) et coût de cette approche C’est quoi le meilleur modèle ?

32 Sélection des variables
Le test de Fisher Il permet de tester si le fait d’ajouter une variable indépendante à un modèle comportant déjà une variable (ou de supprimer une variable d’un modèle comportant deux variables) est statistiquement significatif. La p-value correspondante est utilisée comme critère de décision pou ajouter ou supprimer une variable.

33 Régression pas à pas Calcul de F et de la p-value pour chaque Xi
du modèle La variable Xi ayant la plus petite p-value est entrée dans le modèle p-value > seuil ? Oui La variable Xi ayant la plus grande p-value est supprimée du modèle Oui Non p-value < seuil ? Calcul de F et de la p-value pour chaque Xi ne se trouvant pas Dans le modèle Non Début Arrêt

34 Régression pas à pas descendante
Au départ toutes les variables Xi sont dans le modèle Calcul de F et de la p-value pour chaque Xi p-value > seuil ? La variable Xi ayant la plus grande p-value est supprimée du modèle Oui Non Arrêt

35 Exemples Deux exemples sont traités en cours
à l’aide du logiciel SPSS : l’un d’entre eux illustre la mise en œuvre d’une régression multiple et l’autre la sélection des variables dans un modèle à l’aide de la méthode de régression descendante.

36 Une étude empirique Titre de l’article : Reliving the 50s: the Big Push, Poverty Traps, and Take-offs in Economic Development, William Easterly (2005) Données utilisées : Maddison, Angus. The World Economy : Historical Statistics. OECD 2003.

37 Une étude empirique L’auteur William Easterly
Expert reconnu du développement économique et de l'Afrique Professeur à l’Université de New York Chercheur au Center for Global Development (Washington) Il a travaillé en tant qu’économiste pendant 16 ans à la Banque Mondiale. Il a dû quitter l’institution à la suite de la parution de son ouvrage : « Les pays pauvres sont-ils condamnés à le rester ? » (juin 2006).

38 Une étude empirique Termes importants dans le titre de l’article
Économie du développement Big Push Poverty traps Take-offs

39 Economie du développement
Qu’est ce que l’économie du développement ? Branche de l‘économie qui applique les méthodes macroéconomiques et microéconomiques à l’étude des problèmes économiques, sociaux, environnementaux et institutionnels rencontrés par les PVD (Pays en Voie de Développement). Points focaux Déterminants de la pauvreté et du sous développement Politiques à mettre en œuvre pour sortir les PVD de leur sous-développement.

40 Une étude empirique Le « big push »
Les économistes du développement des années 50 préconisaient la théorie du "Big Push": les pays les plus pauvres se trouvent enfermés dans une trappe à pauvreté. D’après eux, seul un effort massif d'investissement financé par l'aide internationale peut leur permettre de décoller.

41 Une étude empirique La problématique de l’article
Le rapport des Nations unies sur les objectifs du millénaire de janvier 2005 et celui de la Commission britannique pour l'Afrique de mars 2005 sont marqués par le retour de l’idée qu’une combinaison d’investissements peut permettre aux économies africaines de sortir des trappes à pauvreté. William Easterly a voulu tester cette approche du « big push » comme réponse aux trappes à pauvreté en utilisant des régressions sur le taux de croissance.

42 Une étude empirique Comment tester l’existence de trappes à pauvreté ?
Revue de la littérature Les pays pauvres ont-ils une croissance par tête significativement inférieure à celle des autres pays et cette croissance est-elle nulle ? Données : revenu par tête de 1950 à 2001 pour 137 pays.

43 Une étude empirique Test de stationnarité sur le taux de croissance par tête

44 Une étude empirique Que signifie la stationnarité ?
Si l’hypothèse d’une trappe à pauvreté est vraie, alors le Log du revenu par tête pour les pays les plus pauvres doit être stationnaire. Le revenu va fluctuer d’une façon aléatoire autour de son niveau moyen.

45 Une étude empirique Formulation d’un test de stationnarité
Hypothèse H0 : le Log du revenu par tête est stationnaire. Hypothèse H1 : le Log du revenu par tête n’est pas stationnaire.

46 Une étude empirique « Divergence Big Time » (Pritchett,1996)
Le creusement considérable de l’écart de revenu entre les pays les plus riches et les plus pauvres du monde. Le ratio de revenu par habitant entre le pays le plus riche et le plus pauvre du monde a été multiplié par 6 au cours du dernier demi-siècle. Selon la Banque Mondiale, le revenu moyen dans les 20 pays les plus riches est 37 fois plus élevé que le revenu moyen dans les 20 pays les plus pauvres, et ce ratio a doublé depuis 1960.

47 Une étude empirique Big time divergence Utilisation d’une régression :
pour expliquer le taux de croissance par tête par le revenu initial et des indicateurs de démocratie des institutions politiques.

48 Une étude empirique

49 Une étude empirique Les indicateurs de démocratie
L’indicateur de Freedom House (ONG) attribue: deux notes, l’une relative aux droits politiques et l’autre aux droits civils. une lettre dépendant de la moyenne des deux notes précédentes. L’indicateur Polity IV Ce coefficient (qui va de 1, niveau de contrainte le plus faible, à 7) rend compte de la qualité initiale des institutions politiques, mesurée par les contraintes pesant sur le pouvoir exécutif.

50 Une étude empirique Take-off (décollage)
Une suite continue de régimes à croissance nulle suivie d’une suite continue de régimes à croissance positive. La croissance sera considérée comme nulle dès que le taux de croissance se trouve dans l’intervalle [-0.5%,0.5%]. La croissance par tête est considérée comme positive et stable lorsqu’elle est au-dessus de 1.5% su une période suffisamment longue.

51 Une étude empirique Situation de décollage Taux de croissance 1.5%
0.5% t -0.5%

52 Take-offs dans les pays riches

53 Une étude empirique Take-offs dans les pays riches
Parmi les pays riches, seul le Japon répond à la définition donnée du décollage. Pour tous les autres pays on observe plutôt une accélération graduelle de la croissance plutôt qu’un décollage. Cela n’est pas compatible avec la notion d’un « big push » entraînant une transition soudaine d’une stagnation vers une croissance vigoureuse.

54 Take-offs dans les régions en développement
Africa 0.3% 0.6% 0.9% 1.8% 0.2% Caribbean countries (24) -0.3% 1.4% 3.2% 1.0% East Asian countries (16 ) -0.1% 0.5% 3.5% 3.4% East European Countries (7) 3.7% 0.4% Latin America 0.0% 2.5% 0.8% West Asian countries (15) 1.3% 4.4%

55 Une étude empirique Take-offs dans les régions en développement
Seule la région du sud est asiatique satisfait à la définition proposée du take-off. L’Amérique latine et les Caraïbes ont connu pendant la période un pré-décollage mais il n’a pas été soutenu.

56 Une étude empirique Take-offs dans les pays
Sur les 44 pays étudiés, seuls 5 d’entre eux satisfont à la définition d’Easterly d’un take-off.

57 Une étude empirique Sur l’existence des trappes à pauvreté
Easterly rejette l’hypothèse de l’existence des trappes à pauvreté sur la base des deux arguments suivants : - il y a très peu de pays à taux de croissance sur l’intervalle [-0.5, 0.5] pour la période 1950 – 2000 - le logarithme du revenu par tête n’est pas stationnaire. Cependant sur le premier point, on peut argumenter que cette conclusion est dépendante des périodes ou sous périodes considérées.

58 Une étude empirique Conclusions de l’article
Aucun des pays testés dans l’étude n’est dans une trappe à pauvreté (définie par une absence totale et durable de croissance). L'influence de l'aide sur l'investissement et la croissance n’est pas évidente. Il ne semble pas non plus que l'aide soit un facteur déterminant pour les rares pays à avoir décollé. Pour Easterly, la qualité des institutions politiques est un facteur bien plus important pour le développement que l’apport d’une d'aide massive et soudaine.

59 Une étude empirique Remarque importante
Ce working paper est controversé sur un certain nombre de points par d’autres économistes. Donc prudence dans les conclusions qu’en tire l’auteur. Dans ce cours, cela a surtout servi à introduire une problématique de recherche et à mettre en évidence un certain nombre de méthodes et outils.

60 Une étude empirique Méthodes et outils
Cet article montre la nécessité d’utiliser, entre autres, des méthodes de régression et des tests pour valider des hypothèses dans les études empiriques. La régression et les tests d’hypothèses sont deux outils fondamentaux dans les études empiriques.


Télécharger ppt "La régression multiple"

Présentations similaires


Annonces Google