ECONOMETRIE II.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Gestion de portefeuille
Gestion de portefeuille
GESTION DE PORTEFEUILLE chapitre n° 7
Les tests d’hypothèses (I)
La régression logistique: fondements et conditions d’application
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Comparaison de plusieurs moyennes observées
Régression ou corrélation
Tests de comparaison de pourcentages
Méthodes statistiques. Ajustements et corrélation
Corrélations et ajustements linéaires.
Régression -corrélation
Chapitre VII :Commande par retour d’état
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.
Plans à groupes indépendants: organisation

La Régression Multiple
Régression linéaire simple
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression
La régression logistique
La corrélation et la régression
Le comportement des coûts Chapitre 3
Structure discriminante (analyse discriminante)
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Analyse factorielle de variance: Principes d’expérimentation
La régression multiple
STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Méthodes de Biostatistique
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
Programmation linéaire en nombres entiers
LA REGRESSION LINEAIRE
Présentation du marché obligataire
M2 Sciences des Procédés - Sciences des Aliments
Probabilités et Statistiques Année 2010/2011
TNS et Analyse Spectrale
Outils d’analyse: la méthode des moindres carrées
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Élection canadienne du 22 février NOMBRE% CIRCONSCRIPTIONS65— ÉLECTEURS INSCRITS — ÉLECTEURS INSCRITS DANS LES CIRCONSCRIPTIONS CONTESTÉES.
ETUDE DE 2 VARIABLES QUANTITATIVES
Élection québécoise du 16 octobre OCTOBRE 1886: RÉSULTATS NOMBRE% CIRCONSCRIPTIONS65— ÉLECTEURS INSCRITS — ÉLECTEURS INSCRITS DANS LES.
2. Méthode du simplexe et son analyse.
Régression linéaire (STT-2400)
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Méthodes de prévision (STT-3220)
Statistiques à 2 variables
TD 2: La gestion des stocks avec le logiciel Odyssée
Claude Matricon ("le marketing du réel") propose une classification qui permet de distinguer les 4 différents marchés dont dépend l'entreprise :  marché.
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
ETUDES PRONOSTIQUES Pr Ganry.
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
1 Objectifs Apprendre la structure de quelques circuits combinatoires souvent utilisés ( demi additionneur, additionneur complet,……..). Apprendre comment.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
1 Théorie de la finance Gestion de portefeuille Moyenne-variance Master Sciences de Gestion – Semestre II - Université Mohammed V Faculté des Sciences.
Transcription de la présentation:

ECONOMETRIE II

Chapitre 1 : Multi colinéarité et sélection du modèle optimal

I- Corrélation partielle Exemple : Un marchand de glaces, situé près de la tour Eiffel, cherche à calculer le coefficient de corrélation entre ses ventes ( ) et le nombre de touristes visitant ce monument ( ). Ces deux variables sont influencées par le climat : Consommation des glaces est plus importante lorsqu’il fait chaud. Les touristes hésitent à visiter un monument extérieur en cas de froid ou de pluie. On appelle ( ) cette variable climatique.

I- Corrélation partielle Coefficient de corrélation partielle : Le coefficient de corrélation partielle mesure la liaison entre deux variables lorsque l’influence d’une troisième variable est retirée. = Coefficient de corrélation entre et = Coefficient de corrélation entre et = Coefficient de corrélation entre et = Coefficient de corrélation partielle entre et , l’influence de étant retirée = Coefficient de corrélation partielle entre et , l’influence de étant retirée

I- Corrélation partielle Généralisation de la notion corrélation partielle : Le coefficient de corrélation partielle mesure la liaison entre deux variables lorsque l’influence d’une ou des autres variables explicatives est retirée. Soit y une variable à expliquer, et , et des variables explicatives. 6 Coefficients de premier ordre : 3 Coefficients de deuxième ordre : Plus le coefficient de corrélation partielle d’une variable est élevé, plus la contribution de cette variable est importante à l’explication globale du modèle.

I- Corrélation partielle Calcul du coefficient de corrélation partielle : Méthode 1: Du coefficient de corrélation simple Entre le résidu de la régression de la variable à expliquer sur le sous ensemble des k-1 autres variables explicatives. et le résidu de la régression de la variable explicative sur les k-1 variables explicatives. Exemple de calcul: Etape 1: = y – ( + + ) Etape 2: = – ( + + ) Etape 3: =

I- Corrélation partielle Calcul du coefficient de corrélation partielle : Méthode 2: Du t de Student Dans un modèle à k variables explicatives, il existe une relation entre le coefficient de corrélation partielle et le t de Student : = + (n – k – 1) Cas particulier : Relation entre trois variables = - ( ) ( ) (1 – )

I- Corrélation partielle Exercice 1: Une entreprise cherche à déterminer quelles sont les influences respectives de la publicité ( ), de la promotion auprès des distributeurs ( ), et de la promotion auprès des consommateurs ( ) exprimées en milliers d’euros sur les ventes en tonnes ( y). Année y x1 x2 x3 1 49 35 53 200 2 40 212 3 41 38 50 211 4 46 64 5 52 70 203 6 59 42 68 194 7 44 8 61 73 188 9 55 196 10 71 190 Calculer les coefficients de corrélation partielle du premier ordre et du deuxième ordre et commenter les résultats obtenus.

I- Corrélation partielle Relation entre coefficients de corrélation simple, partielle et multiple: 1 – = (1 - ) (1 - ) = Coefficient de détermination de la régression de y sur x1 et x2 = Proportion du résidu expliqué par la variable x2 seule. = Coefficient de détermination de la régression de y sur x1

I- Corrélation partielle Exercice 2: Un économiste estime un modèle à trois variables explicatives : = 348.4 + 56.3 - 9.5 + 234.8 (4.5) (8.3) (2.1) (4.6) R² = 0.76 n = 65 (.) = t de Student Le coefficient de corrélation linéaire entre y et x1 est connu : = 0.52 Calculer le coefficient de corrélation partielle

II- Tests de détection de multicolinéarité Test de détection d’une multicoliéarité: 1- Test de Klein Le test de Klein est fondé sur la comparaison du coefficient de détermination calculé sur le modèle à k variables et les coefficients de corrélation simple entre les variables explicatives pour i ≠ j. Si < Il y a présomption de multicoliéarité

II- Tests de détection de multicolinéarité Test de détection d’une multicoliéarité: 1- Test de Klein Le test de Klein est fondé sur la comparaison du coefficient de détermination calculé sur le modèle à k variables et les coefficients de corrélation simple entre les variables explicatives pour i ≠ j. Si < Il y a présomption de multicoliéarité

II- Tests de détection de multicolinéarité Test de détection d’une multicoliéarité: 2- Test de Farrar et Glauber La première étape consiste à calculer le déterminant de la matrice des coefficients de corrélation entre les variables explicatives. D = Lorsque la valeur du déterminant D tend vers zéro, le risque de multicolinéarité est important

II- Tests de détection de multicolinéarité Test de détection d’une multicoliéarité: 2- Test de Farrar et Glauber Exemple 1 : deux variables explicatives parfaitement corrélées. D = =

II- Tests de détection de multicolinéarité Test de détection d’une multicoliéarité: 2- Test de Farrar et Glauber Exemple 2 : deux variables explicatives non corrélées. D = = 1

II- Tests de détection de multicolinéarité Test de détection d’une multicoliéarité: 2- Test de Farrar et Glauber La deuxième étape consiste à effectuer un test x² selon les hypothèses suivantes : H0 : D = 1 (les séries sont orthogonales) H1 : D < 1 (les séries sont dépendantes) La valeur empirique du *x² calculée à partir de l’échantillon : *x² = n = taille de l’échantillon K = k+1 nombre de variables explicatives (terme constant inclus) Ln = logarithme népérien

II- Tests de détection de multicolinéarité Test de détection d’une multicoliéarité: 2- Test de Farrar et Glauber Règle de décision : Si *x² ≥ x² Lu dans la table à (K/2)(K-1) degrés de liberté et au seuil L’hypothèse H0 est rejeté, il y a donc présomption de multicolinéarité Si *x² < x² Nous acceptons l’hypothèse d’orthogonalité

II- Tests de détection de multicolinéarité Exercice 2: Un économiste cherche à expliquer la variable y à l’aide de quatre séries explicatives x1, x2, x3 et x4. Il désire auparavant tester une éventuelle multicolinéarité entre ces quatre séries. y x1 x2 x3 x4 8.40 82,90 17,10 92,00 94,00 9.60 88,00 21,30 93,00 96,00 10,40 99,90 25,10 97,00 11,40 105,30 29,00 12,20 117,70 34,00 100,00 14,20 131,00 40,00 101,00 15,80 148,20 44,00 105,00 104,00 17,90 161,80 49,00 112,00 109,00 19,30 174,20 51,00 111,00 20,80 184,70 53,00 Appliquer les tests de Klein et de Farrar-Glauber

II- Tests de détection de multicolinéarité Comment remédier à la multicolinéarité ? Augmenter la taille de l’échantillon : Cette technique n’est pas efficace que si l’ajout d’observations diffère significativement de celles figurant déjà dans le modèle. La « Ridge Regression » : est une réponse purement numérique, il s’agit de transformer la matrice X’X en (X’X + cI).

III- Choix du modèle optimal Sélection du modèle optimal Dans la pratique, l’économètre est souvent confronté aux choix de plusieurs variables explicatives x1, x2, …,xk candidates pour expliquer la variable y. Des procédures statistiques permettent de déterminer quelles variables retirer ou quelles variables ajouter dans un modèle. Cette démarche exclut tout raisonnement économique car elle permet d’aboutir à des modèles économétriques qui sont souvent bons sur le plan statistique mais dont l’interprétation économique s’avère nulle. Ces techniques de sélection de variables explicatives sont donc à manier avec prudence.

III- Choix du modèle optimal Sélection du modèle optimal Au problème de la sélection des variables explicatives s’joute celui du choix à effectuer entre plusieurs modèles concurrents, c’est-à-dire des modèles dont les variables sont toutes significatives mais qui ne sont pas les mêmes. La question se pose alors de sélectionner le meilleur modèle.

III- Choix du modèle optimal Sélection du modèle optimal Le critère de maximisation du R² (coefficient de détermination) consiste à retenir le modèle dont le R² est le plus élevé. Ce critère présente l’inconvénient de ne pas arbitrer entre la perte de degrés de liberté du modèle et l’ajustement qui en résulte. C’est pourquoi on préfère utiliser les critères de AKAIKE ou SCHWARZ afin de comparer des modèles impliquant un nombre différents de variables explicatives.

III- Choix du modèle optimal Sélection du modèle optimal Nous retenons le modèle qui minimise la fonction de Akaike (Akaike Information Criterion) : AIC = Ln (SCR/n) + 2k/n Schwarz (Schwarz Criterion) : SC = Ln (SCR/n) + kLn(n)/n

III- Choix du modèle optimal Sélection du modèle optimal Avec : Ln = Logarithme népérien. SCR = Somme des carrés des résidus du modèle. n = nombre d’observations. k = nombre de variables explicatives. Nous allons examiner cinq méthodes qui vont nous permettre de retenir le meilleur modèle, celui qui est composé des variables qui sont : Les plus corrélées avec la variable à expliquer. Les moins corrélés entre elles.

III- Choix du modèle optimal Sélection du modèle optimal Toutes les régressions possibles Il s’agit de la méthode la plus simple dans son exposé : nous estimons toutes les combinaisons de régressions possibles ( possibilités, k = nombre de variables explicatives candidates) . Le modèle retenu est celui dont le critère de Akaike ou de Schwartz est minimum pour un modèle comportant des variables explicatives toutes significatives. La limite d’utilisation de cette méthode est liée au nombre initial de variables explicatives candidates, par exemple si k=10, le nombre de combinaisons possibles est de 1023.

III- Choix du modèle optimal Sélection du modèle optimal L’élimination progressive (« Backward Elimination ») Cette procédure consiste, sur le modèle complet à k variables explicatives, à éliminer de proche en proche (c’est-à-dire en ré-estimant l’équation après chaque élimination) les variables explicatives dont les t de Student sont en dessous du seuil critique. Cette procédure n’est utilisable que si la première équation peut être effectivement estimée, ce qui n’est pas toujours le cas. En effet, lorsque le modèle comporte un nombre important de variables explicatives, le risque de colinéarité entre ces variables est élevé et la matrice X’X peut être singulière.

III- Choix du modèle optimal Sélection du modèle optimal La sélection progressive (« Forward Regression») Dans cette procédure, on sélectionne, dans une première étape, la variable explicative dont le coefficient de corrélation simple est le plus élevé avec la variable y, soit xi cette variable. La deuxième étape consiste alors à calculer les coefficients de corrélation partielle r²yxj.xi pour j≠i et à retenir la variable explicative ayant le coefficient le plus élevé. La sélection s’arrête lorsque les t de Student des variables explicatives sont inférieurs au seuil critique.

III- Choix du modèle optimal Sélection du modèle optimal La régression pas à pas(« Stepwise Regression») Cette procédure est identique à la précédente, sauf qu’après avoir incorporé une nouvelle variable explicative, nous examinons les t de Student de chacune des variables explicatives préalablement sélectionnées et nous éliminons du modèle celle(s) dont le t du Student est inférieur au seuil critique.

III- Choix du modèle optimal Sélection du modèle optimal La régression par étage(« Stagewise Regression») C’est un processus de sélection de variables explicatives permettant de minimiser les inter corrélations entre les séries explicatives par étude du résidu. La première étape : La variable explicative dont le coefficient de corrélation simple est le plus élevé avec la variable y est sélectionnée, soit xi cette variable. La deuxième étape : Calcul du résidu de la régression de y sur xi: = y – ( + ) Les coefficients de corrélation simple entre le résidu e1 et les variables explicatives sont calculés, nous retenons la variable explicative dont le coefficient est le plus élevé. Soit xj cette variable explicative.

III- Choix du modèle optimal Sélection du modèle optimal La troisième étape : Nous calculons un nouveau résidu: = y – ( + + ) Les coefficients de corrélation simple entre le résidu e2 et les variables explicatives sont calculés, nous retenons la variables explicatives dont le coefficient est le plus élevé, e qui permet de dégager un nouveau résidu. La procédure est arrêtée lorsque les coefficients de corrélation ne sont plus significativement différents de 0.

III- Choix du modèle optimal Application En utilisant les cinq procédures, sélectionner le modèle dont le pouvoir est le plus important. y x1 x2 x3 x4 8.40 82,90 17,10 92,00 94,00 9.60 88,00 21,30 93,00 96,00 10,40 99,90 25,10 97,00 11,40 105,30 29,00 12,20 117,70 34,00 100,00 14,20 131,00 40,00 101,00 15,80 148,20 44,00 105,00 104,00 17,90 161,80 49,00 112,00 109,00 19,30 174,20 51,00 111,00 20,80 184,70 53,00

III- Choix du modèle optimal Eviews Calcul d’un coefficient de corrélation partielle Exemple de calcul de r²yx3.x1x2 LS Y C X1 X2 GENR E1 = RESID LS X3 C X1 X2 GENR E2 = RESID scalar rau = @cor(E1,E2)

III- Choix du modèle optimal Eviews Test de Klein Programme scalar test1 = 0 ‘test est un indicateur de colinéarité égal à 1 en cas de risque equation eqt.ls y c x1 x2 x3 x4 scalar cr = @r2 for !i = 1 to 4 for !j = 1 to 4 if !i <> !j then scalar cp!i!j = @cor(x!i, x!j)^2 if cp!i!j > cr then test1 = 1 endif next

III- Choix du modèle optimal Eviews Test de Farrar et Glauber Programme ls y c x1 x2 x3 x4 matrix(4, 4) mar for !i = 1 to 4 for !j = 1 to 4 mar(!i, !j) = @cor(x!i, x!j) next scalar dt = @det(mar) scalar chie = -(@regobs-1-(2*@ncoef+5)/6)*log(dt) scalar ndf = 0.5*@ncoef*(@ncoef-1) if @chisq(chie,ndf) < 0.05 then scalar test2 = 0 else scalar test2 = 1 Endif Si le test2 = 1, on rejette H0, il y a présomption de multicolinéarité.

III- Choix du modèle optimal Eviews Toutes les régressions possibles !a = 1 FOR !I =1 TO 4 equation eq!a.ls Y C X!i !a = !a + 1 next FOR !I = 1 TO 3 FOR !J = !I+1 TO 4 equation eq!a.ls Y C X!I X!J 'equation à deux variables FOR !I = 1 TO 2 FOR !J = !I+1 TO 3 FOR !K = !J+1 TO 4 equation eq!a.ls Y C X!I X!J X!K 'equation à trois variables

III- Choix du modèle optimal Eviews equation eq!a.ls Y C X1 X2 X3 X4 Scalar BEST = 0 FOR !I = 1 TO 15 scalar IND = 0 scalar NV = eq!I.@ncoef for !J = 2 TO NV scalar te =@abs( eq!I.C(!J)/sqr(eq!I.@covariance(!J,!J))) scalar ddl = eq!I.@regobs- eq!I.@ncoef IF @tdist(te,ddl)> 0.05 then ind = 1 endif NEXT !J IF IND = 0 then IF eq!I.@R2 > BEST then scalar neq= !I BEST = eq!I.@R2 ENDIF NEXT

III- Choix du modèle optimal Eviews Parmi ces 15 équation, laquelle est la meilleure?? Il faut éliminer celles dont un ou plusieurs ratios de Student ( sauf le terme constant) sont inférieurs au seuil critique (environ 2.30) : M5, M6, M7, M8, M10, M11, M12, M14, M15). Parmi le reste des équations, on sélectionne celle dont le critère de Akaike et de Schwarz est le plus faible, d’où M13

III- Choix du modèle optimal Eviews Elimination progressive A partir du modèle estimé avec 4 variables explicatives, nous retirons la variable dont le ratio de Student est le plus faible, soit x2.

III- Choix du modèle optimal Eviews Elimination progressive Le modèle estimé est le modèle 13, toutes les variables sont significatives (t* > 2.30), la procédure de sélection s’arrête:

III- Choix du modèle optimal Eviews Sélection progressive Calcul des coefficients de corrélation entre y et x1, x2, x3, x4 La première variable sélectionnée est x1 Estimation des 3 modèles à deux variables explicatives : x1 et x2, x1 et x3, x1 et x4. Modèles M5 M6 et M7. Dans ces trois modèles la nouvelle variable explicative n’est jamais significative, la procédure est terminée: Choix : x1