Chapitre VIII : L’Autocorrélation des erreurs

Chapitre VIII : L’Autocorrélation des erreurs
VIII.1. Le processus stochastique des erreurs. VIII.2. L’estimation par MCO avec autocorrélation. VIII.3. L’estimateur des MCG – MCQG. VIII.4. Etude des propriétés des estimateurs MCO, MCG et MCQG par simulation VIII.5. Tests de l’autocorrélation. VIII.6. Un exemple VIII.7. Remarques sur les processus non stationnaires Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

VIII.1. Le processus stochastique des erreurs
L’autocorrélation des erreurs L’autocorrélation des observations se rencontre principalement sur des séries temporelles / séries chronologiques. On utilise alors des observations indicées par le temps t pour un échantillon de 𝑇 observations avec 𝑡=1,2,…,𝑇. Cela remet en cause l’hypothèse d’indépendance des erreurs ou de non-corrélation des erreurs (Hypothèse H4) : 𝐸 𝜀 𝑡 𝜀 𝑡−𝑠 = 𝜎 𝑠 ≠ pour tout 𝑡=1,2,…,𝑇 et tout 𝑠 Implicitement on suppose ici que la covariance 𝜎 𝑠 ou la corrélation ( 𝜎 𝑠 𝜎 2 ) dépend uniquement de l’écart de temps entre 2 erreurs. Sur des données de pays ou de zones, on peut aussi imaginer une autocorrélation spatiale des erreurs… Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Econométrie (M1) Chapitre 8 (2019 – 2020)
Le modèle s’écrit alors : 𝑦 𝑡 = 𝒙 𝑡 ′ 𝜷+ 𝜀 𝑡 avec 𝑡=1,2,…,𝑇. et toujours sous forme matricielle : 𝒚=𝑿𝜷+𝜺 . L’erreur (vecteur 𝑇×1) est d’espérance nulle : 𝐸 𝜺 𝑿 = 𝟎 𝐾 , avec une matrice de variance – covariance (𝑇×𝑇), conditionnellement au variables explicatives 𝑿 : 𝐸 𝜺𝜺′ 𝑿 = 𝜎 2 𝜎 1 𝜎 2 𝜎 1 𝜎 2 𝜎 1 𝜎 2 𝜎 1 𝜎 ⋯ 𝜎 𝑇−2 𝜎 𝑇−1 ⋯ ⋯ 𝜎 𝑇−2 ⋱ ⋮ ⋮ ⋮ ⋱ 𝜎 𝑇−2 ⋮ 𝜎 𝑇−1 𝜎 𝑇−2 ⋯ ⋱ ⋱ ⋮ ⋱ 𝜎 2 𝜎 1 ⋯ 𝜎 1 𝜎 2 =𝜱= 𝜎 2 𝜳 Remarque : on conserve ici l’hypothèse H3 d’homoscédasticité. la covariance dépend uniquement de l’écart entre les périodes. La matrice 𝜳 a des valeurs un sur la diagonale principale et des corrélations entre deux erreurs dans le triangle inférieur ou supérieur. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Même si l’estimateur des moindres carrés est toujours sans biais (comme dans le cas de l’hétéroscédasticité). Cet estimateur MCO n’est plus le meilleur ou le plus efficace. La matrice de variance – covariance classique : 𝑉 𝜷 𝑿 = 𝜎 2 𝑿 ′ 𝑿 −1 est également incorrecte ! La vraie matrice de variance – covariance correcte dans le cas d’autocorrélation est : 𝑉 𝐴 𝜷 𝑿 = 1 𝑇 𝑿 ′ 𝑿 𝑇 −1 𝑿 ′ 𝜱𝑿 𝑇 𝑿 ′ 𝑿 𝑇 −1 = 1 𝑇 𝑨 −1 𝑩 𝑨 −1 Pour caractériser la matrice de variance-covariance des erreurs 𝜱, on a deux types de processus stochastique largement utilisés : les processus autorégressifs les processus de moyenne mobile Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Le processus autorégressif d’ordre 1 On considère le modèle de régression multiple : 𝑦 𝑡 = 𝒙 𝑡 ′ 𝜷+ 𝑢 𝑡 𝑡=1,2,…,𝑇 . Les erreurs 𝑢 𝑡 dépendent de leur passé immédiat 𝑢 𝑡 et d’un aléa 𝜀 𝑡 (« innovation » ou « bruit blanc » – white noise) : 𝑢 𝑡 =𝜌 𝑢 𝑡−1 + 𝜀 𝑡 avec 𝐸 𝜀 𝑡 𝑿 = pour tout 𝑡 𝐸 𝜀 𝑡 2 𝑿 = 𝜎 pour tout 𝑡 𝐸 𝜀 𝑡 𝜀 𝑠 𝑿 =0 pour tout 𝑡≠𝑠 Le processus aléatoire ou « stochastique » pour l’erreur 𝑢 𝑡 est appelé : un processus autorégressif d’ordre 1 : AR(1). C’est le processus des erreurs le plus courant ! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

On peut réécrire le terme d’erreur ut récursivement comme : 𝑢 𝑡 =𝜌 𝑢 𝑡−1 + 𝜀 𝑡 = 𝜌 2 𝑢 𝑡−2 +𝜌 𝜀 𝑡−1 + 𝜀 𝑡 parce que 𝑢 𝑡−1 =𝜌 𝑢 𝑡−2 + 𝜀 𝑡−1 On recommence indéfiniment l’opération pour obtenir : 𝑢 𝑡 = 𝜌 𝑠 𝑢 𝑡−𝑠 + 𝜏=0 𝑠−1 𝜌 𝜏 𝜀 𝑡−𝜏 Si le processus est infini dans le passé (𝑠→∞), pour autant que −1<𝜌<1, on aura 𝜌 𝑠 →0 et : 𝑢 𝑡 = 𝜏=0 ∞ 𝜌 𝜏 𝜀 𝑡−𝜏 L’erreur 𝑢 𝑡 est une somme infinie pondérée de variables aléatoires 𝜀 𝑡 indépendantes et homoscédastiques. Le processus stochastique des erreurs 𝑢 𝑡 autorégressif d’ordre 1 est stationnaire (en covariance ou faiblement) pour autant que −1<𝜌<1 ou 𝜌 <1. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Ce processus AR(1) stationnaire a une espérance nulle pour toutes les observations 𝑡=1,2,…,𝑇 : 𝐸 𝑢 𝑡 =𝐸 𝜏=0 ∞ 𝜌 𝜏 𝜀 𝑡−𝜏 = 𝜏=0 ∞ 𝜌 𝜏 𝐸 𝜀 𝑡−𝜏 =0 =0 La variance du terme d’erreur 𝑢 𝑡 est identique pour toutes les observations 𝑡=1,2,…,𝑇 avec les hypothèses d’homoscédatsicité et d’indépendance des 𝜀 𝑡 : 𝑉 𝑢 𝑡 =𝐸 𝑢 𝑡 2 = 𝜎 𝜀 2 1− 𝜌 2 = 𝜎 𝑢 2 cela nécessite que 𝜌 <1, sinon la variance devient infinie…. (la somme infinie ne converge pas !) Voir démonstration dans les notes … Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Calculons maintenant les covariances entre deux erreurs en commençant par la covariance d’ordre 1 entre 𝑢 𝑡 et 𝑢 𝑡−1 (ou entre 𝑢 𝑡 et 𝑢 𝑡+1 ) : 𝐶𝑜𝑣 𝑢 𝑡 , 𝑢 𝑡−1 =𝐸 𝑢 𝑡 𝑢 𝑡−1 =𝜌 𝜎 𝜀 2 1− 𝜌 2 =𝜌 𝜎 𝑢 2 Voir démonstration dans les notes … Maintenant la covariance d’ordre 2 entre 𝑢 𝑡 et 𝑢 𝑡−2 : 𝐶𝑜𝑣 𝑢 𝑡 , 𝑢 𝑡−2 =𝐸 𝑢 𝑡 𝑢 𝑡−2 = 𝜌 2 𝜎 𝜀 2 1− 𝜌 2 = 𝜌 2 𝜎 𝑢 2 Et ainsi de suite… Pour la covariance d’ordre 𝑠 entre 𝑢 𝑡 et 𝑢 𝑡−𝑠 , on aura : 𝐶𝑜𝑣 𝑢 𝑡 , 𝑢 𝑡−𝑠 =𝐸 𝑢 𝑡 𝑢 𝑡−𝑠 = 𝜌 𝑠 𝜎 𝜀 2 1− 𝜌 2 = 𝜌 𝑠 𝜎 𝑢 2 On remarque immédiatement que ces covariances s’atténuent lorsque l’écart de périodes entre les 2 observations augmente parce que 𝜌 <1. Ces covariances convergent alors vers zéros, lorsque 𝑠→∞.  processus faiblement dépendant !

A partir de ces covariances, appelées les autocovariances, on peut calculer les autocorrélations : 𝐶𝑜𝑟𝑟 𝑢 𝑡 , 𝑢 𝑡−𝑠 = 𝐸 𝑢 𝑡 𝑢 𝑡−𝑠 𝑉 𝑢 𝑡 ×𝑉 𝑢 𝑡−𝑠 = 𝐸 𝑢 𝑡 𝑢 𝑡−𝑠 𝑉 𝑢 𝑡 = 𝜌 𝑠 𝜎 𝑢 2 𝜎 𝑢 2 = 𝜌 𝑠 C’est une fonction décroissante (en valeur absolue) et qui ne dépend que de l’écart 𝑠 de périodes entre les 2 erreurs. elle est monotone si 0<𝜌<1. elle alterne en signe si 𝜌 est négatif. Le graphique de ces autocorrélations contre l’écart de période 𝑠 sera appelé le corrélogramme. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Corrélogrammes d’un processus AR(1)

Un utilisant les autocovariances, on obtient facilement la matrice de variance – covariance des erreurs qui dépend de la variance 𝜎 𝑢 2 et du paramètre 𝜌 du processus autorégressif : 𝐸 𝒖′𝒖 𝑿 =𝜱= 𝜎 𝜀 2 1− 𝜌 𝜌 𝜌 2 𝜌 𝜌 𝜌 𝜌 ⋯ ⋯ 𝜌 𝑇−1 𝜌 𝑇−2 ⋮ ⋮ ⋮ 𝜌 𝑇−1 𝜌 𝑇−2 ⋯ ⋱ ⋮ 1 𝜌 ⋯ 𝜌 1 = 𝜎 𝑢 2 𝜳 𝜌 Cette matrice a une structure particulière avec des diagonales identiques. On appelle ce type de matrice une matrice de TOEPLITZ. Son avantage est que son inverse est facile à trouver : 𝜳 −1 = 1 1− 𝜌 −𝜌 0 −𝜌 1+ 𝜌 2 −𝜌 0 −𝜌 1+ 𝜌 ⋯ ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 ⋯ ⋯ ⋱ ⋱ 0 ⋱ 1+ 𝜌 2 −𝜌 0 −𝜌 1 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

La racine carrée de cette matrice est alors : 𝜳 − 1 2 = 1− 𝜌 −𝜌 −𝜌 ⋯ ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 ⋯ ⋯ ⋱ ⋱ 0 ⋱ −𝜌 1 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Autocorrélation : Exemple 𝑢 𝑡 =𝜌 𝑢 𝑡−1 + 𝜀 𝑡 avec 𝜀 𝑡 ≈𝑖.𝑖.𝑑.𝑁 0 , 𝜎 𝜀 pour 𝑡=1,2,…,𝑇. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

On peut très facilement généraliser ces processus autorégressifs à un ordre supérieur : 𝑢 𝑡 = 𝜌 1 𝑢 𝑡−1 + 𝜌 2 𝑢 𝑡−2 +…+ 𝜌 𝑝 𝑢 𝑡−𝑝 + 𝜀 𝑡 → 𝑢 𝑡 ≈𝐴𝑅 𝑝 𝑝 valeurs passées Cependant il y a des restrictions sur les paramètres 𝜌 𝑗 du processus pour assurer la stationnarité du processus 𝑢 𝑡 . Mais maintenant les autocorrélations sont plus complexes à déterminer. Le corrélogramme n’est plus monotone ! La matrice de variance – covariance des erreurs 𝑢 𝑡 est plus complexe … … de même que son inverse ! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Autres processus stochastique… Les processus de moyenne mobile : MM(q) ou MA(q) – Moving Average 𝑢 𝑡 = 𝜀 𝑡 + 𝜃 1 𝜀 𝑡−1 + 𝜃 2 𝜀 𝑡−2 +…+ 𝜃 𝑞 𝜀 𝑡−𝑞 Un processus stochastique plus complet combine : les processus autorégressifs d’ordre p les processus de moyenne mobile d’ordre q 𝑢 𝑡 = 𝜌 1 𝑢 𝑡−1 + 𝜌 2 𝑢 𝑡−2 +…+ 𝜌 𝑝 𝑢 𝑡−𝑝 + 𝜀 𝑡 + 𝜃 1 𝜀 𝑡−1 + 𝜃 2 𝜀 𝑡−2 +…+ 𝜃 𝑞 𝜀 𝑡−𝑞 𝐴𝑅 𝑝 𝑀𝐴 𝑞 Ce processus est appelé alors : 𝑢 𝑡 ≈𝐴𝑅𝑀𝐴 𝑝,𝑞 Dans la suite de ce chapitre, on ne considérera que les processus autorégressif d’ordre 1 – AR(1) – stationnaire. Les cas plus complexe sont traités dans un cours d’économétrie dédié aux séries temporelles :  Econométrie des Séries Temporelles (François BENHMAD) Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

VIII.2. Estimation par MCO avec autocorrélation des erreurs.
On veut estimer un modèle linéaire multiple avec cette matrice de variance – covariance (erreurs autorégressives d’ordre 1) : 𝐸 𝒖′𝒖 𝑿 =𝜱= 𝜎 𝑢 2 𝜳 L’estimateur MCO : 𝜷 𝑴𝑪𝑶 = 𝑿 ′ 𝑿 −1 𝑿 ′ 𝒚 avec 𝑉 𝐴 𝜷 𝑴𝑪𝑶 𝑿 = 𝜎 𝑢 2 𝑿 ′ 𝑿 −1 𝑿 ′ 𝜳𝑿 𝑿 ′ 𝑿 −1 est sans biais, mais inefficace ! pour autant : que les régresseurs 𝒙 𝑡 soient stationnaires, et qu’il n’y a pas de retards de la variable dépendante yt-1, yt-2,… dans les régresseurs, sinon les MCO sont biaisés (en petits échantillons) ! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Cependant l’estimateur MCG est le meilleur estimateur linéaire sans biais ! (après transformation…) 𝜷 𝑴𝑪𝑮 = 𝑿 ′ 𝜳 −𝟏 𝑿 −1 𝑿 ′ 𝜳 −𝟏 𝒚 avec 𝑉 𝜷 𝑴𝑪𝑮 𝑿 = 𝜎 𝑢 2 𝑿 ′ 𝜳 −𝟏 𝑿 −1 L’estimateur MCG est plus efficace (plus précis) que l’estimateur MCO !!! Il a une variance plus faible… (voir Chapitre VI) REMARQUE : En général, si on utilise la mauvaise formule pour la variance de l’estimateur MCO, on obtient des écarts-type trop faibles* !!! * : Voir Jeffrey WOOLDRIDGE (2009) : Introductory Econometrics : A Modern Approach, pages Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Correction de la matrice de variance –covariance des MCO Si on a détecté de l’autocorrélation des les erreurs, que doit-on faire ? On peut conserver l’estimateur des MCO (sans biais, convergent, mais inefficace) mais en calculant correctement la matrice de variance – covariance : 𝑉 𝐴 𝜷 𝑀𝐶𝑂 𝑿 =𝑇 𝑿 ′ 𝑿 −1 𝑿 ′ 𝜱𝑿 𝑇 𝑿 ′ 𝑿 − avec 𝜱=𝐸 𝒖′𝒖 𝑿 Cependant il est impossible d’estimer directement 𝜱 ! Whitney NEWEY(1954- ) et Kenneth WEST(1953- ) ont proposé en 1987* d’estimer la matrice de variance – covariance de l’estimateur MCO avec de l’autocorrélation des erreurs en utilisant une méthode analogue à celle de WHITE pour l’hétéroscédasticité. * : NEWEY, Whitney K. et Kenneth D. WEST (1987) : “A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix“, Econometrica, 55, pp. 703–708. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

𝑿 ′ 𝜱𝑿 𝑇 = 1 𝑇 𝑡=1 𝑇 𝑠=1 𝑠≠𝑡 𝑇 𝜌 𝑠−𝑡 𝒙 𝑡 𝒙 𝑠 ′ Ils ont proposé d’estimer la matrice centrale : par une matrice 𝑺 avec 𝒆 les résidus des MCO en sélectionnant un nombre de retards 𝐿 : 𝑺 = 1 𝑇 𝑡=1 𝑇 𝑒 𝑡 2 𝒙 𝑡 𝒙 𝒕 ′ + 1 𝑇 𝑗=1 𝐿 1− 𝑗 𝐿+1 𝑡=𝑗+1 𝑇 𝑒 𝑡 𝑒 𝑡−𝑗 𝒙 𝑡 𝒙 𝑡−𝑗 ′ + 𝒙 𝑡−𝑗 𝒙 𝑡 ′ Le premier terme dans cette somme permet d’obtenir la matrice de variance-covariance de WHITE robuste à l’hétéroscédasticité. NEWEY et WEST ont montré que 𝑺 est un estimateur convergent de 𝑿 ′ 𝜱𝑿 𝑇 : 𝑺 𝑝 𝑿 ′ 𝜱𝑿 𝑇 Dès lors : 𝑉 𝐴 𝜷 𝑀𝐶𝑂 𝑿 =𝑇 𝑿 ′ 𝑿 −1 𝑺 𝑿 ′ 𝑿 −1 Le problème est de déterminer le nombre de retard 𝐿 à prendre en compte ! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Si on a détecté de l’autocorrélation des les erreurs, que doit-on faire ? (suite…) Soit utiliser l’estimateur des moindres carrés généralisés : sans biais, convergent, et le plus efficace (voir un section suivante). Mais cela nécessite souvent des estimateurs non linéaires … ou des estimations en 2 étapes (moins performantes en petits échantillons) Soit mieux spécifier dynamiquement le modèle à estimer : en introduisant des retards sur 𝒚 ou sur les variables explicatives 𝑿 … Par exemple, supposons un modèle avec des erreurs autorégressives d’ordre 1 : 𝑦 𝑡 = 𝒙 𝑡 ′ 𝜷+ 𝑢 𝑡 avec 𝑢 𝑡 =𝜌 𝑢 𝑡−1 + 𝜀 𝑡 Ce modèle peut se réécrire : 𝑢 𝑡 = 𝑦 𝑡 − 𝒙 𝑡 ′ 𝜷 et 𝑢 𝑡−1 = 𝑦 𝑡−1 − 𝒙 𝑡−1 ′ 𝜷 On aura alors un modèle : 𝑢 𝑡 =𝜌 𝑢 𝑡−1 + 𝜀 𝑡 → 𝑦 𝑡 − 𝒙 𝑡 ′ 𝜷=𝜌 𝑦 𝑡−1 − 𝒙 𝑡−1 ′ 𝜷 + 𝜀 𝑡 → 𝑦 𝑡 = 𝒙 𝑡 ′ 𝜷+𝜌 𝑦 𝑡−1 − 𝒙 𝑡−1 ′ 𝜌𝜷 + 𝜀 𝑡 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Ou encore en notant : 𝜸=−𝜌𝜷 → 𝑦 𝑡 = 𝒙 𝑡 ′ 𝜷+𝜌 𝑦 𝑡−1 + 𝒙 𝑡−1 ′ 𝜸+ 𝜀 𝑡 En introduisant la variable dépendante retardée 𝑦 𝑡−1 et les variables explicatives retardées 𝒙 𝑡−1 , on obtient un modèle de régression avec des erreurs non autocorrélées que l’on peut estimer efficacement par moindres carrés  propriétés asymptotiques (CAN) Mais ce modèle comprend 𝐾 paramètres 𝜸 supplémentaires par rapport au modèle initial ! Si les 𝐾 restrictions 𝜸=−𝜌𝜷 sont valides, on a un modèle statique avec des erreurs autorégressives d’ordre 1 : 𝑦 𝑡 = 𝒙 𝑡 ′ 𝜷+ 𝑢 𝑡 avec 𝑢 𝑡 =𝜌 𝑢 𝑡−1 + 𝜀 𝑡 Sinon on obtient un modèle dynamique plus général de la forme : 𝑦 𝑡 = 𝒙 𝑡 ′ 𝜷+𝜌 𝑦 𝑡−1 + 𝒙 𝑡−1 ′ 𝜸+ 𝜀 𝑡 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Un test non-linéaire de l’hypothèse 𝐻 0 : 𝜸+𝜌𝜷= 𝟎 𝐾 permet de discriminer entre les 2 modèles. Ce test est appelé test des 𝑲 restrictions de co-facteurs. On étudiera ces modèles dynamiques dans le Chapitre IX suivant. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

VIII.3. Estimation par MCG - MCQG avec autocorrélation des erreurs.
Pour estimer un modèle de régression linéaire avec des erreurs autorégressives d’ordre 1 , on peut utiliser l’estimateur MCG qui est sans biais et efficace. 𝑦 𝑡 = 𝒙 𝑡 ′ 𝜷+ 𝑢 𝑡 avec 𝑢 𝑡 =𝜌 𝑢 𝑡−1 + 𝜀 𝑡 , 𝜌 <1 On a l’inverse de la matrice de TOEPLITZ 𝜳 pour un processus des erreurs AR(1) : 𝜳 −1 = 1 1− 𝜌 −𝜌 0 −𝜌 1+ 𝜌 2 −𝜌 0 −𝜌 1+ 𝜌 ⋯ ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 ⋯ ⋯ ⋱ ⋱ 0 ⋱ 1+ 𝜌 2 −𝜌 0 −𝜌 ⇒ 𝜷 𝑀𝐶𝐺 = 𝑿 ′ 𝜳 −𝟏 𝑿 −1 𝑿 ′ 𝜳 −𝟏 𝒚 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

On obtient la racine carrée 𝑷 de cette matrice (décomposition de Cholesky) : 𝜳 −1 = 𝑷 ′ 𝑷 avec 𝑷= 1− 𝜌 −𝜌 −𝜌 ⋯ ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 ⋯ ⋯ ⋱ ⋱ 0 ⋱ −𝜌 1 Cela permet de transformer les variables en pré-multipliant les variables par cette matrice 𝑷 : 𝒚 =𝑷𝒚 , 𝑿 =𝑷𝑿 , 𝑒𝑡 𝜺 =𝑷𝜺. On applique alors les MCO sur ce modèle transformé. Remarquez la transformation particulière de la première observation : alors que les autres observations sont transformées en quasi-différences : 𝑦 1 = 1− 𝜌 2 𝑦 1 𝑦 𝑡 = 𝑦 𝑡 −𝜌 𝑦 𝑡− pour 𝑡=2,3,…,𝑇. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

La matrice de variance – covariance de cet estimateur : 𝑉 𝜷 𝑀𝐶𝐺 𝑿 = 𝜎 2 𝑿 ′ 𝑿 −1 = 𝜎 2 𝑿 ′ 𝜳 −1 𝑿 −1 avec l’estimateur de la variance de l’erreur : 𝜎 2 = 𝒚−𝑿 𝜷 𝑀𝐶𝐺 ′ 𝜳 −1 𝒚−𝑿 𝜷 𝑀𝐶𝐺 𝑇−𝐾 = 𝒚 − 𝑿 𝜷 𝑀𝐶𝐺 ′ 𝒚 − 𝑿 𝜷 𝑀𝐶𝐺 𝑇−𝐾 L’estimateur MCQG nécessite une estimation convergente du paramètre 𝜌 dans une première étape : 𝑢 𝑡 =𝜌 𝑢 𝑡−1 + 𝜀 𝑡 , pour obtenir un estimateur convergent de la matrice 𝜳 : 𝜷 𝑀𝐶𝑄𝐺 = 𝑿 ′ 𝜳 −𝟏 𝑿 −1 𝑿 ′ 𝜳 −𝟏 𝒚 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Pour estimer 𝜌, Sigbert PRAIS ( ) et Christopher WINSTEN ( ) ont proposé en 1954* de remplacer 𝑢 𝑡 par les résidus 𝑒 𝑡 provenant de l’estimation MCO du modèle initial : 𝜷 𝑀𝐶𝑂 = 𝑡=1 𝑇 𝒙 𝑡 𝒙 𝑡 ′ −1 𝑡=1 𝑇 𝒙 𝑡 𝑦 𝑡 → 𝑒 𝑡 = 𝑦 𝑡 − 𝒙 𝑡 ′ 𝜷 𝑀𝐶𝑂 Estimation de 𝜌 par MCO d’un modèle de régression simple sans constante : 𝑒 𝑡 =𝜌 𝑒 𝑡−1 + 𝜂 𝑡 pour 𝑡=2,3,…,𝑇. 𝜌 = 𝑡=2 𝑇 𝑒 𝑡 𝑒 𝑡−1 𝑡=2 𝑇 𝑒 𝑡−1 2 Ce qui donne pour un estimateur de 𝜌 : * : Sigbert J. PRAIS et Christopher B. WINSTEN (1954) : “Trend estimators and serial correlation“, Working paper N°383, Cowles Commission. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Suivant Henri THEIL ( ) (Principles of Econometrics, 1971), on effectue souvent une correction de petit échantillon : 𝜌 ∗ = 𝑡=2 𝑇 𝑒 𝑡 𝑒 𝑡−1 𝑇−1 𝑡=2 𝑇 𝑒 𝑡− 𝑇−𝐾 = 𝐶𝑜𝑣 𝑒 𝑡 , 𝑒 𝑡−1 𝜎 𝑀𝐶𝑂 2 = 𝑇−𝐾 𝑇−1 𝜌 < 𝜌 Sous certaines hypothèses pour la variable dépendante 𝒚 et les régresseurs 𝑿 (stationnarité, ergodicité), on peut montrer que ces estimateurs de 𝜌 sont des estimateurs convergents asymptotiquement normaux : 𝑝𝑙𝑖𝑚 𝜌 =𝑝𝑙𝑖𝑚 𝜌 ∗ =ρ 𝑒𝑡 𝜌 ≈𝑁 𝜌 , 1− 𝜌 2 𝑇 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

En deuxième étape, on utilise alors l’estimateur MCQG avec : 𝜳 −1 = 1 1− 𝜌 − 𝜌 0 − 𝜌 1+ 𝜌 2 − 𝜌 0 − 𝜌 1+ 𝜌 ⋯ ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 ⋯ ⋯ ⋱ ⋱ 0 ⋱ 1+ 𝜌 2 − 𝜌 0 − 𝜌 1 𝜷 𝑀𝐶𝑄𝐺 = 𝑿 ′ 𝜳 −𝟏 𝑿 −1 𝑿 ′ 𝜳 −𝟏 𝒚 ce qui donne : 𝑉 𝜷 𝑀𝐶𝑄𝐺 𝑿 = 𝜎 𝑢 𝑿 ′ 𝜳 −𝟏 𝑿 −1 avec 𝜎 𝑢 2 = 1 𝑇−𝐾 𝒚 − 𝑿 𝜷 𝑀𝐶𝑄𝐺 ′ 𝒚 − 𝑿 𝜷 𝑀𝐶𝑄𝐺 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Une autre méthode a été proposée au préalable en 1949 par Donald COCHRANE ( ) – Guy ORCUTT ( )* qui consiste à ne conserver que les 𝑇−1 dernières observations en quasi – différence : 𝑦 𝑡 − 𝜌 𝑦 𝑡−1 = 𝒙 𝑡 − 𝜌 𝒙 𝑡−1 ′ 𝜷+ 𝑢 𝑡 − 𝜌 𝑢 𝑡− pour 𝑡=2,3,…,𝑇. On estime alors ce modèle par MCO. On peut itérer en recalculant successivement 𝜌 puis 𝜷 𝑀𝐶𝑂 . Comme on ne prend pas en compte la première observation, cette méthode de Cochrane et Orcutt est cependant moins efficace que la méthode de Prais et Winsten ... mais on évite le traitement « spécial » de la première observation ! C’est pourtant une méthode très populaire ! * : Donald COCHRANE et Guy ORCUTT (1949) : « Application of least squares regression to relationships containing auto-correlated error terms.», Journal of the American Statistical Association , 44, pp. 32–61. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

REMARQUE : En petit échantillon, ces méthodes (Cochrane-Orcutt ou Prais-Winsten) tendent à sous – estimer la vrai valeur du paramètre autorégressif 𝜌 ! Cela implique de sérieuses conséquences pour l’inférence ! REMARQUE : L’estimation par maximum de vraisemblance est une autre méthode d’estimation : sous l’hypothèse de. normalité du bruit blanc et . (cela donne un estimateur identique à des itérations avec la méthode de Prais – Winsten – voir Section VI.4.) Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

VIII.4. Etude des propriétés des estimateurs MCO, MCG et MCQG par simulation Le modèle théorique Etude par simulation de Monte – Carlo On définit le même modèle théorique que celui du chapitre II : 𝐾=3 régresseurs (y compris la constante) 𝑇=100 observations Génération des 2 variables explicatives indépendantes : x2 est sans autocorrélation x3 a une autocorrélation positive avec l = 0.50 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

b) Les estimateurs étudiés MCO avec matrice de variance-covariance traditionnelle (fausse !) MCO avec vraie matrice de variance-covariance (Y connue). MCO avec la matrice de variance-covariance de Newey – West. MCG avec la matrice de variance-covariance (connue) MCQG avec une estimation en première étape de Theil Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

c) Résultats des simulations Tableau des moyennes des paramètres estimés (y compris la variance) des écarts-types des paramètres estimés sur les simulations avec 100 observations. Vraie valeur des paramètres : Simulations réalisées avec le logiciel Stata : Simulation 5 (autocor).do Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Moyennes sur les 10 000 Simulations
MCO MCG MCQG Var-Cov. Classique Correcte Newey-West b1 = 2.00 1.9928 1.9943 1.9924 b2 = 1.00 1.0003 0.9992 0.9994 b3 = -1.00 s²e= 1.00 2.6876 0.9999 1.0088 r = 0.80 0.7633 s(b1) 0.1652 0.4777 0.3589 0.5020 0.4419 s(b2) 0.2255 0.2259 0.2106 0.1142 0.1162 s(b3) 0.3464 0.3283 0.3104 0.1704 0.1736 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

VIII.5. Tests de l’autocorrélation
S’il y a autocorrélation, il vaut mieux utiliser l’estimateur des MCQG (surtout si la persistance des chocs ou des perturbations est importante) Il existe de nombreux tests de l’autocorrélation pour savoir si on doit utiliser les MCQG. On va étudier plusieurs tests : Un test asymptotique simple Un test asymptotique : le test de Box – Pierce ou de Ljung – Box Un test du multiplicateur de Lagrange : le test de Breusch – Godfrey Un test en petit échantillon : le test de Durbin – Watson Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Un test asymptotique simple Comme on l’a vu plus haut, l’estimateur est asymptotiquement normal d’espérance 𝜌 et de variance 1− 𝜌 2 𝑇 : 𝜌 ≈𝑁 𝜌 , 1− 𝜌 2 𝑇 → 𝜌 −𝜌 1− 𝜌 2 𝑇 ≈𝑁 0 , 1 On peut alors dériver un test asymptotique sous l’hypothèse nulle d’absence d’autocorrélation 𝐻 0 : 𝜌=0 de la forme : 𝑧= 𝑇 × 𝜌 ≈𝑁 0 , 1 Au niveau de 5 %, on rejette l’hypothèse nulle si 𝑇 × 𝜌 ≥1.96 . Donc pour un échantillon de 𝑇=100 observations, il suffit que 𝜌 ≥ (environ) pour rejeter l’hypothèse nulle ! Cependant ce test est valide seulement asymptotiquement ! Il a aussi une faible puissance de test !!! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Le test de Ljung – Box (1979) Ce test asymptotique est basé sur l’hypothèse nulle d’absence d’autocorrélation jusqu’à un certain ordre. Il généralise le test précédent à des autocorrélations d’ordre supérieur à 1… Calcul des 𝑳 premières autocorrélations empiriques des résidus et de l’estimation MCO initiale : 𝑟 𝑠 = 𝑡=𝑠+1 𝑇 𝑒 𝑡 𝑒 𝑡−𝑠 𝑡=1 𝑇 𝑒 𝑡 pour 𝑠=1,2,…,𝐿. Cela permet de tracer le corrélogramme empirique des résidus du modèle … Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Tout d’abord, George BOX ( ) et David PIERCE ont montré en 1970* que la statistique 𝑄 : 𝑄 𝐿 =𝑇 𝑠=1 𝐿 𝑟 𝑠 2 ≈ 𝜒 2 𝐿 sous 𝐻 0 est distribuée asymptotiquement, sous l’hypothèse nulle d’absence d’autocorrélation, selon une loi du Khi-deux avec 𝐿 degrés de liberté. Donc si la statistique 𝑸 est supérieur au quantile de la distribution du 𝜒 2 𝐿 au niveau 1−𝛼 % pour un niveau de test de 𝛼 % , on rejette l’hypothèse nulle → il y a de l’autocorrélation dans les erreurs. Remarquez que si 𝐿=1, cela revient au test précédent ! * : BOX, George E. P. et David A. PIERCE (1970) “Distribution of residual autocorrelations in autoregressive-integrated moving average time series models”, Journal of the American Statistical Association, 65, pp. 1509–1526. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Par la suite, Greta LJUNG et George BOX ont amélioré en 1978* cette statistique de test en surpondérant les autocorrélations lointaines, pour donner la statistique de Ljung – Box : 𝑄 𝐿 ′ =𝑇 𝑇+2 𝑠=1 𝐿 𝑟 𝑠 2 𝑇−𝑠 ≈ 𝜒 2 𝐿 sous 𝐻 0 qui est aussi distribuée asymptotiquement, sous l’hypothèse nulle d’absence d’autocorrélation, selon une loi du Khi-deux avec 𝐿 degrés de liberté. Même règle de décision que précédemment pour le test de Box-Pierce. Des simulations montrent que ce second test est meilleur que le précédent pour toutes tailles d’échantillon, et spécialement en petits échantillons. Ces tests appartiennent à la famille des tests du multiplicateur de Lagrange  il nécessite seulement l’estimation du modèle contraint (sans autocorrélation). * : LJUNG, Greta M. et George E. P. BOX (1978) : “On a measure of lack of fit in time series models”, Biometrika, 65, pp. 297–303. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Le test de Breusch – Godfrey Ce test asymptotique a été proposé indépendamment en 1978 par l’Australien Trevor BREUSCH (1949- )* et par l’Anglais Leslie GODFREY (1946- )**. Ce test est basé sur le multiplicateur de Lagrange pour le modèle contraint (sans autocorrelation) : 𝐻 0 :pas d ′ autocorrélations 𝐻 1 :autocorrélation d ′ ordre 𝐿 Comme précédemment, ce test est basé sur les résidus de l’estimation contrainte par MCO du modèle initial (sans autocorrélation) : 𝜷 = 𝑡=1 𝑇 𝒙 𝑡 𝒙 𝑡 ′ −1 𝑡=1 𝑇 𝒙 𝑡 𝑦 𝑡 → 𝑒 𝑡 = 𝑦 𝑡 − 𝒙 𝑡 ′ 𝜷 * : BREUSCH, Trevor S. (1978) : “Testing for Autocorrelation in Dynamic Linear Models”, Australian Economic Papers, 17, pp. 334–355. ** : GODFREY, Leslie G. (1978) : “Testing Against General Autoregressive and Moving Average Error Models when the Regressors Include Lagged Dependent Variables”, Econometrica, 46, pp. 1293–1302. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

On régresse alors les résidus MCO 𝑒 𝑡 sur 𝑒 𝑡−1 , 𝑒 𝑡−2 ,…, 𝑒 𝑡−𝐿 et 𝒙 𝑡 : 𝑒 𝑡 = 𝜆 1 𝑒 𝑡−1 + 𝜆 2 𝑒 𝑡−2 +…+ 𝜆 𝐿 𝑒 𝑡−𝐿 + 𝒙 𝑡 ′ 𝜸+ 𝜈 𝑡 Mais on ne peut calculer les 𝐿 résidus avant le début de l’échantillon ! Soit on élimine les 𝐿 premières observations, Soit on remplace les valeurs de ces 𝐿 premières observations manquantes par des zéros (Proposition de Russel DAVIDSON et James MACKINNON, 1993) On calcule alors le 𝑅 𝑎 2 de cette régression auxiliaire et 𝑠𝑜𝑢𝑠 𝐻 0 :𝐵𝐺=𝑇× 𝑅 𝑎 ≈ 𝜒 2 𝐿 Si la statistique de test 𝐵𝐺 est supérieure au quantile 1 – a % de la loi du Khi-deux, on rejette l’hypothèse nulle au niveau de test a % … → autocorrélations des erreurs. Le test 𝐵𝐺 peut être considéré comme un test joint des 𝐿 premières auto-corrélations des résidus MCO… → autocorrélations partielles ! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Le test de Durbin – Watson Ce test est un test en petit échantillon ! Il est très utilisé même si ces conditions d’utilisation ne sont pas toutes satisfaites, parce qu’il est assez robuste ! Limitation du test de Durbin – Watson : Test de la seule autocorrélation d’ordre 1 ! Variables explicatives strictement exogènes ! Normalité des erreurs ! Pas de variables dépendantes retardées 𝑦 𝑡−1 dans les régresseurs ! On suppose que l’erreur peut s’écrire sous une forme autorégressive AR(1). L’hypothèse nulle est l’absence d’autocorrélation d’ordre 1 : 𝐻 0 :ρ=0 (pas d ′ autocorrélation) 𝐻 1 :ρ≠0 (autocorrélation d ′ ordre 1) Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Les Anglais James DURBIN ( ) et Geof WATSON ( ) ont proposé en * de calculer la statistique suivante à partir des résidus des MCO : 𝐷𝑊= 𝑡=2 𝑇 𝑒 𝑡 − 𝑒 𝑡− 𝑡=1 𝑇 𝑒 𝑡 2 On peut réécrire cette statistique de DURBIN – WATSON comme : 𝐷𝑊= 𝑡=2 𝑇 𝑒 𝑡 − 𝑒 𝑡− 𝑡=1 𝑇 𝑒 𝑡 2 =2 1− 𝜌 + 𝑒 𝑒 𝑇 2 𝑡=1 𝑇 𝑒 𝑡 avec 𝜌 = 𝑡=2 𝑇 𝑒 𝑡 𝑒 𝑡−1 𝑡=1 𝑇 𝑒 𝑡 2 A démontrer … 𝜌 est un estimateur du coefficient d’autocorrélation d’ordre 1. * : DURBIN James et Geof S. WATSON (1950) : “Testing for serial correlation in least squares regression I”, Biometrika, 37, pp. 409–428. DURBIN James et Geof S. WATSON (1951) : “Testing for serial correlation in least squares regression II”, Biometrika, 38, pp. 159–177. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Approximativement on aura : 𝐷𝑊≅2 1− 𝜌 ou encore : 𝜌 ≅1− 𝐷𝑊 2 On peut ainsi estimer le coefficient d’autocorrélation d’ordre 1 𝜌 avec la statistique de DURBIN – WATSON… (Est-ce un estimateur convergent ?) A démontrer … La statistique 𝐷𝑊 est comprise entre 0 et 4 : 0≤𝐷𝑊≤4. avec une valeur 𝐷𝑊=2 en cas d’absence d’autocorrélation (𝜌=0). La statistique 𝐷𝑊 tend vers 0 lorsque le coefficient d’autocorrélation tend vers 1. La statistique 𝐷𝑊 tend vers 4 lorsque le coefficient d’autocorrélation tend vers – 1. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

La distribution du 𝐷𝑊, sous l’hypothèse nulle 𝐻 0 :𝜌=0, dépend : du nombre d’observations (𝑇) du nombre de variables explicatives (𝐾) du processus stochastique des variables explicatives (𝑿)  chaque régression a donc une distribution différente sous l’hypothèse nulle Durbin et Watson ont calculé en 1951 deux distributions qui encadrent la vraie distribution inconnue : 𝐹 𝐿 𝐷𝑊;𝑇,𝐾 ↔ 𝐹 𝐷𝑊 ↔ 𝐹 𝑈 𝐷𝑊;𝑇,𝐾 Ils ont aussi calculé les tables donnant les quantiles à 2.5% et 97.5% de ces deux distributions pour différentes tailles d’échantillons et nombre de régresseurs ! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Exemple Distribution Haute 𝐹 𝑈 𝐷𝑊;𝑇,𝐾 Vraie Distribution (inconnue) Distribution Basse 𝐹 𝐷𝑊 𝐹 𝐿 𝐷𝑊;𝑇,𝐾 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

𝑓 𝐿 𝐷𝑊;𝑇,𝐾 𝑓 𝑈 𝐷𝑊;𝑇,𝐾 𝑓 𝐷𝑊 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Si on zoome sur l’intervalle 0.6 à 2.4 pour 𝑇 = 20 et 𝐾 = 4 : Quantile Quantile 𝑑 𝑈 ∗ =1.676 𝑑 𝐿 ∗ =0.998 DOUTE Rejet H0 Accepter H0 Vrai Quantile 𝑑 𝐸𝑥𝑎𝑐𝑡 ∗ =1.337 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

On aura la règle de décision suivante après le calcul de la statistique 𝐷𝑊 et les valeurs critiques des tables 𝑑 𝐿 ∗ et 𝑑 𝑈 ∗ pour un niveau de test de a % : Rejetter H0 Rejetter H0 Accepter H0 Doute Doute 2 4 𝑑 𝐿 ∗ 𝑑 𝑈 ∗ 4−𝑑 𝑈 ∗ 4−𝑑 𝐿 ∗ Autocorrélation Positive : 𝜌 >0 Autocorrélation Négative : 𝜌<0 Pas d’Auto- corrélation : 𝜌=0 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Zone de Doute Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

VIII.6. Un exemple La consommation de tabac en France (1951 – 2009) Séries temporelles annuelles : 59 observations. VARIABLES : log 𝐶𝑇𝐴𝐵 : log de la consommation de tabac en gr/jour/personne log 𝑃𝑅𝐸𝐿 : log du prix relatif du Tabac (Prix du Tabac/Prix à la conso.) log 𝑅𝐷𝑅𝐻 : log du Revenu disponible réel par habitant MODELE : spécification double – log → élasticité de la demande log 𝐶𝑇𝐴𝐵 𝑡 = 𝛽 1 + 𝛽 2 log 𝑃𝑅𝐸𝐿 𝑡 + 𝛽 3 log 𝑅𝐷𝑅𝐻 𝑡 + 𝑢 𝑡 Estimation sur la période : 1960 – 2009 (50 obs.) Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Graphiques (log des variables)

Corrélogramme de log(CTAB)

Tests d’autocorrelation de Breusch-Godfrey
𝑒 𝑡 = 𝜆 1 𝑒 𝑡−1 + 𝜆 2 𝑒 𝑡−2 +…+ 𝜆 𝐿 𝑒 𝑡−𝐿 + 𝒙 𝑡 ′ 𝜸+ 𝜈 𝑡 . estat bgodfrey, lags(1/4) Breusch-Godfrey LM test for autocorrelation lags(p) | chi df Prob > chi2 1 | 2 | 3 | 4 | H0: no serial correlation . estat bgodfrey, small lags(1/4) Breusch-Godfrey LM test for autocorrelation lags(p) | F df Prob > F 1 | ( 1, 46 ) 2 | ( 2, 45 ) 3 | ( 3, 44 ) 4 | ( 4, 43 ) H0: no serial correlation Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Tests d’autocorrelation Q de Ljung-Box
. corrgram res, yw LAG AC PAC Q Prob>Q [Autocorrelation] [Partial Autocor] | |------ | | | | | | | | | | | |- | | | | | | Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Graphiques des résidus et des valeurs prédites

Comparaison des estimateurs MCO et MCQG
Variable | MCO MCO_NW lprel | | | lrdrh | | _cons | | rho | N | rmse | r2 | r2_a | dw | legend: b/se MCO : MCO avec var.-covar. classique MCO_NW : MCO avec var.-covar. de Newey-West (5 retards) Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Variable | MCO MCO_NW CORC PRAIS DW lprel | | | lrdrh | | _cons | | rho | N | rmse | r2 | r2_a | dw | legend: b/se MCO : MCO avec var.-covar. classique MCO_NW : MCO avec var.-covar. de Newey-West (5 retards) CORC : Méthode de Cochrane-Orcutt (initiale) PRAIS : Méthode de Prais-Winsten (avec correction de Theil) DW : Méthode de Prais-Winsten (sur la base du Durbin-Watson)

Variable | MCO MCO_NW CORC PRAIS DW CORC_it PRAIS_it DW_it lprel | | | lrdrh | | _cons | | rho | N | rmse | r2 | r2_a | dw | legend: b/se MCO : MCO avec var.-covar. classique MCO_NW : MCO avec var.-covar. de Newey-West (5 retards) CORC : Méthode de Cochrane-Orcutt (initiale) PRAIS : Méthode de Prais-Winsten (avec correction de Theil) DW : Méthode de Prais-Winsten (sur la base du Durbin-Watson) CORC_it : Méthode de Cochrane-Orcutt itérée PRAIS_it : Méthode de Prais-Winsten itérée (avec correction de Theil) DW_it : Méthode de Prais-Winsten itérée (sur la base du Durbin-Watson)

VIII.7. Remarques sur les processus non stationnaires
Supposons un modèle dynamique sans variables explicatives : 𝑦 𝑡 =𝜆 𝑦 𝑡−1 + 𝜀 𝑡 𝑎𝑣𝑒𝑐 𝜀 𝑡 ≈𝑖.𝑖.𝑑. 0 , 𝜎 2 Si le paramètre 𝜆=1 ou 𝜆=−1, la variable 𝑦 n’est pas stationnaire ! En effet on peut réécrire ce processus stochastique comme la somme des aléas passés (pour 𝜆=1) : 𝑦 𝑡 = 𝑠=1 𝑡 𝜆 𝑡−𝑠 𝜀 𝑠 = 𝑠=1 𝑡 𝜀 𝑠 Il est évident que son espérance est nulle pour toutes les observations : 𝐸 𝑦 𝑡 =0. Mais sa variance ne cesse d’augmenter avec le temps : 𝑉 𝑦 𝑡 = 𝑠=1 𝑡 𝑉 𝜀 𝑠 =𝑡× 𝜎 2 ! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Les autocovariances d’ordre 𝑝 sont : 𝐸 𝑦 𝑡 𝑦 𝑡−𝑝 = 𝑡−𝑝 𝜎 2 et les autocorrélations d’ordre 𝑝 : 𝜌 𝑝 = 𝑡−𝑝 𝑡 𝑡−𝑝 = 𝑡−𝑝 𝑡 = 1− 𝑝 𝑡 Ces autocorrélations diminuent avec leur ordre en échantillon fini. Mais on peut constater que ces autocorrélations tendent asymptotiquement vers 1 quel que soir leur ordre 𝑝 ! lim 𝑡→∞ 𝜌 𝑝 = lim 𝑡→∞ 𝑡−𝑝 𝑡 𝑡−𝑝 =1 , pour tout 𝑝 Ce processus non stationnaire est appelé une marche aléatoire (random walk) (voir Chapitre IV) : 𝑦 𝑡 = 𝑦 𝑡−1 + 𝜀 𝑡 𝑎𝑣𝑒𝑐 𝜀 𝑡 ≈𝑖.𝑖.𝑑. 0 , 𝜎 2 Remarquez que le processus pour la différence première est stationnaire (bruit blanc) ! 𝑦 𝑡 − 𝑦 𝑡−1 =∆ 𝑦 𝑡 = 𝜀 𝑡 𝑎𝑣𝑒𝑐 𝜀 𝑡 ≈𝑖.𝑖.𝑑. 0 , 𝜎 2 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

On peut construire des marches aléatoires très facilement.
Par exemple, on a 2 processus stochastique indépendants qui sont des marches aléatoires définies par : 𝑥 𝑡 = 𝑥 𝑡−1 + 𝜂 𝑡 𝑦 𝑡 = 𝑦 𝑡−1 + 𝜈 𝑡 → 𝜂 𝑡 𝜈 𝑡 ≈𝑖.𝑖.𝑑 , 𝜎 𝜂 𝜎 𝜈 2 La corrélation entre ces deux séries est de 41%, alors que ces deux processus stochastique 𝑥 et 𝑦 sont par construction non corrélés !

Simulation de Monte-Carlo :
On sait depuis 1926 par l’Ecossais George U. YULE ( ) que, dans ce cas, la corrélation empirique entre ces 2 variables est très (trop) souvent élevée* … …du fait de la non stationnarité des variables. Simulation de Monte-Carlo : On effectue simulations de ce modèle pour 100 observations. On calcule à chaque fois le coefficient de corrélation 𝜌 . . su RHO, detail r(R) Percentiles Smallest 1% 5% 10% Obs 25% Sum of Wgt 50% Mean Largest Std. Dev 75% 90% Variance 95% Skewness 99% Kurtosis * : YULE, George U. (1926) : “Why do we Sometimes get Nonsense Correlations between Time-Series? A Study in Sampling and the Nature of Time-Series”, Journal of the Royal Statistical Society, 89(1), pp

Remarquez que la moyenne et la médiane sont quasiment nulles (<= 1%).
Mais l’écart-type est très élevé (0.49) … Un manuel de statistique de base (p. ex SAPORTA, 2006) nous indique pourtant que si la vraie corrélation est nulle, l’écart – type de 𝜌 serait pourtant : au lieu de 0.49 dans notre simulation !!! Et très loin d’une distribution normale autour de 0 !!!

De plus si on fait une régression simple de 𝑦 sur 𝑥 : 𝑦 𝑡 = 𝛽 1 + 𝛽 2 𝑥 𝑡 + 𝜀 𝑡 alors que ces 2 variables sont indépendantes, le paramètre 𝛽 2 estimé par moindres carrés ne converge pas en probabilité vers zéro !!! 𝛽 2 = 𝑡=1 𝑇 𝑥 𝑡 − 𝑥 𝑦 𝑡 − 𝑦 𝑡=1 𝑇 𝑥 𝑡 − 𝑥 𝑝 𝛽 2 =0 Le paramètre estimé sera trop souvent significativement différent de zéro ! Et pire encore, ajouter des observations à l’échantillon, ne résoud pas le problème parce que asymptotiquement : 𝑡 𝛽 2 =0 = 𝛽 2 𝑠 𝛽 ⇒ Pr 𝑡 𝛽 2 =0 > 𝑡 1− 𝛼 2 𝑇−2 𝑇→∞ 1 𝛽 2 significatif C’est le problème des régressions fallacieuses (spurious regressions). Voir Clive GRANGER et Paul NEWBOLD : « Spurious Regressions in Econometrics », Journal of Econometrics, 2(2), July 1974, pp. 111 – 120. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Simulation de Monte-Carlo : On simule les 2 processus stochastiques non stationnaires et indépendants comme précédemment (marches aléatoires) pour 𝑇=100 observations. On fait une régression de 𝑦 sur 𝑥 : 𝑦 𝑡 = 𝛽 1 + 𝛽 2 𝑥 𝑡 + 𝜀 𝑡 Théoriquement on devrait avoir 𝛽 1 =0 et 𝛽 2 =0. On considère alors la distribution de 𝛽 2 sur essais. Statistiques descriptives Histogramme On calcule aussi le nombre de fois où 𝛽 2 est significativement différent de zéro (pour un niveau de test de 𝛼=5%, c’est-à-dire : 𝑡 𝛽 2 =0 = 𝛽 2 𝑠 𝛽 > 𝑡 =1.9845 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Régression entre 2 variables non stationnaires
. su BETA2, detail r(b2) Percentiles Smallest 1% 5% 10% Obs 25% Sum of Wgt 50% Mean Largest Std. Dev 75% 90% Variance 95% Skewness 99% Kurtosis Remarquez que la moyenne (0.006) et la médiane (0.003) du paramètre estimé sont quasiment nulles. Mais l’écart-type est encore très élevé (0.627) … La dispersion du paramètre estimé est trop grande compte tenu de la théorie asymptotique standard… Il y a 80 % de cas où l’estimation est comprise entre et ! Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Histogramme du paramètre estimé dans un modèle non stationnaire
Dans 83 % des cas, ce paramètre est significativement différent de zéro ! (pour un niveau de test de 5%)

Comme beaucoup de variables macroéconomiques ressemblent à des variables non stationnaires (des marches aléatoires), il faut faire attention à ces régressions fallacieuses. Voir un cours de séries temporelles Tests de non-stationnarité  intégration Procédures d’estimation  cointégration Pour un résumé, voir l’article de P. C. B. PHILLIPS (« Understanding Spurious Regressions in Econometrics », Journal of Econometrics, 33(3), December 1986, pp. 311 – 340) Dans la pratique, on doit être prudent lorsque le paramètre de 𝑦 𝑡−1 dans une régression est proche de 1 (supérieur à 0.80 ou 0.90 par exemple). Dans ce cas, il est préférable de considérer une régression en différences premières sur les données stationnaires : 𝑦 𝑡 =𝛼+𝜆 𝑦 𝑡−1 + 𝒙 𝑡 ′ 𝜷+ 𝜀 𝑡 → ∆ 𝑦 𝑡 =𝜆∆ 𝑦 𝑡−1 + ∆𝒙 𝑡 ′ 𝜷+∆ 𝜀 𝑡 Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Mais des méthodes plus rigoureuses (co-intégration) seraient préférables… Voir par exemple l’article fondateur sur la cointégration de Robert ENGLE (1942- ) et Clive GRANGER ( ) : « Co-integration and Error Correction: Representation, Estimation and Testing », Econometrica, 55, 1987, pp Ces méthodes peuvent être abordées dans un cours plus approfondi d’économétrie des séries temporelles. Benoît MULKAY Université de Montpellier Econométrie (M1) Chapitre 8 (2019 – 2020)

Chapitre VIII : L’Autocorrélation des erreurs

Présentations similaires

Présentation au sujet: "Chapitre VIII : L’Autocorrélation des erreurs"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Chapitre VIII : L’Autocorrélation des erreurs

Présentations similaires

Présentation au sujet: "Chapitre VIII : L’Autocorrélation des erreurs"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back