E CONOMÉTRIE A PPLIQUÉE AVEC R (P ART 03) R. Aloui 2015/2016 Disponible sur
Régression Linéaire Multiple Introduction La modélisation de la concentration d’ozone en fonction de la température (chapitre 2) est relativement simpliste. D’autres variables météorologiques: rayonnement, la précipitation ou encore le vent… Le modèle de régression multiple est une généralisation du modèle de régression simple.
Régression Linéaire Multiple En utilisant l’écriture matricielle, nous obtenons la définition suivante :
Modélisation Statistique
Résidus et variance résiduelle Les résidus sont définis par la relation suivante : Un estimateur de la variance des erreurs Un estimateur de la variance des erreurs de Modélisation Statistique
Le : plus nous augmentons le nombre de variables explicatives, même non pertinentes, plus grande sera sa valeur. Le ajusté: Modélisation Statistique
Nous expliquons les variations de l’ozone (O3) par deux variables explicatives, la température à 12 h (T12) et le vent (Vx). 1- Importer les données dans ozone_full.csv 2- représenter O3 en fonction de T12 et Vx Télécharger le package Scatterplot3d (Cran) 2.2- library(scatterplot3d) g Exemple: La pollution de l'air
> library("scatterplot3d") > scatterplot3d (ozone[,"T12"], ozone[,"Vx"], ozone[,"O3"], type="h", pch=16, box=FALSE, xlab="T12", ylab="Vx", zlab="O3") Exemple: La pollution de l'air
Soit le modèle de régression suivant: Pour estimer les paramètres du modèle Nous avons ajouté la variable Vx au modèle présenté dans le chapitre 2, cet ajout est-il pertinent ? Exemple: La pollution de l'air
Dummy Variable -Une variable indicatrice D (dummy) prend les valeurs 0 ou 1. -Utilisation: 1.Corriger les écarts aberrants (ou déviants) ; 2.Capter la présence de la discrimination ; 3.Capter les variations saisonnières. -les facteurs qualitatifs : la race, le sexe, la religion ou un événement tel qu’une guerre, une grève, un tsunami, etc.
Dummy Variable Exemple: Il y’a un écart criant au 13 février!!! -Tracer le nuage du point -Estimer les coefficients de la droite y=ax+b. Ajouter la droite au même graphique précédant. -Les paramètres de la regression sont-ils significatifs? Interpréter la valeur du coefficient de détermination.
Dummy Variable
-la valeur aberrante (outliers) a complètement perturbé l’estimation. -Solution: variable Dummy! -Créer la variable D. - Estimer le modèle - Les paramètres sont-ils significatifs?
Saisonnalité -Une entreprise cherche à appréhender une relation entre ses ventes et ses dépenses publicitaires. Le directeur du marketing dispose des données de ventes et de dépenses publicitaires sur 5 ans par trimestre.
Saisonnalité -Le directeur du marketing commence par estimer la relation : -Tracer le graphique de la série des ventes et de la publicité dans le même graphique, que pouvez-vous en conclure ? -Spécifier et estimer le modèle adéquat.
Saisonnalité Mouvement saisonnier T3 (Ventes).
The 1988 Population Survey (CPS) - The US Census Bureau CPS1988.csv (Bierens and Ginther, 2001) contains 28,155 observations: wage is the wage in dollars per week, education and experience are measured in years, and ethnicity is a factor with levels Caucasian ("cauc") and African-American ("afam"). The factors, smsa, region, and parttime, indicating residence in a standard metropolitan statistical area (SMSA), the region within the United States of America, and whether the individual works part-time. Compute the mean, minimum, maximum and the median of the data.
The 1988 Population Survey (CPS) - The US Census Bureau The model of interest is Estimate the model using ordinary least squares (OLS), Are the coefficients estimates significant at 1% level?
> cps_lm <- lm(log(wage) ~ experience + I(experience^2) + education + ethnicity, data = CPS1988) To avoid confusion, the function I() is used so that the operator ^ has its original arithmetic meaning. > summary(cps_lm) What about the variable ethnicity?
Comparison of models l’inconvénient du : ne pas arbitrer entre la perte de degrés de liberté du modèle et l’ajustement qui en résulte.
Comparison of models Comparer les deux modèles suivants:
A NNEXE