Introduction à léconométrie Mario Fortin Université de Sherbrooke Hiver 2009
Chapitre 2 La nature du modèle de régression à deux variables
2.1 Historique du modèle et interprétation actuelle Dans une publication datée de 1885, Galton[1] remarqua que les parents de grande (petite) taille avaient tendance à avoir des enfants grands (petits).[1] Cependant, la taille des enfants avait tendance à se rapprocher de la taille moyenne de la population. Autrement dit, même si les enfants des grandes (petites) personnes tendaient à être plus grands (petits) que la moyenne de la population, ils nétaient en général pas aussi grands (petits) que leurs parents. Cest ce quil appela une tendance à régresser vers la moyenne (quil appelait, sans être péjoratif, la médiocrité). De manière algébrique, on dirait que si x est la taille des parents et y la taille des enfants, Galton a établi une relation statistique de type y = β 1 + β 2 x + u avec 0 < β 2 < 1, ce coefficient impliquant une régression vers la moyenne. [1][1] Galton, Francis, Rate of Regression in Heriditary Stature"Journal of the Anthropological Institute, vol. 15 (1885).
Interprétation actuelle du coefficient de régression Le terme « régression » a aujourdhui un sens plus large puisque lanalyse de régression vise à trouver la dépendance dune variable par rapport à une ou plusieurs variables explicatives. Le coefficient de régression est un terme qui, dans les faits, mesure leffet de la variable explicative x sur la variable dépendante y. Ce coefficient permet de voir comment le changements de valeur de la variable explicative, ici la taille des parents, modifie lespérance de réalisation de la variable dépendante, soit la taille de la descendance.
Analyse bivariée et multivariée Bien quinitialement confinée à une analyse dans laquelle une seule variable explicative était prise en compte, ce type danalyse peut être élargi pour prendre en compte simultanément plusieurs variables explicatives, soit une analyse multivariée que nous verrons à compter du chapitre 5. Jusque là, nous allons nous restreindre à la situation où une seule variable explicative influence la variable dépendante, soit une analyse bivariée. Ex. 1. Poids en fonction de lâge (augmente à cause de la croissance puis à cause de lobésité) 2. Taux dinflation vs taux de chômage. 3. Taux de fréquentation universitaire vs revenu des parents. 4. Coût de la garde denfants et taux dactivité des mères. 5. Prix de lessence et consommation moyenne des véhicules.
2.2 Le modèle linéaire dans les paramètres Lanalyse de régression à deux variables cherche à trouver le lien statistique entre x et y appelé le coefficient de régression. Nous verrons ultérieurement que ce coefficient est lié au degré de corrélation entre x et y. Pour que lanalyse de régression se fasse correctement, il faut toutefois sassurer davoir un modèle linéaire dans les paramètres. Définition : Un modèle est linéaire dans les paramètres si y ou une de ses transformations peut être écrite comme une fonction linéaire de x, ou dune de ses transformations.
Indépendance et corrélation entre des variables Pour comprendre le sens de cette définition et son importance, faisons appel à vos connaissances antérieures en statistique. Vous avez sans doute appris que lindépendance entre deux variables implique que ces variables ne sont pas corrélées, mais quà linverse une corrélation nulle nimplique pas lindépendance. Pourquoi labsence de corrélation nimplique-t-elle pas lindépendance? Pour le comprendre, rappelons que la corrélation mesure la tendance quont deux variables à séloigner simultanément et dans les mêmes proportions de leur valeur moyenne.
Formule de la corrélation Dans un échantillon la corrélation r est mesurée par : La covariance échantillonale est le numérateur de la formule 1 tandis quau dénominateur on trouve les écarts-types de x et y. En divisant la covariance par le produit des écarts-types, on ajuste la covariance pour faire abstraction des unités de mesure de x et y. La corrélation est donc un nombre pur (sans unité de mesure) borné entre -1 et +1 qui est invariant même si on change les unités pour mesurer les valeurs des variables. Une corrélation positive (négative) signifie que x et y tendent à séloigner simultanément dans la même direction (direction opposée) de leur moyenne (voir la figure 2.1). En plaçant les écarts à la moyenne sur le plan cartésien, cela se produit si la valeur des produits des couples (x, y) dans le 1er et le 3ème cadran est supérieure (inférieure) à celle des couples dans le 2ème et le 4ème cadran
Variables corrélées positivement Si les proportions déloignement par rapport à la moyenne sont exactement les mêmes, cest-à-dire quen doublant léloignement de x on double celui de y, la corrélation est dite parfaite (+1 ou -1). Les observations sont alors alignées sur une ligne droite de pente positive (négative), indépendamment de la pente. Si par contre les divergences des moyennes respectives des deux variables se produisent de manière aléatoire, le résultat de la somme au numérateur sapproche de zéro (les produits dont le résultat est positif tendant à annuler les résultats négatifs).
Variables dépendantes mais non corrélées La figure 2.2 montre une situation de covariance nulle car les produits dont le résultat est positif (1er et 3ème quadrant) annulent ceux ayant un résultat négatif (2ème et 4ème quadrant). Pourtant, une relation non-linéaire parfaite relie x et y. On a une illustration du fait que labsence de corrélation nimplique pas lindépendance mais seulement lindépendance linéaire.
Transformations de variables On peut cependant trouver le très fort lien non linéaire entre les deux variables en utilisant la corrélation linéaire à la condition quon transforme au préalable les variables. On sait que léquation générale dun cercle de rayon centré sur 0 est x 2 + y 2 = c et que par conséquent x = (c - y 2 ) ½. Si on définit z = (c - y 2 ) ½ on a alors x = z et les observations dans le plan (x, z) sont alignées sur une ligne droite (figure 2.3) ; il y a donc une corrélation parfaite entre x et z. Ainsi, même si la relation entre x et y nest pas linéaire, elle est linéarisable. Pour appliquer correctement lanalyse de régression il est indispensable de sassurer au départ quun lien linéaire existe entre les variables car autrement le coefficient de régression nindiquera pas correctement le lien entre les variables.
Transformations de variables
Exemples de relations linéarisables
La fonction quadratique est linéaire dans les paramètres
Fin du chapitre