Régression linéaire (STT-2400) Section 3 Interprétation des paramètres, paramétrisation et problèmes de surparamétrisation Version: 21 janvier 2007
Interprétation des paramètres Exemple des données sur l’essence: On a déjà vu que la fonction moyenne ajustée était: On a vu que chaque coefficient avait pour interprétation « l’augmentation dans la réponse moyenne lorsque le préviseur associé augmente de une unité, gardant tous les autres préviseurs fixés ». STT-2400; Régression linéaire
Système d’unité des paramètres On note que puisque la variable « Fuel » est exprimé en gallons, alors l’ordonnée à l’origine 154.19 est exprimé en gallons. Puisque la variable « Income » est en milliers de dollars, alors coefficient -6.14 est en gallons/(milliers de dollars de revenu). De même, « Tax » est en sous, donc -4.23 est en gallons/(sous de la variable taxe): augmenter la variable « Tax » de un sous devrait faire décroître la consommation d’essence, tous les autres préviseurs étant gardés fixés, de 4.23 gallons par personne. STT-2400; Régression linéaire
Observation versus expérimentation Il faut cependant demeurer prudent avec l’interprétation usuelle des coefficients de régression. Deux grandes situations peuvent survenir en pratique concernant les préviseurs: Les valeurs prises par les préviseurs sont contrôlées par le statisticien: on parle alors d’expérimentation. Les valeurs prises par les préviseurs sont observées par le statisticien, comme en fait l’est la variable réponse. STT-2400; Régression linéaire
Données sur l’essence: les préviseurs étaient en fait observés Puisque les valeurs prises par les préviseurs n’étaient pas sous le contrôle du statisticien, les préviseurs étaient observés. Nous ne sommes donc pas assuré que l’on peut augmenter un préviseur d’une unité tout en gardant les autres fixés puisqu’il n’y a pas de garantie que les données s’appliquent lorsque le préviseur est ainsi changé. On dira que l’on peut étudier des associations entre les variables, mais pas la causalité. STT-2400; Régression linéaire
STT-2400; Régression linéaire Données sur l’essence Ainsi, il serait plus approprié de dire qu’un changement de une unité de la variable « log(Miles) » est associé avec une augmentation de 18.55 gallons par personne en consommation d’essence. Un intérêt du log en base 2 (comme ici): si la variable « Miles » double, alors la consommation d’essence augmente de 18.55 gallons par personne. Puisque log2(x) = log10(x) / log10(2), réexprimer en base 10 la variable « log(Miles) » donnerait: STT-2400; Régression linéaire
Échelle logarithmique pour un préviseur Considérons la fonction moyenne: Pour obtenir l’interprétation comme un taux de changement, il suffit de dériver par rapport à x: STT-2400; Régression linéaire
Échelle logarithmique pour un préviseur (suite) Si la fonction moyenne est maintenant: La dérivée par rapport à x est simplement: Ceci suggère, par exemple pour les données sur l’essence, que les effets de changements de « Miles » sur la fonction moyenne sont plus importants pour de petites valeurs de « Miles » et qu’ils deviennent moins importants à mesure que « Miles » augmente. STT-2400; Régression linéaire
Échelle logarithmique pour la variable réponse On peut faire une analyse similaire pour la fonction moyenne suivante: Si l’approximation suivante est bonne: On trouve alors: Autrement formulé: STT-2400; Régression linéaire
Signes des coefficients Il est bien de souligner que le signe des coefficients amène naturellement une interprétation entre le préviseur et la variable réponse. Ce qui est embêtant en pratique est que si des préviseurs sont relativement corrélés, alors le signe d’un coefficient estimé peut changer tout dépendant des autres préviseurs inclus dans le modèle. Il est recommandé de choisir des préviseurs qui ont un sens et qui par conséquent sont plus faciles à interpréter. STT-2400; Régression linéaire
Exemple: Étude de Berkeley Les données de l’étude Berkeley Guidance Study portent sur la croissance de garçons et filles. On se concentre sur les variables suivantes: Soma: variable discrète, allant de un (très mince) à sept (obésité) prise à l’âge de 18 ans. WT2 = poids à deux ans; WT9 = poids à neuf ans; WT18 = poids à dix-nuit ans. STT-2400; Régression linéaire
Étude de Berkeley (suite) Commandes SAS pour un premier ajustement: data BGS; set alr3.BGSgirls; DW9 = WT9-WT2; DW18 = WT18-WT9; run; proc reg data=BGS; model Soma = WT2 WT9 WT18; STT-2400; Régression linéaire
Étude de Berkeley (suite) Commandes SAS pour un second ajustement: data BGS; set alr3.BGSgirls; DW9 = WT9 - WT2; DW18 = WT18 - WT9; run; proc reg data=BGS; model Soma = WT2 DW9 DW18; STT-2400; Régression linéaire
Paramétrisation et problèmes de sur-paramétrisation L’exemple précédent illustre qu’il est parfois souhaitable de reparamétriser les préviseurs afin de gagner potentiellement en interprétation. Il faut faire attention à l’ajout d’un trop grand nombre de combinaisons linéaires des préviseurs. Si la matrice de design a un rang de p+1 avec p préviseurs, on note que l’on peut considérer que p combinaisons linéaires linéairement indépendantes des préviseurs. STT-2400; Régression linéaire
Exemple: sur-paramétrisation avec SAS data BGS; set alr3.BGSgirls; DW9 = WT9-WT2; DW18 = WT18-WT9; run; proc reg data=BGS; model Soma = WT2 DW9 DW18 WT9 WT18; STT-2400; Régression linéaire
Exemple d’un problème fréquent de sur-paramétrisation Exemple: Supposons que la variable réponse consiste de la réaction à un certain traitement. De plus, trois traitements différents sont administrés à trois groupes. On pose X1 = 1 si l’unité est dans le groupe un. On pose X2 = 1 si l’unité est dans le groupe deux. On pose X3 = 3 si l’unité est dans le groupe trois. On considère la fonction moyenne: STT-2400; Régression linéaire
Solutions à ce genre de problèmes Puisque la somme de X1, X2 et X3 donne la colonne de uns dans la matrice de design, la matrice de design X n’est pas de plein rang. Pour contrer cela, on peut opter pour une des options suivantes: 1) Considérer la contrainte b1 + b2 + b3 = 1; 2) Ou exclure un des Xi du modèle; 3) Ou retirer le terme constant b0; Toutes ces paramétrisations sont équivalentes, mais l’interprétation des paramètres n’est pas la même. STT-2400; Régression linéaire