Télécharger la présentation
1
Régression linéaire (STT-2400)
Section 3 Interprétation des paramètres, paramétrisation et problèmes de surparamétrisation Version: 21 janvier 2007
2
Interprétation des paramètres
Exemple des données sur l’essence: On a déjà vu que la fonction moyenne ajustée était: On a vu que chaque coefficient avait pour interprétation « l’augmentation dans la réponse moyenne lorsque le préviseur associé augmente de une unité, gardant tous les autres préviseurs fixés ». STT-2400; Régression linéaire
3
Système d’unité des paramètres
On note que puisque la variable « Fuel » est exprimé en gallons, alors l’ordonnée à l’origine est exprimé en gallons. Puisque la variable « Income » est en milliers de dollars, alors coefficient est en gallons/(milliers de dollars de revenu). De même, « Tax » est en sous, donc est en gallons/(sous de la variable taxe): augmenter la variable « Tax » de un sous devrait faire décroître la consommation d’essence, tous les autres préviseurs étant gardés fixés, de 4.23 gallons par personne. STT-2400; Régression linéaire
4
Observation versus expérimentation
Il faut cependant demeurer prudent avec l’interprétation usuelle des coefficients de régression. Deux grandes situations peuvent survenir en pratique concernant les préviseurs: Les valeurs prises par les préviseurs sont contrôlées par le statisticien: on parle alors d’expérimentation. Les valeurs prises par les préviseurs sont observées par le statisticien, comme en fait l’est la variable réponse. STT-2400; Régression linéaire
5
Données sur l’essence: les préviseurs étaient en fait observés
Puisque les valeurs prises par les préviseurs n’étaient pas sous le contrôle du statisticien, les préviseurs étaient observés. Nous ne sommes donc pas assuré que l’on peut augmenter un préviseur d’une unité tout en gardant les autres fixés puisqu’il n’y a pas de garantie que les données s’appliquent lorsque le préviseur est ainsi changé. On dira que l’on peut étudier des associations entre les variables, mais pas la causalité. STT-2400; Régression linéaire
6
STT-2400; Régression linéaire
Données sur l’essence Ainsi, il serait plus approprié de dire qu’un changement de une unité de la variable « log(Miles) » est associé avec une augmentation de gallons par personne en consommation d’essence. Un intérêt du log en base 2 (comme ici): si la variable « Miles » double, alors la consommation d’essence augmente de gallons par personne. Puisque log2(x) = log10(x) / log10(2), réexprimer en base 10 la variable « log(Miles) » donnerait: STT-2400; Régression linéaire
7
Échelle logarithmique pour un préviseur
Considérons la fonction moyenne: Pour obtenir l’interprétation comme un taux de changement, il suffit de dériver par rapport à x: STT-2400; Régression linéaire
8
Échelle logarithmique pour un préviseur (suite)
Si la fonction moyenne est maintenant: La dérivée par rapport à x est simplement: Ceci suggère, par exemple pour les données sur l’essence, que les effets de changements de « Miles » sur la fonction moyenne sont plus importants pour de petites valeurs de « Miles » et qu’ils deviennent moins importants à mesure que « Miles » augmente. STT-2400; Régression linéaire
9
Échelle logarithmique pour la variable réponse
On peut faire une analyse similaire pour la fonction moyenne suivante: Si l’approximation suivante est bonne: On trouve alors: Autrement formulé: STT-2400; Régression linéaire
10
Signes des coefficients
Il est bien de souligner que le signe des coefficients amène naturellement une interprétation entre le préviseur et la variable réponse. Ce qui est embêtant en pratique est que si des préviseurs sont relativement corrélés, alors le signe d’un coefficient estimé peut changer tout dépendant des autres préviseurs inclus dans le modèle. Il est recommandé de choisir des préviseurs qui ont un sens et qui par conséquent sont plus faciles à interpréter. STT-2400; Régression linéaire
11
Exemple: Étude de Berkeley
Les données de l’étude Berkeley Guidance Study portent sur la croissance de garçons et filles. On se concentre sur les variables suivantes: Soma: variable discrète, allant de un (très mince) à sept (obésité) prise à l’âge de 18 ans. WT2 = poids à deux ans; WT9 = poids à neuf ans; WT18 = poids à dix-nuit ans. STT-2400; Régression linéaire
12
Étude de Berkeley (suite)
Commandes SAS pour un premier ajustement: data BGS; set alr3.BGSgirls; DW9 = WT9-WT2; DW18 = WT18-WT9; run; proc reg data=BGS; model Soma = WT2 WT9 WT18; STT-2400; Régression linéaire
13
Étude de Berkeley (suite)
Commandes SAS pour un second ajustement: data BGS; set alr3.BGSgirls; DW9 = WT9 - WT2; DW18 = WT18 - WT9; run; proc reg data=BGS; model Soma = WT2 DW9 DW18; STT-2400; Régression linéaire
14
Paramétrisation et problèmes de sur-paramétrisation
L’exemple précédent illustre qu’il est parfois souhaitable de reparamétriser les préviseurs afin de gagner potentiellement en interprétation. Il faut faire attention à l’ajout d’un trop grand nombre de combinaisons linéaires des préviseurs. Si la matrice de design a un rang de p+1 avec p préviseurs, on note que l’on peut considérer que p combinaisons linéaires linéairement indépendantes des préviseurs. STT-2400; Régression linéaire
15
Exemple: sur-paramétrisation avec SAS
data BGS; set alr3.BGSgirls; DW9 = WT9-WT2; DW18 = WT18-WT9; run; proc reg data=BGS; model Soma = WT2 DW9 DW18 WT9 WT18; STT-2400; Régression linéaire
16
Exemple d’un problème fréquent de sur-paramétrisation
Exemple: Supposons que la variable réponse consiste de la réaction à un certain traitement. De plus, trois traitements différents sont administrés à trois groupes. On pose X1 = 1 si l’unité est dans le groupe un. On pose X2 = 1 si l’unité est dans le groupe deux. On pose X3 = 3 si l’unité est dans le groupe trois. On considère la fonction moyenne: STT-2400; Régression linéaire
17
Solutions à ce genre de problèmes
Puisque la somme de X1, X2 et X3 donne la colonne de uns dans la matrice de design, la matrice de design X n’est pas de plein rang. Pour contrer cela, on peut opter pour une des options suivantes: 1) Considérer la contrainte b1 + b2 + b3 = 1; 2) Ou exclure un des Xi du modèle; 3) Ou retirer le terme constant b0; Toutes ces paramétrisations sont équivalentes, mais l’interprétation des paramètres n’est pas la même. STT-2400; Régression linéaire
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.