La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Régression linéaire (STT-2400) Section 3 Interprétation des paramètres, paramétrisation et problèmes de surparamétrisation Version: 21 janvier 2007.

Présentations similaires


Présentation au sujet: "Régression linéaire (STT-2400) Section 3 Interprétation des paramètres, paramétrisation et problèmes de surparamétrisation Version: 21 janvier 2007."— Transcription de la présentation:

1 Régression linéaire (STT-2400) Section 3 Interprétation des paramètres, paramétrisation et problèmes de surparamétrisation Version: 21 janvier 2007

2 STT-2400; Régression linéaire 2 Interprétation des paramètres Exemple des données sur lessence: On a déjà vu que la fonction moyenne ajustée était: On a vu que chaque coefficient avait pour interprétation « laugmentation dans la réponse moyenne lorsque le préviseur associé augmente de une unité, gardant tous les autres préviseurs fixés ».

3 STT-2400; Régression linéaire 3 Système dunité des paramètres On note que puisque la variable « Fuel » est exprimé en gallons, alors lordonnée à lorigine est exprimé en gallons. Puisque la variable « Income » est en milliers de dollars, alors coefficient est en gallons/(milliers de dollars de revenu). De même, « Tax » est en sous, donc est en gallons/(sous de la variable taxe): augmenter la variable « Tax » de un sous devrait faire décroître la consommation dessence, tous les autres préviseurs étant gardés fixés, de 4.23 gallons par personne.

4 STT-2400; Régression linéaire 4 Observation versus expérimentation Il faut cependant demeurer prudent avec linterprétation usuelle des coefficients de régression. Deux grandes situations peuvent survenir en pratique concernant les préviseurs: – Les valeurs prises par les préviseurs sont contrôlées par le statisticien: on parle alors dexpérimentation. – Les valeurs prises par les préviseurs sont observées par le statisticien, comme en fait lest la variable réponse.

5 STT-2400; Régression linéaire 5 Données sur lessence: les préviseurs étaient en fait observés Puisque les valeurs prises par les préviseurs nétaient pas sous le contrôle du statisticien, les préviseurs étaient observés. Nous ne sommes donc pas assuré que lon peut augmenter un préviseur dune unité tout en gardant les autres fixés puisquil ny a pas de garantie que les données sappliquent lorsque le préviseur est ainsi changé. On dira que lon peut étudier des associations entre les variables, mais pas la causalité.

6 STT-2400; Régression linéaire 6 Données sur lessence Ainsi, il serait plus approprié de dire quun changement de une unité de la variable « log(Miles) » est associé avec une augmentation de gallons par personne en consommation dessence. Un intérêt du log en base 2 (comme ici): si la variable « Miles » double, alors la consommation dessence augmente de gallons par personne. Puisque log 2 (x) = log 10 (x) / log 10 (2), réexprimer en base 10 la variable « log(Miles) » donnerait:

7 STT-2400; Régression linéaire 7 Échelle logarithmique pour un préviseur Considérons la fonction moyenne: Pour obtenir linterprétation comme un taux de changement, il suffit de dériver par rapport à x:

8 STT-2400; Régression linéaire 8 Échelle logarithmique pour un préviseur (suite) Si la fonction moyenne est maintenant: La dérivée par rapport à x est simplement: Ceci suggère, par exemple pour les données sur lessence, que les effets de changements de « Miles » sur la fonction moyenne sont plus importants pour de petites valeurs de « Miles » et quils deviennent moins importants à mesure que « Miles » augmente.

9 STT-2400; Régression linéaire 9 Échelle logarithmique pour la variable réponse On peut faire une analyse similaire pour la fonction moyenne suivante: Si lapproximation suivante est bonne: On trouve alors: Autrement formulé:

10 STT-2400; Régression linéaire 10 Signes des coefficients Il est bien de souligner que le signe des coefficients amène naturellement une interprétation entre le préviseur et la variable réponse. Ce qui est embêtant en pratique est que si des préviseurs sont relativement corrélés, alors le signe dun coefficient estimé peut changer tout dépendant des autres préviseurs inclus dans le modèle. Il est recommandé de choisir des préviseurs qui ont un sens et qui par conséquent sont plus faciles à interpréter.

11 STT-2400; Régression linéaire 11 Exemple: Étude de Berkeley Les données de létude Berkeley Guidance Study portent sur la croissance de garçons et filles. On se concentre sur les variables suivantes: Soma: variable discrète, allant de un (très mince) à sept (obésité) prise à lâge de 18 ans. WT2 = poids à deux ans; WT9 = poids à neuf ans; WT18 = poids à dix-nuit ans.

12 STT-2400; Régression linéaire 12 Étude de Berkeley (suite) Commandes SAS pour un premier ajustement: data BGS; set alr3.BGSgirls; DW9 = WT9-WT2; DW18 = WT18-WT9; run; proc reg data=BGS; model Soma = WT2 WT9 WT18; run;

13 STT-2400; Régression linéaire 13 Étude de Berkeley (suite) Commandes SAS pour un second ajustement: data BGS; set alr3.BGSgirls; DW9 = WT9 - WT2; DW18 = WT18 - WT9; run; proc reg data=BGS; model Soma = WT2 DW9 DW18; run;

14 STT-2400; Régression linéaire 14 Paramétrisation et problèmes de sur-paramétrisation Lexemple précédent illustre quil est parfois souhaitable de reparamétriser les préviseurs afin de gagner potentiellement en interprétation. Il faut faire attention à lajout dun trop grand nombre de combinaisons linéaires des préviseurs. Si la matrice de design a un rang de p+1 avec p préviseurs, on note que lon peut considérer que p combinaisons linéaires linéairement indépendantes des préviseurs.

15 STT-2400; Régression linéaire 15 Exemple: sur-paramétrisation avec SAS data BGS; set alr3.BGSgirls; DW9 = WT9-WT2; DW18 = WT18-WT9; run; proc reg data=BGS; model Soma = WT2 DW9 DW18 WT9 WT18; run;

16 STT-2400; Régression linéaire 16 Exemple dun problème fréquent de sur-paramétrisation Exemple: Supposons que la variable réponse consiste de la réaction à un certain traitement. De plus, trois traitements différents sont administrés à trois groupes. On pose X 1 = 1 si lunité est dans le groupe un. On pose X 2 = 1 si lunité est dans le groupe deux. On pose X 3 = 3 si lunité est dans le groupe trois. On considère la fonction moyenne:

17 STT-2400; Régression linéaire 17 Solutions à ce genre de problèmes Puisque la somme de X 1, X 2 et X 3 donne la colonne de uns dans la matrice de design, la matrice de design X nest pas de plein rang. Pour contrer cela, on peut opter pour une des options suivantes: 1)Considérer la contrainte = 1; 2)Ou exclure un des X i du modèle; 3)Ou retirer le terme constant 0; Toutes ces paramétrisations sont équivalentes, mais linterprétation des paramètres nest pas la même.


Télécharger ppt "Régression linéaire (STT-2400) Section 3 Interprétation des paramètres, paramétrisation et problèmes de surparamétrisation Version: 21 janvier 2007."

Présentations similaires


Annonces Google