Régression linéaire (STT-2400) Section 3 Analyse séquentielle et tables d’analyse de variance (ANOVA) Version: 19 janvier 2007
Analyse de variance séquentielle Dans l’exemple des données sur l’essence, on a considéré la fonction moyenne suivante: La table d’ANOVA globale est: STT-2400; Régression linéaire
Comment expliquer l’effet de la variable « Tax » Si on s’attarde à la variable « Tax », on peut penser que la somme des carrés de l’ANOVA globale SSreg peut se diviser en deux: Un effet relié à un ajustement incluant les variables Dlic, Revenu et logMiles. Un effet relié à l’ajout de la variable « Tax »; autrement formulé, un effet relié à l’ajustement incluant la variable « Tax » après avoir déjà inclus dans le modèle les variables Dlic, Revenu et logMiles. STT-2400; Régression linéaire
Décomposition de SSreg dans l’ANOVA globale On écrira la somme des carrés SSreg dans l’ANOVA globale: SSreg(Dlic, Revenu, logMiles, Tax | b0) = SSreg(Dlic, Revenu, logMiles | b0) + SSreg(Tax |Dlic, Revenu, logMiles, b0) Cette logique peut être répétée pour le terme SSreg(Dlic, Revenu, logMiles | b0). STT-2400; Régression linéaire
Table d’ANOVA dans une régression linéaire simple Avec ce système de notation, nous aurons que la table d’ANOVA dans une régression linéaire simple prend la forme: En effet, SSreg correspond à l’augmentation dans la somme des carrés due à la régression lors de l’ajout du préviseur X. STT-2400; Régression linéaire
Autre forme de l’ANOVA dans la régression linéaire simple Une forme moins populaire (car moins fréquente dans les sorties informatiques) est: On a que: et STT-2400; Régression linéaire
ANOVA et régression linéaire simple Inclure que le terme constant donne l’ANOVA: Dans cette logique inclure les deux termes donne la table d’ANOVA STT-2400; Régression linéaire
ANOVA et régression linéaire simple Conséquemment on trouve que: SSreg(b1 | b0) = SSreg(b1,b0) – SSreg(b0) Ceci suggère la table d’ANOVA: STT-2400; Régression linéaire
ANOVA et régression linéaire multiple En général, on trouve les tables d’ANOVA suivantes: Ainsi que: STT-2400; Régression linéaire
En résumé, ce qu’il faut retenir… En fait il faut retenir les deux formes suivantes, qui sont équivalentes: Et la forme plus répandue (à cause des logiciels): STT-2400; Régression linéaire
STT-2400; Régression linéaire ANOVA séquentielle Considérons la fonction moyenne suivante: Posons: SSreg1 = SSreg(b1 | b0); SSreg2 = SSreg(b2 |b1, b0); SSreg3 = SSreg(b3 |b2, b1, b0); SSreg4 = SSreg(b4 |b3, b2, b1, b0). STT-2400; Régression linéaire
ANOVA séquentielle (suite) On aura l’ANOVA suivante dite séquentielle: STT-2400; Régression linéaire
ANOVA séquentielle (suite) Afin de calculer SSreg1, on doit ajuster une régression avec b0 et b1: ceci nous donne: SSreg(b1 | b0). Afin de calculer SSreg2, on ajuste une régression avec b0, b1 et b2, et une seconde avec seulement b0 et b1. On calcule alors: SSreg(b2 | b1, b0 ) = SSreg(b1, b2 | b0 ) – SSreg(b1 | b0) STT-2400; Régression linéaire
ANOVA séquentielle (suite) On remarque que l’on a la relation: SSreg1 + SSreg2 + SSreg3 + SSreg4 = SSreg En effet: SSreg(b1 | b0) + { SSreg(b1,b2 | b0) - SSreg(b1 | b0) } + {SSreg(b1,b2,b3 | b0) - SSreg(b1,b2 | b0) } + {SSreg(b1,b2,b3,b4 | b0) - SSreg(b1,b2,b3 | b0) } = SSreg(b1,b2,b3,b4 | b0) = SSreg STT-2400; Régression linéaire
STT-2400; Régression linéaire L’ordre compte… Il est important de noter que l’ordre dans lequel entre les variables importe. Exemple: Inclure successivement Dlic, Tax, Revenu et logMiles donnera une ANOVA séquentielle différente de celle consistant à entrer successivement logMiles, Income, Dlic et Tax. Si les préviseurs sont approximativement non corrélés, les différences devraient être petites. STT-2400; Régression linéaire
ANOVA séquentielle et SAS Pour SAS, cette décomposition s’intitule le calcul des sommes de carrés de type I. Il suffit d’ajouter l’option SS1 dans l’énoncé « model ». Par exemple: data essence; set alr3.fuel2001; Dlic=Drivers*1000/Pop; Fuel=FuelC*1000/Pop; logMiles=log2(Miles); Revenu=Income/1000; proc reg data=essence; model Fuel = Dlic Tax Revenu logMiles / SS1; run; STT-2400; Régression linéaire