Régression linéaire (STT-2400) Section 3 Tests d’hypothèses et intervalles de confiance Version: 28 février 2008
Hypothèses concernant un préviseur particulier L’obtention d’information sur un des préviseurs peut être une considération pertinente. Formellement, on pourrait vouloir vérifier si le préviseur xi devrait être inclus dans la fonction moyenne: Ceci revient à tester: STT-2400; Régression linéaire
Exemple: Données sur l’essence La fonction moyenne est: On pourrait vouloir tester: Afin de voir si la variable « Tax » est importante, on va faire la régression: (i) Incluant la variable « Tax » (modèle plein), (ii) Excluant la variable « Tax » (modèle réduit). STT-2400; Régression linéaire
Critère: réduction significative dans la somme des carrés résiduelle Notre critère repose sur la somme des carrés RSS: On regarde si le fait d’inclure un préviseur de plus, « Tax », occasionne une réduction significative dans RSS. Sortie informatique SAS: RSSMP: 193700 avec n - p - 1 = 51- 4 - 1 = 46 degrés de liberté; RSSMR: 211964 avec n - p = 51 - 4 = 47 degrés de liberté. On trouve alors: RSSMR – RSSMP = 211964 - 193700 = 18264. Est-ce que cette différence est statistiquement significative? STT-2400; Régression linéaire
Statistique d’intérêt La statistique d’intérêt est: Sous l’hypothèse nulle: L’estimateur est l’estimateur de dans le modèle plein. Dans l’exemple: L’hypothèse nulle H0 est rejetée de justesse. STT-2400; Régression linéaire
STT-2400; Régression linéaire Test-F partiel Le test-F précédent est aussi appelé test-F partiel. Le test est étroitement lié aux tests-t qui sont fournis dans les sorties informatiques de SAS. Exemple: Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 154.19284 194.90616 0.79 0.4329 logMiles 1 18.54527 6.47217 2.87 0.0063 Revenu 1 -6.13533 2.19363 -2.80 0.0075 Dlic 1 0.47187 0.12851 3.67 0.0006 Tax 1 -4.22798 2.03012 -2.08 0.0429 On note que la valeur-p est exactement la même. En fait, on note que la statistique-t est: -4.22798/2.03012 = -2.0826 et (-2.0826)2=4.337. STT-2400; Régression linéaire
Équivalence du test-F partiel et du test-t En fait, le test-t et le test-F partiel sont équivalents dans ce cas-ci. Dans le cas d’une statistique-t, on compare à une tn-p-1 et on peut montrer que si t ~ tn-p-1, alors t2 = F ~ F1,n-p-1. Puisque on pourrait vouloir confronter: Dans un tel cas tobs = -2.0826 et la valeur-p est: STT-2400; Régression linéaire
Intervalles de confiance Dans le modèle , avec: De plus, on présume la normalité: On désire construire un intervalle de confiance pour , avec: STT-2400; Régression linéaire
Intervalle de confiance pour un coefficient Posons , un vecteur de dimension p + 1, où le un est en position j. Ainsi: Or impliquant Donc On pose STT-2400; Régression linéaire
Intervalle de confiance pour un coefficient (suite) Donc Or on ne connaît pas . On a vu que: De plus: STT-2400; Régression linéaire
Intervalle de confiance pour un coefficient (suite) Sous l’hypothèse ne normalité, il est possible de montrer que et sont indépendants. Ceci implique: STT-2400; Régression linéaire
Intervalle de confiance pour un coefficient (suite et fin) Ainsi: Ainsi un intervalle de confiance pour est: STT-2400; Régression linéaire