La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.

Présentations similaires


Présentation au sujet: "Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007."— Transcription de la présentation:

1 Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007

2 STT-2400; Régression linéaire 2 Tests dhypothèses On dispose dun jeux de données portant sur le prix des maisons dans une certaine région. Exemples de variables: – PRICE, prix en milliers de dollars US: variable réponse. – FLR, surface du plancher en pieds carrés: préviseur. – RMS, nombre de pièces: préviseur. – BDR, nombre de chambres à coucher: préviseur. – BTH, nombre de salles de bain: préviseur. – GAR, présence ou non dun garage (0: aucun garage, 1: garage simple, 1.5: garage pour un véhicule mais plus grand que le simple, 2: garage pour deux véhicules): préviseur. – LOT, largeur de la façade du terrain en pieds: préviseur. – FP, nombre de foyers: préviseur. – ST, présence de contre-fenêtre (storm window): préviseur.

3 STT-2400; Régression linéaire 3 Ajustement dans lexemple du prix des maisons Un ajustement donne la fonction moyenne suivante: Au niveau de linterprétation, il semble y avoir une association positive entre lajout dun garage et le prix de la maison de lordre de 1770$ US, les autres choses étant égales. On note que laugmentation dune chambre, toutes les autres choses étant égales, semble associée à une diminution du prix! (mais le coefficient porte sur laugmentation dune chambre, sans faire augmenter par exemple la superficie ou le nombre total de pièces). Quand un grand nombre de préviseurs sont reliés, il peut arriver que les signes soient contre intuitifs et plus difficiles à interpréter.

4 STT-2400; Régression linéaire 4 Dautres questions dintérêt pourraient être… (a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)? (b) Est-ce que lajout dun garage semble associé à laugmentation du prix de vente de $5000 US? (c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière? (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix dune maison? (e) Est-ce quau moins un des préviseurs semble utile afin dexpliquer le prix de la maison?

5 STT-2400; Régression linéaire 5 Formulation des questions de façon statistique… tests déjà vus! (a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)? (b) Est-ce que lajout dun garage semble associé à laugmentation du prix de vente de $5000 US?

6 STT-2400; Régression linéaire 6 Formulation des questions de façon statistique… nouveaux tests! (c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière? (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix dune maison?

7 STT-2400; Régression linéaire 7 Formulation des questions de façon statistique (suite) (e) Est-ce quau moins un des préviseurs semble utile afin dexpliquer le prix de la maison? Ce test correspond bien entendu au test F global dans une table dANOVA.

8 STT-2400; Régression linéaire 8 Hypothèse linéaire générale Un examen attentif de tous ces tests montre quen fait toutes ces questions impliquent des contraintes linéaires sur les paramètres: En fait toutes ces hypothèses peuvent sexprimer comme un cas particulier de lhypothèse linéaire générale.

9 STT-2400; Régression linéaire 9 Formulation de lhypothèse linéaire générale Considérons le modèle de régression linéaire multiple: Lhypothèse linéaire générale est: La matrice C est de dimensionet elle est de rang m. Les vecteurs et sont de dimension.

10 STT-2400; Régression linéaire 10 Exemple (a) Pour (a), il suffit de poser: On a m = 1. Lhypothèse linéaire générale est: Elle se réduit donc à:

11 STT-2400; Régression linéaire 11 Exemple (b) Pour (b), il suffit de poser: On a m = 1. Lhypothèse linéaire générale est: Elle se réduit donc à:

12 STT-2400; Régression linéaire 12 Exemple (c) Pour (c), il suffit de poser: On a m = 1. Lhypothèse linéaire générale est: Elle se réduit donc à:

13 STT-2400; Régression linéaire 13 Exemple (d) Pour (d), il suffit de poser: On a m = 2. Lhypothèse linéaire générale est: Elle se réduit donc à:

14 STT-2400; Régression linéaire 14 Exemple (e) Pour (e), il suffit de considérer la matrice : On a donc m = 8. Lhypothèse linéaire générale est: Elle se réduit donc à:

15 STT-2400; Régression linéaire 15 Statistique de test pour lhypothèse linéaire générale Supposons que les erreurs sont iid normales. Confrontons les hypothèses: C est de dimension et de rang. Posons:

16 STT-2400; Régression linéaire 16 Statistique F pour lhypothèse linéaire générale On pose encore: Hypothèses à confronter: Règle de décision: rejeter H 0 si

17 STT-2400; Régression linéaire 17 Quelques faits concernant le test F Ce test est en fait le test du rapport de vraisemblance pour les hypothèses considérées. Pour obtenir la distribution, on a utilisé la normalité et donc il repose sur lestimation des paramètres du modèle par la méthode de vraisemblance maximale. Même si les erreurs ne sont pas normales, ce test est généralement robuste aux écarts à la normalité des erreurs. Quest-ce que cela veut dire? Si des écarts relativement peu importants de lhypothèse de normalité surviennent, alors les estimateurs, tests dhypothèses et intervalles de confiance se trouvent souvent peu affectés.

18 STT-2400; Régression linéaire 18 Test-F dans la situation « modèle plein – modèle réduit » Reconsidérons lexemple (d): (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix dune maison?

19 STT-2400; Régression linéaire 19 Formalisation de lexemple (d) Considérons, où les matrices composants X sont de dimensions: On considère la partition suivante du vecteur :

20 STT-2400; Régression linéaire 20 Confrontation du modèle plein et du modèle réduit On désire confronter: Autrement formulé, on désire tester lhypothèse nulle:

21 STT-2400; Régression linéaire 21 Test F pour tester « modèle plein – modèle réduit » Il est possible de montrer que le test F du rapport de vraisemblance se réduit à calculer la statistique suivante: On compare avec la distribution F suivante:

22 STT-2400; Régression linéaire 22 Mise en œuvre pratique du test pour lhypothèse « modèle plein- modèle réduit » Ainsi afin de mettre en œuvre ce test il suffit deffectuer deux régression. On fait la régression incluant tous les préviseurs et on récupère la somme des carrés résiduelle RSS MP et son nombre de dl associé. On fait la régression incluant les préviseurs formant le modèle réduit et on récupère la somme des carrés résiduelle RSS MR et ses dl. On calcule la statistique F.

23 STT-2400; Régression linéaire 23 Hypothèse linéaire avec SAS dans la procédure PROC REG proc reg data=maison; model price = flr rms bdr bth gar lot fp st; HypA: test bdr = 0; HypB: test gar = 5; HypC: test bdr = bth; HypD: test bth = 0, gar = 0; HypE: test flr, rms, bdr, bth, gar, lot, fp, st; run; proc reg data=maison; model price = flr rms bdr lot fp st; run;

24 STT-2400; Régression linéaire 24 Quelques commentaires sur les tests Pour HypA: on avait déjà ce test en regardant la statistique-t pour la variable BDR: (-4.21) 2 = avec valeur-p de Pour HypE: on retrouve le résultat du test global, avec une statistique F de Pour HypD: La statistique-F est de On peut obtenir cette statistique de lajustement des deux régressions, lune incluant tous les préviseurs (RSS= , dl=17), lautre excluant BTH et GAR (RSS= ). On vérifie que: ( )/(2* ) = 1.32


Télécharger ppt "Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007."

Présentations similaires


Annonces Google