Statistique Cours #4 Régression linéaire simple et multiple

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Inférence statistique
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Régression ou corrélation
Les TESTS STATISTIQUES
Régression -corrélation
Régression linéaire (STT-2400) Section 3 Tests dhypothèses et lhypothèse linéaire générale Version: 26 janvier 2007.
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique
Les principaux résumés de la statistique

La Régression Multiple
Fonction puissance Montage préparé par : André Ross
Régression linéaire simple
Groupe 1: Classes de même intervalle
L’Analyse de Covariance
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La régression logistique
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Structure discriminante (analyse discriminante)
TEST d’ADEQUATION A UNE LOI EQUIREPARTIE
La régression multiple
Principes de tarification de base
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
Programmation linéaire en nombres entiers
LA REGRESSION LINEAIRE
Présentation du marché obligataire
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
M2 Sciences des Procédés - Sciences des Aliments
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
1 1 Licence Stat-info CM7 a 2004 V1Christophe Genolini Récapitulatif : Variables qualitatives Variables qualitatives : –on se demande si elles sont liées.
Chapitre 3: Variables aléatoires réelles continues
Rappels Variables nominales :
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthodes de Biostatistique Chapitre 9 Tests Nonparamétriques.
Chapitre 4 Variables aléatoires discrètes
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Post-optimisation, analyse de sensibilité et paramétrage
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Régression linéaire (STT-2400)
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Méthodes de prévision (STT-3220)
Les fonctions Les propriétés. Chaque fonction possède ses propres caractéristiques: Ainsi l’analyse de ces propriétés permet de mieux cerner chaque type.
Corrélation et causalité
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
Transcription de la présentation:

Statistique 51-601-02 Cours #4 Régression linéaire simple et multiple

Exemple Avant de construire un complexe hôtelier, l’architecte doit estimer l’affluence journalière. Comment peut-il l’estimer? La ville compte 2 d’habitants.

Solutions On pourrait réaliser une étude de marché locale. Cependant c’est assez imprécis, surtout pour de nouveaux projets. On pourrait utiliser des données pour des projets similaires dans d’autres villes.

Qu’en pensez-vous? Peut-on faire mieux?

Probablement, si on tient compte de la grosseur des villes

Étude de cas: Ice Cream Sales Le fichier file icecream.xls contient des paires de données représentant les ventes de crème glacée et la température journalières, pour 30 journées choisies au hasard. Est-ce qu’il semble y avoir une relation entre la température et les ventes? Pourrait-on prévoir les ventes à partir de la température? Si oui, quelle est la prévision pour une température de 9.5? Est-ce près de la valeur observée?

Introduction: Un des objectifs principaux de la statistique est d ’expliquer la variabilité que l ’on observe dans les données. La régression linéaire (ou les modèles linéaires) est un outil statistique TRÈS UTILISÉ pour étudier la présence d ’une relation entre une variable dépendante Y (quantitative et continue) et une ou plusieurs variables indépendantes X1, X2, …, Xp (qualitatives et/ou quantitatives).

Par exemple, un gestionnaire peut être intéressé à voir s ’il peut expliquer une bonne part de la variabilité qu ’il observe dans les ventes (variable dépendante Y) dans ses différentes succursales au cours des 12 derniers mois par la superficie, le nombre d ’employés, le nombre d ’heures supplémentaires payées, la qualité du service à la clientèle, la quantité des promotions etc. (variables indépendantes ou explicatives).

Un modèle de régression peut servir à répondre à un des 3 objectifs suivants: Décrire (données provenant d ’études non-expérimentales c.-à-d. on observe la réalité telle qu’elle est). Confronter des hypothèses (données provenant d ’études expérimentales contrôlées). Prédire (si on aime le risque!!).

Exemple: Nous sommes intéressés à savoir quels sont les facteurs importants qui influencent ou déterminent la valeur d ’une propriété et de construire un modèle qui nous aidera à évaluer cette valeur selon ces facteurs. Pour ce faire, nous avons obtenu la valeur totale pour un échantillon de 79 propriétés dans une région donnée. Les variables suivantes ont également été recueillies pour chacune des propriétés:

Bref aperçu du fichier de données: :maisons.xls # pieds carrés condition valeur valeur du premier de type de OBS totale terrain # d'acres plancher l'extérieur chauffage 1 199657 63247 1.63 1726 Good NatGas 2 78482 38091 0.495 1184 Good NatGas 3 119962 37665 0.375 1014 Good Electric 4 116492 54062 0.981 1260 Average Electric 5 131263 61546 1.14 1314 Average NatGas ... 78 253480 57948 0.862 1720 Good Electric 79 257037 57489 0.95 2004 Excellnt Electric # salles # salles de # de # de de bain bain non # de OBS pièces chambres complète complète foyers GARAGE 1 8 4 2 1 2 Garage 2 6 2 1 0 0 NoGarage 3 7 3 2 0 1 Garage 4 6 3 2 0 1 Garage 5 8 4 2 1 2 NoGarage 78 10 5 5 1 1 Garage 79 9 4 2 2 2 Garage

Est-ce qu ’il y a un lien entre la valeur totale et ces différents facteurs?

Le coefficient de corrélation r de Pearson sert à mesurer l’intensité de la relation linéaire entre deux variables quantitatives. Le coefficient de corrélation r prendra des valeurs entre -1 et 1. S ’il existe une relation linéaire parfaite entre X et Y alors r = 1 (r =1 si X et Y varient dans le même sens et r = -1 si X varie dans le sens opposé à Y). Si r = 0, ceci indique qu ’il n ’y a pas de lien linéaire entre X et Y. Plus la valeur de r s ’éloigne de 0 pour s ’approcher de 1 plus l ’intensité du lien linéaire entre X et Y grandit.

Y ‚ 6.5 ˆ * r = 0.035 Y ‚ r = 1 ‚ ‚ ‚ 31 ˆ * 6.0 ˆ * * 29 ˆ * ‚ 27 ˆ * ‚ 25 ˆ * 5.5 ˆ * * 23 ˆ * ‚ 21 ˆ * ‚ 19 ˆ * 5.0 ˆ * 17 ˆ * ‚ 15 ˆ * ‚ 13 ˆ * 4.5 ˆ * * * 11 ˆ * ‚ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4.0 ˆ * * 4 5 6 7 8 9 10 11 12 13 14 Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 X X Y ‚ r = -1 ‚ -8.0 ˆ * -10.5 ˆ * -13.0 ˆ * -15.5 ˆ * -18.0 ˆ * -20.5 ˆ * -23.0 ˆ * -25.5 ˆ * -28.0 ˆ * -30.5 ˆ * -33.0 ˆ * Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒ 4 5 6 7 8 9 10 11 12 13 14

Statistiques descriptives Variable N Moyenne Médiane Écart type Minimum Maximum Totale 79 187253 156761 84401 74365 453744 Terrain 79 65899 59861 22987 35353 131224 Acre 79 1,579 1,040 1,324 0,290 5,880 Pied2 79 1678 1628 635 672 3501 Pièces 79 8,519 8,000 2,401 5 18 Chambre 79 3,987 4,000 1,266 2 8 SbainsC 79 2,241 2,000 1,283 1 7 Sbains 79 0,7215 1,000 0,715 0 3 Foyers 79 1,975 2,000 1,368 0 7 Coefficients de corrélation de Pearson Totale Terrain Acre Pied2 Pièces Chambre SbainsC Sbains Terrain 0,815 Acre 0,608 0,918 Pied2 0,767 0,516 0,301 Pièces 0,626 0,518 0,373 0,563 Chambre 0,582 0,497 0,382 0,431 0,791 SbainsC 0,626 0,506 0,376 0,457 0,479 0,586 Sbains 0,436 0,236 0,074 0,354 0,489 0,166 0,172 Foyers 0,548 0,497 0,391 0,365 0,394 0,400 0,486 0,386

Attention!! Il est important d ’interpréter le coefficient de corrélation avec le graphique. r = 0.816 dans tous les cas ci-dessous 12.5 ˆ 10 ˆ ‚ ‚ * ‚ ‚ * * * ‚ * ‚ * 10.0 ˆ * 8 ˆ * * ‚ ‚ * Y1 ‚ * Y2 ‚ ‚ * * ‚ 7.5 ˆ * * 6 ˆ * ‚ * ‚ ‚ ‚ ‚ * ‚ * 5.0 ˆ * 4 ˆ ‚ * ‚ ‚ ‚ * 2.5 ˆ 2 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 4 5 6 7 8 9 10 11 12 13 14 X X 15.0 ˆ Y4 ‚ ‚ 12.5 ˆ * ‚ ‚ 12.5 ˆ * ‚ Y3 ‚ 10.0 ˆ 10.0 ˆ ‚ * ‚ ‚ * ‚ * ‚ * ‚ * 7.5 ˆ * 7.5 ˆ * * ‚ * ‚ * * ‚ * ‚ * * ‚ * ‚ * * ‚ * 5.0 ˆ 5.0 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ 4 5 6 7 8 9 10 11 12 13 14 8 19 X X

Régression linéaire simple Pour décrire une relation linéaire entre deux variables quantitatives ou encore pour pouvoir prédire Y pour une valeur donnée de X, nous utilisons une droite de régression: Y = 0 + 1X +  Puisque tout modèle statistique n’est qu’une approximation (nous espérons la meilleure possible!!), il y a toujours une erreur, notée  dans le modèle, car le lien linéaire n’est jamais parfait. S ’il y avait une relation linéaire parfaite entre Y et X, le terme d ’erreur serait toujours égale à 0, et toute la variabilité de Y serait expliquée par la variable indépendante X.

Donc, pour une valeur donnée de X, nous aimerions estimer Y. Ainsi, à l’aide des données de l’échantillon nous estimerons les paramètres 0 et 1 du modèle de régression de façon à minimiser la somme des carrés des erreurs. Le coefficient de corrélation au carré est appelé coefficient de détermination et nous indique le pourcentage de la variabilité de Y expliquée par X: R2 = 1 - (n-2)/(n-1){Se /Sy}2, où Se est l’écart type des erreurs et Sy est l’écart type de Y.

On peut également utiliser le coefficient de détermination ajusté pour nous indiquer le pourcentage de la variabilité de Y expliquée par X: R2ajusté = 1 - {Se/Sy}2 .

Exemple de régressions linéaires simples: MODÈLE 1. Regression Analysis The regression equation is Totale = 16209 + 102 Pied2 Predictor Coef StDev T P Constant 16209 17447 0,93 0,356 Pied2 101,939 9,734 10,47 0,000 S = 54556 R-Sq = 58,8% R-Sq(adj) = 58,2% Analysis of Variance Source DF SS MS F P Regression 1 3,26460E+11 3,26460E+11 109,68 0,000 Residual Error 77 2,29181E+11 2976374177 Total 78 5,55641E+11

MODÈLE 2. The regression equation is : Totale = - 347 + 22021 Pièces Predictor Coef StDev T P Constant -347 27621 -0,01 0,990 Pièces 22021 3122 7,05 0,000 S = 66210 R-Sq = 39,3% R-Sq(adj) = 38,5% Analysis of Variance Source DF SS MS F P Regression 1 2,18090E+11 2,18090E+11 49,75 0,000 Residual Error 77 3,37551E+11 4383775699 Total 78 5,55641E+11 __________________________________________________________________ MODÈLE 3. The regression equation is : Totale = 32428 + 38829 Chambre Constant 32428 25826 1,26 0,213 Chambre 38829 6177 6,29 0,000 S = 69056 R-Sq = 33,9% R-Sq(adj) = 33,1% Regression 1 1,88445E+11 1,88445E+11 39,52 0,000 Residual Error 77 3,67196E+11 4768775127

Modèle 1: Modèle 2: Modèle 3: valeur totale = 16209 + 102*( # pieds carrés ). R2 = 58,8%. Donc 58,8% de la variabilité de la valeur totale est expliquée par le # pieds carrés. Modèle 2: valeur totale = -347 + 22021*( # pièces ). R2 = 39,3%. Donc 39,3% de la variabilité de la valeur totale est expliquée par le # pièces. Modèle 3: valeur totale = 32428 + 38829*( # chambres ). R2 = 33,9%. Donc 33,9% de la variabilité de la valeur totale est expliquée par le # chambres.

Parmi les 3 modèles précédents, lequel choisiriez vous et pourquoi? Le modèle 1 car il a la plus grande valeur de R2.

Intervalle de confiance au niveau 1- pour la moyenne des valeurs de Y pour une valeur spécifique de X: Pour le modèle 1 et une valeur de X=1500 pi2 on obtient l ’estimation ponctuelle suivante: est. valeur totale = 16 209 + 102*1500 = 169 117$ intervalle de confiance à 95% pour la moyenne de la valeur totale pour les propriétés de 1500 pi2 : [156 418, 181 817]

Intervalle de confiance au niveau 1- pour une nouvelle valeur de Y (prévision) étant donné une valeur spécifique de X: Pour le modèle 1 et une valeur de X=1500 pi2 on obtient l’estimation ponctuelle suivante: est. valeur totale = 16 209 + 101,939*1500 = 169 117$ intervalle de confiance à 95% pour une valeur totale prédite lorsque la superficie du premier plancher est de 1500 pi2 : [59 742, 278 492] L ’intervalle de confiance pour une valeur prédite est toujours plus grand que pour la moyenne des valeurs de Y pour un X spécifique.

Inférence sur les paramètres du modèle de régression: S’il n ’y a pas de lien linéaire entre Y et X alors 1 = 0. Donc, nous voulons confronter les hypothèses suivantes: H0 : 1 = 0 vs H1 : 1  0 On rejettera H0 lorsque le ‘ p-value ’ sera petit Ce test sera valide si la relation entre X et Y est linéaire les données sont indépendantes la variance de Y est la même pour toutes les valeurs de X Y est distribuée selon une loi normale pour toutes les valeurs de X

Régression linéaire multiple Il est fort possible que la variabilité de la variable dépendante Y soit expliquée non pas par une seule variable indépendante X mais plutôt par une combinaison linéaire de plusieurs variables indépendantes X1, X2, …, Xp. Dans ce cas le modèle de régression multiple est donné par: Y = 0 + 1X1 + 2X2 + … + pXp +  Aussi, à l’aide des données de l’échantillon nous estimerons les paramètres 0, 1, …, p du modèle de régression de façon à minimiser la somme des carrés des erreurs.

Le coefficient de corrélation multiple R2 , aussi appelé coefficient de détermination, nous indique le pourcentage de la variabilité de Y expliquée par les variables indépendantes X1, X2, …, Xp. Lorsqu’on ajoute une ou plusieurs variables indépendantes dans le modèle, le coefficient R2 augmente. La question est de savoir si le coefficient R2 augmente de façon significative. Notons qu’on ne peut avoir plus de variables indépendantes dans le modèle qu’il y a d ’observations dans l’échantillon (règle générale: n  5p).

La régression est-elle significative? Ici on veut tester les hypothèses suivantes: H0: b1 = b2 = ... = bk = 0, i.e. la régression n’est pas significative; H1: b1 0 ou b2 0 , …, ou bk 0, i.e. la régression est significative. On rejette H0 si la p-value du tableau d’analyse de la variance est inférieure à a.

Quelles variables enlever? Les tableaux obtenus avec Excel nous fournissent aussi la p-value correspondant aux tests sur chacune des variables: H0: bi = 0, i.e. la variable Xi peut être enlevée (si on garde les autres variables); H1: bi 0 i.e. la variable Xi ne peut pas être enlevée. On rejette H0 si la p-value correspondante est inférieure à a.

Exemple: MODÈLE 1. The regression equation is Totale = - 89131 + 3,05 Terrain - 20730 Acre + 43,3 Pied2 - 4352 Pièces + 10049 Chambre + 7606 SbainsC + 18725 Sbains + 882 Foyers Predictor Coef StDev T P Constant -89131 18302 -4,87 0,000 Terrain 3,0518 0,5260 5,80 0,000 Acre -20730 7907 -2,62 0,011 Pied2 43,336 7,670 5,65 0,000 Pièces -4352 3036 -1,43 0,156 Chambre 10049 5307 1,89 0,062 SbainsC 7606 3610 2,11 0,039 Sbains 18725 6585 2,84 0,006 Foyers 882 3184 0,28 0,783 S = 29704 R-Sq = 88,9% R-Sq(adj) = 87,6% Analysis of Variance Source DF SS MS F P Regression 8 4,93877E+11 61734659810 69,97 0,000 Residual Error 70 61763515565 882335937 Total 78 5,55641E+11

MODÈLE 2 Regression Analysis The regression equation is Totale = - 97512 + 3,11 Terrain - 21880 Acre + 40,2 Pied2 + 4411 Chambre + 8466 SbainsC + 14328 Sbains Predictor Coef StDev T P Constant -97512 17466 -5,58 0,000 Terrain 3,1103 0,5236 5,94 0,000 Acre -21880 7884 -2,78 0,007 Pied2 40,195 7,384 5,44 0,000 Chambre 4411 3469 1,27 0,208 SbainsC 8466 3488 2,43 0,018 Sbains 14328 5266 2,72 0,008 S = 29763 R-Sq = 88,5% R-Sq(adj) = 87,6% Analysis of Variance Source DF SS MS F P Regression 6 4,91859E+11 81976430646 92,54 0,000 Residual Error 72 63782210167 885864030 Total 78 5,55641E+11

MODÈLE 3 Regression Analysis The regression equation is Totale = - 90408 + 3,20 Terrain - 22534 Acre + 41,1 Pied2 + 10234 SbainsC + 14183 Sbains Predictor Coef StDev T P Constant -90408 16618 -5,44 0,000 Terrain 3,2045 0,5205 6,16 0,000 Acre -22534 7901 -2,85 0,006 Pied2 41,060 7,383 5,56 0,000 SbainsC 10234 3213 3,19 0,002 Sbains 14183 5287 2,68 0,009 S = 29889 R-Sq = 88,3% R-Sq(adj) = 87,5% Analysis of Variance Source DF SS MS F P Regression 5 4,90426E+11 98085283380 109,80 0,000 Residual Error 73 65214377146 893347632 Total 78 5,55641E+11

Modèle sans la superficie du terrain ( # d ’acres) à cause de la multicolinéarité avec la valeur du terrain. MODÈLE 4 The regression equation is Totale = - 55533 + 1,82 Terrain + 49,8 Pied2 + 11696 SbainsC + 18430 Sbains Predictor Coef StDev T P Constant -55533 11783 -4,71 0,000 Terrain 1,8159 0,1929 9,42 0,000 Pied2 49,833 7,028 7,09 0,000 SbainsC 11696 3321 3,52 0,001 Sbains 18430 5312 3,47 0,001 S = 31297 R-Sq = 87,0% R-Sq(adj) = 86,3% Analysis of Variance Source DF SS MS F P Regression 4 4,83160E+11 1,20790E+11 123,32 0,000 Residual Error 74 72481137708 979474834 Total 78 5,55641E+11

Parmi les 4 modèles précédents, lequel choisiriez vous et pourquoi? Probablement le modèle 4 car toutes les variables indépendantes sont significatives au niveau 5% (c.-à-d. p-value < 5% pour chaque  dans le modèle) et bien que le R2 soit plus petit, il n ’est que marginalement plus petit. De plus tous les coefficients du modèle ont « du sens »! Dans le modèle 1 les variables ‘ # de pièces ’ et ‘ # de foyers ’ ne sont pas statistiquement significatives au niveau 5% (p-value > 5%). La variable ‘ # de chambres ’ est à la limite avec un p-value = 0,0624.

Parmi les 4 modèles précédents, lequel choisiriez vous et pourquoi? Dans le modèle 2 la variable ‘ # de chambres ’ n ’est pas statistiquement significative au niveau 5%. Dans le modèle 3 (et les modèles précédents), le coefficient de la variable ‘ # d ’acres ’ est négatif ce qui est à l ’encontre du « bon sens » et de ce qu ’on a observé sur le diagramme de dispersion et le coefficient de corrélation de Pearson positif (r = 0,608). Le coefficient négatif pour la variable ‘ # d ’acres ’ dans les modèles 1 à 3 est causé par le fait qu ’il y a une forte relation linéaire entre la valeur du terrain et la superficie du terrain (r = 0,918); problème de multicolinéarité.

Comment choisir un modèle de régression linéaire parmi tous les modèles possibles? Il existe plusieurs techniques: sélection pas à pas en ajoutant une variable à la fois et en commençant par la plus significative (stepwise, forward). sélection à partir du modèle incluant toutes les variables et en enlevant une variable à la fois en commençant par la moins significative (backward). faire tous les modèles possibles et choisir le meilleur sous-ensemble de variables (best subset) selon certains critères spécifiques (ex: R2 ajusté, Cp de Mallow.)

Exemple de sélection parmi les meilleurs sous-ensembles: Best Subsets Regression : Response is Totale T C S e P h b S F r P i a a b o r A i è m i a y a c e c b n i e Adj. i r d e r s n r Vars R-Sq R-Sq C-p s n e 2 s e C s s 1 66,4 65,9 136,8 49262 X 1 58,8 58,2 184,7 54556 X 1 39,3 38,5 307,6 66210 X 2 82,7 82,2 35,9 35564 X X 2 78,8 78,3 60,3 39343 X X 2 74,4 73,7 88,1 43244 X X 3 85,6 85,0 19,5 32637 X X X 3 84,8 84,2 24,5 33521 X X X 3 84,8 84,2 24,9 33591 X X X 4 87,1 86,4 12,2 31115 X X X X 4 87,0 86,3 13,1 31297 X X X X 4 86,6 85,9 15,2 31682 X X X X 5 88,3 87,5 6,9 29889 X X X X X 5 87,6 86,7 11,2 30744 X X X X X 5 87,4 86,5 12,4 30979 X X X X X 6 88,5 87,6 7,3 29763 X X X X X X 6 88,3 87,3 8,6 30030 X X X X X X 6 88,3 87,3 8,9 30096 X X X X X X 7 88,9 87,8 7,1 29510 X X X X X X X 7 88,6 87,4 9,1 29924 X X X X X X X 7 88,3 87,2 10,6 30240 X X X X X X X 8 88,9 87,6 9,0 29704 X X X X X X X X

Sélection du modèle sans la variable # d ’acres Best Subsets Regression : Response is Totale T C S e P h b S F r P i a a b o r i è m i a y a e c b n i e Adj. i d e r s n r Vars R-Sq R-Sq C-p s n 2 s e C s s 1 66,4 65,9 120,6 49262 X 1 58,8 58,2 164,9 54556 X 1 39,3 38,5 278,3 66210 X 2 82,7 82,2 27,6 35564 X X 2 72,7 71,9 86,0 44704 X X 2 72,5 71,8 86,8 44813 X X 3 84,8 84,2 17,2 33521 X X X 3 84,8 84,2 17,6 33591 X X X 3 84,0 83,3 22,3 34467 X X X 4 87,0 86,3 6,9 31297 X X X X 4 86,1 85,3 12,1 32352 X X X X 4 85,3 84,5 16,5 33226 X X X X 5 87,3 86,4 6,9 31100 X X X X X 5 87,0 86,1 8,5 31439 X X X X X 5 87,0 86,1 8,9 31509 X X X X X 6 87,8 86,8 6,1 30707 X X X X X X 6 87,3 86,3 8,7 31264 X X X X X X 6 87,0 85,9 10,5 31656 X X X X X X 7 87,8 86,6 8,0 30908 X X X X X X X

Le choix du meilleur modèle se fait selon la combinaison: La plus grande valeur de R2 ajusté pour le nombre de variables dans le modèle. La plus petite valeur de Cp . Pour les modèles avec R2 ajusté et Cp comparables, on choisira le modèle qui a le plus de « sens » selon les experts dans le domaine. Pour les modèles avec R2 ajusté et Cp comparables, le modèle avec les variables indépendantes les plus faciles et moins coûteuses à mesurer. La validité du modèle.

Intervalle de confiance au niveau 1- pour la moyenne de Y et une nouvelle valeur de Y (prévision) étant donné une combinaison de valeurs spécifiques pour X1, X2, …, Xp . Pour le modèle 4 et une propriété avec terrain= 65 000$, pi2 = 1500, 2 salles de bain complète et 1 non-complète, on obtient l’estimation ponctuelle suivante: est. valeur totale = -55 533 + 1,816*65 000 + 49,833*1 500 + 11 696*2 + 18 430*1 = 179 074$ intervalle de confiance à 95% pour la moyenne de la valeur totale: [170 842, 187 306] intervalle de confiance à 95% pour une valeur totale prédite : [116 173, 241 974]

Remarques: Les longueurs des intervalles de confiance au niveau 95% du modèle de régression multiple pour une propriété de 1500 pi2 sont plus petites que pour le modèle de régression simple. Donc l’addition de plusieurs autres variables dans le modèle a aidé à expliquer encore plus la variabilité de la valeur totale et à améliorer nos estimations. Certaines conditions sont nécessaires à la validité du modèle et de l ’inférence correspondante (similaire à la régression linéaire simple).

Multicolinéarité Si deux ou plusieurs variables indépendantes sont fortement corrélées (> 0.85 en valeur absolue), on dira qu’il y a multicolinéarité. Ceci peut influencer les valeurs des paramètres dans le modèle. Aussi, si deux variables indépendantes sont fortement corrélées alors seulement une des deux variables sera incluse dans le modèle, l’autre n’apportant que très peu d’information supplémentaire. On peut calculer la corrélation entre plusieurs variables en utilisant l’analyse de corrélation dans l’utilitaire d’analyse de Excel.

Variables auxiliaires Comment tenir compte de variables qualitatives pour la régression? Applications: Test sur deux ou plusieurs moyennes

Technique Si une variable qualitative prends deux valeurs, on définit une seule variable prenant les valeurs 0 ou 1. Exemples Sexe: 1 si masculin, 0 si féminin Garage: 1 si garage, 0 sinon.

Technique (suite) En général, si une variable qualitative prends m valeurs, on définit (m-1) variables prenant les valeurs 0 ou 1. Exemple: Sexe et catégorie d’emploi (cadre, col blanc, col bleu) X1 = 1 si masculin, 0 sinon. X2 = 1 si cadre, 0 sinon. X3 = 1 si col blanc, 0 sinon.

Exemple On veut expliquer le salaire (Y) d'un employé en tenant compte de trois variables, dont deux variables qualitatives, le sexe (masculin ou féminin) et la statut d'employé (cadre, col blanc, col bleu), ainsi que l’expérience. X1 = 1 si masculin, 0 sinon. X2 = 1 si cadre, 0 sinon. X3 = 1 si col blanc, 0 sinon. X4 = années d’expérience.

Exemple (suite) Le modèle de régression est: Y = 0 + 1X1 + 2X2 + 3 X3 + 4X4 +  Interprétez 0, 1, 2, 3 , 4 . Comment peut-on savoir s’il est vrai que les femmes ont des salaires inférieurs?

“P-value” pour les tests unilatéraux avec Excel. Les tableaux obtenus lors d’une étude de régression nous fournissent la “p-value” P pour les tests H0 : bi = 0 vs H1 : bi ≠ 0 . Pour un test statistique avec une hypothèse H1 unilatérale, la valeur de la “p-value” n’est pas donnée, puisque le sens de H1 n’est pas spécifié.  

Règles à suivre : Si H1 est de la forme bi > 0 et que bi >0, alors la “p-value” est P/2. Sinon c’est 1- P/2.  Si H1 est de la forme bi < 0 et que bi <0, alors la “p-value” est P/2. Sinon c’est 1- P/2.  En mots, la “p-value” unilatérale est la moitié de la p-value bilatérale lorsque le coefficient a le même signe que celui de l’hypothèse H1. Sinon c’est 1- “p-value”/2.

Exemple avec une variable qualitative à deux niveaux que l’on a codé 0 et 1 dans le modèle: The regression equation is Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC + 18899 Sbains + 22372 Garage Predictor Coef StDev T P Constant -72080 14175 -5,08 0,000 Terrain 1,8342 0,1892 9,69 0,000 Pied2 47,175 7,013 6,73 0,000 SbainsC 11535 3256 3,54 0,001 Sbains 18899 5211 3,63 0,001 Garage 22372 11116 2,01 0,058 S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8% Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2, Sbains=1, Garage=1) Fit StDev Fit 95,0% CI 95,0% PI 182248 4345 ( 173588; 190908) ( 120511; 243985)

Prévision de la valeur totale pour une maison sans garage lorsque pour les mêmes valeurs de terrain, etc. Predicted Values (terrain= 65 000, Pied2=1 500, SbainsC=2, Sbains=1, Garage=0) Fit StDev Fit 95,0% CI 95,0% PI 159876 10362 ( 139224; 180528) ( 95355; 224397)

H0: bgarage  0 vs H1: bgarage > 0 Question: Si on veut savoir si le fait d’avoir un garage augmente le prix de la maison, on doit tester: H0: bgarage  0 vs H1: bgarage > 0 Comme bgarage = 22372 > 0, la p-value correspondant à H1: bgarage > 0 est 0.0058/2 = 0.029 < 0.05. Donc on accepte H1. Il faut noter ici que la p-value bilatérale aurait amené à enlever la variable.

Dans l’exemple précédent, si on avait codé la variable par 0 si garage et 1 sinon, on aurait obtenu le tableau suivant: The regression equation is Totale = - 72080 + 1,83 Terrain + 47,2 Pied2 + 11535 SbainsC + 18899 Sbains - 22372 Garage Predictor Coef StDev T P Constant -72080 14175 -5,08 0,000 Terrain 1,8342 0,1892 9,69 0,000 Pied2 47,175 7,013 6,73 0,000 SbainsC 11535 3256 3,54 0,001 Sbains 18899 5211 3,63 0,001 Garage -22372 11116 -2,01 0,058 S = 30671 R-Sq = 87,6% R-Sq(adj) = 86,8%

H0: bgarage  0 vs H1: bgarage > 0 Si on avait testé: H0: bgarage  0 vs H1: bgarage > 0 nous aurions obtenu une p-value de 0.971 = 1 – 0.058/2 car bgarage = -22372 < 0. Par contre, si on avait voulu savoir si le fait d’avoir un garage augmente le prix de la maison, on aurait testé: H0: bgarage ≥ 0 vs H1: bgarage < 0 nous aurions obtenu une p-value de 0.029 = 0.058/2 car bgarage = -22372 < 0 a le même signe que H1.

Comparaison de moyennes Supposons que l’on veuille comparer les moyennes de deux groupes (m1 = moyenne du groupe 1), (m2 = moyenne du groupe 2) pour une variable Y. On peut le faire avec la régression en définissant X = 1 pour le groupe 1, X= 0 pour le groupe 2. Dans ce cas, b = m1 – m2.

L’hypothèse H1 : m1> m2 correspond à H1 : b > 0 .

Exemple Un gestionnaire se questionne sur la pertinence d’un cours de formation ayant pour but d’améliorer la rapidité d’exécution d’une tâche. Pour ce faire il choisit au hasard 10 employés et leur soumet une tâche et il note le temps d’exécution (en heures) pour chacun des employés. Ces employés suivent le fameux cours de formation et à leur retour, on leur donne une nouvelle tâche (similaire à la première) et on note à nouveau le temps d’exécution pour chaque employé. Les résultats sont dans le fichier etude.xls

Questions: a) Devrait-on permettre à d’autres employés de suivre cette formation? Prenez a = 5%. b) On a oublié d’identifier les employés sur le questionnaire. Est-ce que la conclusion est la même?  

Solution Dans le premier cas, les données sont appariées et l’on teste si les différences (Avant – Après) sont positives. La p-value est 0.0003 < 0.05 = a. Donc on accepte H1 et l’on conclut que m1 (avant) est significativement plus grande que m2 (après), ce qui nous amène à suggérer la formation.

Dans le second cas, les données ne sont pas appariées Dans le second cas, les données ne sont pas appariées. On peut utiliser la régression avec Y = temps d’exécution et X = 1 pour les données avant le cours et X = 0 pour les données après le cours. On trouve alors

Comme on veut tester H1 : b > 0 (qui est la même que H1 : mavant> maprès ), et que l’on a b = 0.244 > 0, la p-value est 0.201/2 = 0.1005 > 0.05. On accepte donc H0, ce qui nous amène à rejeter la suggestion de formation. Vous avez ici un exemple frappant de la plus grande variabilité engendrée par la considération des deux échantillons indépendants vs échantillons appariés.

Remarque: cas de plusieurs moyennes Si on veut comparer les moyennes de k groupes, d’une variable Y, on peut encore utiliser la régression. Pour i=1, 2, …, k-1, on pose: Xi = 1 pour le groupe i, 0 sinon. Alors 0 = moyenne du groupe k = k et   i = i - k, 1  i  k-1.

Par conséquent, le test de régression où H0 est donnée par H0: 1 = 2 = ... = k-1 = 0, est équivalent au test de comparaison des moyennes où H0 est donnée par H0: 1 = 2 = ... = k. Dans ce cas, H1 est: au moins deux moyennes sont égales, mais on ne sait pas lesquelles. Pour ce faire, on doit regarder la p-value pour chacune des variables.