La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Régression linéaire simple et multiple. 2 Exemple Une entreprise faisant du marketing direct en ligne aimerait construire un modèle pour identifier.

Présentations similaires


Présentation au sujet: "1 Régression linéaire simple et multiple. 2 Exemple Une entreprise faisant du marketing direct en ligne aimerait construire un modèle pour identifier."— Transcription de la présentation:

1 1 Régression linéaire simple et multiple

2 2 Exemple Une entreprise faisant du marketing direct en ligne aimerait construire un modèle pour identifier les clients les plus susceptibles dacheter des produits de leur prochain catalogue qui doit être envoyé le mois prochain. Ainsi, les clients qui seront identifiés par le modèle comme ayant peu de chance dacheter seront exclu de la prochaine liste denvoi.

3 3 Exemple (suite) Au cours de la derni è re ann é e, l entreprise a recueilli l information suivante dans sa base de donn é es pour un sous- ensemble de ses clients (fichier r é gression.xls): –nombre total denvois postaux, –nombre total de commandes (achats) reçues, –montant total (en dollars) des achats jusquà aujourdhui (variable: Tot_doll), –montant (en dollars) des commandes des 12 derniers mois. –nombre de mois écoulé depuis le dernier achat –sexe du client (variable: sexe, 0=femme 1=homme).

4 4 Exemple (suite) Malheureusement, lentreprise na pas pensé inclure dans sa base de données si les clients ont fait un achat (oui ou non) après chacun des envois postaux. Cependant elle émet lhypothèse que le ratio nombre total de commandes reçues sur le nombre total denvois est une bonne mesure de la probabilité dun achat. Cette variable servira de variable dépendante (Y). Les autres variables serviront de variables explicatives dans le modèle. Comment procéderiez-vous?

5 5 Introduction: Un des objectifs principaux de la statistique est d expliquer la variabilité que l on observe dans les données. La régression linéaire (ou les modèles linéaires) est un outil statistique TRÈS UTILISÉ pour étudier la présence d une relation entre une variable dépendante Y (quantitative et continue) et une ou plusieurs variables indépendantes X 1, X 2, …, X p (qualitatives et/ou quantitatives).

6 6 Un modèle de régression peut servir à répondre à un des 3 objectifs suivants: Décrire (données provenant d études non- expérimentales c.-à-d. on observe la réalité telle quelle est). Confronter des hypothèses (données provenant d études expérimentales contrôlées). Prédire (si on aime le risque!!).

7 7 Exemple: Nous sommes intéressés à savoir quels sont les facteurs importants qui influencent ou déterminent la valeur d une propriété et de construire un modèle qui nous aidera à évaluer cette valeur selon ces facteurs. Pour ce faire, nous avons obtenu la valeur totale pour un échantillon de 79 propriétés dans une région donnée. Les variables suivantes ont également été recueillies pour chacune des propriétés:

8 8 Bref aperçu du fichier de données: # pieds carrés condition valeur valeur du premier de type de OBS totale terrain # d'acres plancher l'extérieur chauffage Good NatGas Good NatGas Good Electric Average Electric Average NatGas Good Electric Excellnt Electric # salles # salles de # de # de de bain bain non # de OBS pièces chambres complète complète foyers GARAGE Garage NoGarage Garage Garage NoGarage Garage Garage

9 9 Est-ce qu il y a un lien entre la valeur totale et ces différents facteurs?

10 10

11 11

12 12 Le coefficient de corrélation r de Pearson sert à mesurer lintensité de la relation linéaire entre deux variables quantitatives. Le coefficient de corrélation r prendra des valeurs entre -1 et 1. S il existe une relation linéaire parfaite entre X et Y alors r = 1 (r =1 si X et Y varient dans le même sens et r = -1 si X varie dans le sens opposé à Y). Si r = 0, ceci indique qu il n y a pas de lien linéaire entre X et Y. Plus la valeur de r s éloigne de 0 pour s approcher de 1 plus l intensité du lien linéaire entre X et Y grandit.

13 13 Y 6.5 ˆ * r = Y r = 1 31 ˆ * 6.0 ˆ * * 29 ˆ * 27 ˆ * 25 ˆ * 5.5 ˆ * * 23 ˆ * 21 ˆ * 19 ˆ * 5.0 ˆ * 17 ˆ * 15 ˆ * 13 ˆ * 4.5 ˆ * * * 11 ˆ * Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ 4.0 ˆ * * Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ X X Y r = ˆ * ˆ * ˆ * ˆ * ˆ * ˆ * ˆ * ˆ * ˆ * ˆ * ˆ * Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒ X

14 14 Statistiques descriptives Variable N Moyenne Médiane Écart type Minimum Maximum Totale Terrain Acre 79 1,579 1,040 1,324 0,290 5,880 Pied Pièces 79 8,519 8,000 2, Chambre 79 3,987 4,000 1, SbainsC 79 2,241 2,000 1, Sbains 79 0,7215 1,000 0, Foyers 79 1,975 2,000 1, Coefficients de corrélation de Pearson Totale Terrain Acre Pied2 Pièces Chambre SbainsC Sbains Terrain 0,815 Acre 0,608 0,918 Pied2 0,767 0,516 0,301 Pièces 0,626 0,518 0,373 0,563 Chambre 0,582 0,497 0,382 0,431 0,791 SbainsC 0,626 0,506 0,376 0,457 0,479 0,586 Sbains 0,436 0,236 0,074 0,354 0,489 0,166 0,172 Foyers 0,548 0,497 0,391 0,365 0,394 0,400 0,486 0,386

15 15 Attention!! Il est important d interpréter le coefficient de corrélation avec le graphique. r = dans tous les cas ci-dessous 12.5 ˆ 10 ˆ * * * * * * 10.0 ˆ * 8 ˆ * * * Y1 * Y2 * * 7.5 ˆ * * 6 ˆ * * * * 5.0 ˆ * 4 ˆ * 2.5 ˆ 2 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ X X 15.0 ˆ Y ˆ * 12.5 ˆ * Y ˆ 10.0 ˆ * * * * * 7.5 ˆ * 7.5 ˆ * * * * * * 5.0 ˆ 5.0 ˆ Šƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒˆƒƒ Šƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ X X

16 16 Régression linéaire simple Pour décrire une relation linéaire entre deux variables quantitatives ou encore pour pouvoir prédire Y pour une valeur donnée de X, nous utilisons une droite de régression: Y = X + Puisque tout modèle statistique nest quune approximation (nous espérons la meilleure possible!!), il y a toujours une erreur, notée dans le modèle, car le lien linéaire nest jamais parfait. S il y avait une relation linéaire parfaite entre Y et X, le terme d erreur serait toujours égale à 0, et toute la variabilité de Y serait expliquée par la variable indépendante X.

17 17 OLS: Méthode des moindres carrés Erreur 1 Erreur 2 Erreur 3 Y = B 0 + B 1 X + e Y X

18 18 Donc, pour une valeur donnée de X, nous aimerions estimer Y. Ainsi, à laide des données de léchantillon nous estimerons les paramètres 0 et 1 du modèle de régression de façon à minimiser la somme des carrés des erreurs. Le coefficient de corrélation au carré est appelé coefficient de détermination et nous indique le pourcentage de la variabilité de Y expliquée par X: R 2 = 1 - (n-2)/(n-1){S e /S y } 2, où S e est lécart type des erreurs et S y est lécart type de Y.

19 19 On peut également utiliser le coefficient de détermination ajusté pour nous indiquer le pourcentage de la variabilité de Y expliquée par X: R 2 ajusté = 1 - {S e /S y } 2.

20 20 Exemple de régressions linéaires simples: MODÈLE 1. Regression Analysis The regression equation is Totale = Pied2 Predictor Coef StDev T P Constant ,93 0,356 Pied2 101,939 9,734 10,47 0,000 S = R-Sq = 58,8% R-Sq(adj) = 58,2% Analysis of Variance Source DF SS MS F P Regression 1 3,26460E+11 3,26460E ,68 0,000 Residual Error 77 2,29181E Total 78 5,55641E+11

21 21 MODÈLE 2. The regression equation is : Totale = Pièces Predictor Coef StDev T P Constant ,01 0,990 Pièces ,05 0,000 S = R-Sq = 39,3% R-Sq(adj) = 38,5% Analysis of Variance Source DF SS MS F P Regression 1 2,18090E+11 2,18090E+11 49,75 0,000 Residual Error 77 3,37551E Total 78 5,55641E+11 __________________________________________________________________ MODÈLE 3. The regression equation is : Totale = Chambre Predictor Coef StDev T P Constant ,26 0,213 Chambre ,29 0,000 S = R-Sq = 33,9% R-Sq(adj) = 33,1% Analysis of Variance Source DF SS MS F P Regression 1 1,88445E+11 1,88445E+11 39,52 0,000 Residual Error 77 3,67196E Total 78 5,55641E+11

22 22 Modèle 1: – valeur totale = *( # pieds carrés ). – R 2 = 58,8%. Donc 58,8% de la variabilité de la valeur totale est expliquée par le # pieds carrés. Modèle 2: – valeur totale = *( # pièces ). – R 2 = 39,3%. Donc 39,3% de la variabilité de la valeur totale est expliquée par le # pièces. Modèle 3: – valeur totale = *( # chambres ). – R 2 = 33,9%. Donc 33,9% de la variabilité de la valeur totale est expliquée par le # chambres.

23 23 Parmi les 3 modèles précédents, lequel choisiriez vous et pourquoi? Le modèle 1 car il a la plus grande valeur de R 2.

24 24 Intervalle de confiance au niveau 1- pour la moyenne des valeurs de Y pour une valeur spécifique de X: Pour le modèle 1 et une valeur de X=1500 pi 2 on obtient l estimation ponctuelle suivante: – est. valeur totale = *1500 = $ –intervalle de confiance à 95% pour la moyenne de la valeur totale pour les propriétés de 1500 pi 2 : [ , ]

25 25 Intervalle de confiance au niveau 1- pour une nouvelle valeur de Y (prévision) étant donné une valeur spécifique de X: Pour le modèle 1 et une valeur de X=1500 pi 2 on obtient lestimation ponctuelle suivante: – est. valeur totale = ,939*1500 = $ –intervalle de confiance à 95% pour une valeur totale prédite lorsque la superficie du premier plancher est de 1500 pi 2 : [59 742, ] L intervalle de confiance pour une valeur prédite est toujours plus grand que pour la moyenne des valeurs de Y pour un X spécifique.

26 26 Régression linéaire multiple Il est fort possible que la variabilité de la variable dépendante Y soit expliquée non pas par une seule variable indépendante X mais plutôt par une combinaison linéaire de plusieurs variables indépendantes X 1, X 2, …, X p. Dans ce cas le modèle de régression multiple est donné par: Y = X X 2 + … + p X p + Aussi, à laide des données de léchantillon nous estimerons les paramètres 0, 1, …, p du modèle de régression de façon à minimiser la somme des carrés des erreurs.

27 27 Le coefficient de corrélation multiple R 2, aussi appelé coefficient de détermination, nous indique le pourcentage de la variabilité de Y expliquée par les variables indépendantes X 1, X 2, …, X p. Lorsquon ajoute une ou plusieurs variables indépendantes dans le modèle, le coefficient R 2 augmente. La question est de savoir si le coefficient R 2 augmente de façon significative. Notons quon ne peut avoir plus de variables indépendantes dans le modèle quil y a d observations dans léchantillon (règle générale: n 5p).

28 28 Exemple: MODÈLE 1. The regression equation is Totale = ,05 Terrain Acre + 43,3 Pied Pièces Chambre SbainsC Sbains Foyers Predictor Coef StDev T P Constant ,87 0,000 Terrain 3,0518 0,5260 5,80 0,000 Acre ,62 0,011 Pied2 43,336 7,670 5,65 0,000 Pièces ,43 0,156 Chambre ,89 0,062 SbainsC ,11 0,039 Sbains ,84 0,006 Foyers ,28 0,783 S = R-Sq = 88,9% R-Sq(adj) = 87,6% Analysis of Variance Source DF SS MS F P Regression 8 4,93877E ,97 0,000 Residual Error Total 78 5,55641E+11

29 29 MODÈLE 2 Regression Analysis The regression equation is Totale = ,11 Terrain Acre + 40,2 Pied Chambre SbainsC Sbains Predictor Coef StDev T P Constant ,58 0,000 Terrain 3,1103 0,5236 5,94 0,000 Acre ,78 0,007 Pied2 40,195 7,384 5,44 0,000 Chambre ,27 0,208 SbainsC ,43 0,018 Sbains ,72 0,008 S = R-Sq = 88,5% R-Sq(adj) = 87,6% Analysis of Variance Source DF SS MS F P Regression 6 4,91859E ,54 0,000 Residual Error Total 78 5,55641E+11

30 30 MODÈLE 3 Regression Analysis The regression equation is Totale = ,20 Terrain Acre + 41,1 Pied SbainsC Sbains Predictor Coef StDev T P Constant ,44 0,000 Terrain 3,2045 0,5205 6,16 0,000 Acre ,85 0,006 Pied2 41,060 7,383 5,56 0,000 SbainsC ,19 0,002 Sbains ,68 0,009 S = R-Sq = 88,3% R-Sq(adj) = 87,5% Analysis of Variance Source DF SS MS F P Regression 5 4,90426E ,80 0,000 Residual Error Total 78 5,55641E+11

31 31 Modèle sans la superficie du terrain ( # d acres ) à cause de la multicolinéarité avec la valeur du terrain. MODÈLE 4 The regression equation is Totale = ,82 Terrain + 49,8 Pied SbainsC Sbains Predictor Coef StDev T P Constant ,71 0,000 Terrain 1,8159 0,1929 9,42 0,000 Pied2 49,833 7,028 7,09 0,000 SbainsC ,52 0,001 Sbains ,47 0,001 S = R-Sq = 87,0% R-Sq(adj) = 86,3% Analysis of Variance Source DF SS MS F P Regression 4 4,83160E+11 1,20790E ,32 0,000 Residual Error Total 78 5,55641E+11

32 32 Parmi les 4 modèles précédents, lequel choisiriez vous et pourquoi? Probablement le modèle 4 car toutes les variables indépendantes sont significatives au niveau 5% (c.-à- d. p-value < 5% pour chaque dans le modèle) et bien que le R 2 soit plus petit, il n est que marginalement plus petit. De plus tous les coefficients du modèle ont « du sens »! Dans le modèle 1 les variables # de pièces et # de foyers ne sont pas statistiquement significatives au niveau 5% (p-value > 5%). La variable # de chambres est à la limite avec un p-value = 0,0624.

33 33 Parmi les 4 modèles précédents, lequel choisiriez vous et pourquoi? Dans le modèle 2 la variable # de chambres n est pas statistiquement significative au niveau 5%. Dans le modèle 3 (et les modèles précédents), le coefficient de la variable # d acres est négatif ce qui est à l encontre du « bon sens » et de ce qu on a observé sur le diagramme de dispersion et le coefficient de corrélation de Pearson positif (r = 0,608). Le coefficient négatif pour la variable # d acres dans les modèles 1 à 3 est causé par le fait qu il y a une forte relation linéaire entre la valeur du terrain et la superficie du terrain (r = 0,918); problème de multicolinéarité.

34 34 Comment choisir un modèle de régression linéaire parmi tous les modèles possibles? Il existe plusieurs techniques: sélection pas à pas en ajoutant une variable à la fois et en commençant par la plus significative (stepwise, forward). sélection à partir du modèle incluant toutes les variables et en enlevant une variable à la fois en commençant par la moins significative (backward). faire tous les modèles possibles et choisir le meilleur sous-ensemble de variables (best subset) selon certains critères spécifiques (ex: R 2 ajusté, C p de Mallow.)

35 35 Exemple de sélection parmi les meilleurs sous-ensembles: Best Subsets Regression : Response is Totale T C S e P h b S F r P i a a b o r A i è m i a y a c e c b n i e Adj. i r d e r s n r Vars R-Sq R-Sq C-p s n e 2 s e C s s 1 66,4 65,9 136, X 1 58,8 58,2 184, X 1 39,3 38,5 307, X 2 82,7 82,2 35, X X 2 78,8 78,3 60, X X 2 74,4 73,7 88, X X 3 85,6 85,0 19, X X X 3 84,8 84,2 24, X X X 3 84,8 84,2 24, X X X 4 87,1 86,4 12, X X X X 4 87,0 86,3 13, X X X X 4 86,6 85,9 15, X X X X 5 88,3 87,5 6, X X X X X 5 87,6 86,7 11, X X X X X 5 87,4 86,5 12, X X X X X 6 88,5 87,6 7, X X X X X X 6 88,3 87,3 8, X X X X X X 6 88,3 87,3 8, X X X X X X 7 88,9 87,8 7, X X X X X X X 7 88,6 87,4 9, X X X X X X X 7 88,3 87,2 10, X X X X X X X 8 88,9 87,6 9, X X X X X X X X

36 36 Sélection du modèle sans la variable # d acres Best Subsets Regression : Response is Totale T C S e P h b S F r P i a a b o r i è m i a y a e c b n i e Adj. i d e r s n r Vars R-Sq R-Sq C-p s n 2 s e C s s 1 66,4 65,9 120, X 1 58,8 58,2 164, X 1 39,3 38,5 278, X 2 82,7 82,2 27, X X 2 72,7 71,9 86, X X 2 72,5 71,8 86, X X 3 84,8 84,2 17, X X X 3 84,8 84,2 17, X X X 3 84,0 83,3 22, X X X 4 87,0 86,3 6, X X X X 4 86,1 85,3 12, X X X X 4 85,3 84,5 16, X X X X 5 87,3 86,4 6, X X X X X 5 87,0 86,1 8, X X X X X 5 87,0 86,1 8, X X X X X 6 87,8 86,8 6, X X X X X X 6 87,3 86,3 8, X X X X X X 6 87,0 85,9 10, X X X X X X 7 87,8 86,6 8, X X X X X X X

37 37 Le choix du meilleur modèle se fait selon la combinaison: La plus grande valeur de R 2 ajusté pour le nombre de variables dans le modèle. La plus petite valeur de C p. Pour les modèles avec R 2 ajusté et C p comparables, on choisira le modèle qui a le plus de « sens » selon les experts dans le domaine. Pour les modèles avec R 2 ajusté et C p comparables, le modèle avec les variables indépendantes les plus faciles et moins coûteuses à mesurer. La validité du modèle.

38 38 Intervalle de confiance au niveau 1- pour la moyenne de Y et une nouvelle valeur de Y (prévision) étant donné une combinaison de valeurs spécifiques pour X 1, X 2, …, X p. Pour le modèle 4 et une propriété avec terrain= $, pi 2 = 1500, 2 salles de bain complète et 1 non-complète, on obtient lestimation ponctuelle suivante: – est. valeur totale = ,816* ,833* * *1 = $ –intervalle de confiance à 95% pour la moyenne de la valeur totale: [ , ] –intervalle de confiance à 95% pour une valeur totale prédite : [ , ]

39 39 Remarques: Les longueurs des intervalles de confiance au niveau 95% du modèle de régression multiple pour une propriété de 1500 pi 2 sont plus petites que pour le modèle de régression simple. Donc laddition de plusieurs autres variables dans le modèle a aidé à expliquer encore plus la variabilité de la valeur totale et à améliorer nos estimations. Si deux ou plusieurs variables indépendantes sont corrélées on dira quil y a multicolinéarité. Ceci peut influencer les valeurs des paramètres dans le modèle. Aussi, si deux variables indépendantes sont fortement corrélées, alors seulement une des deux variables sera incluse dans le modèle, l autre n apportant que très peu d information supplémentaire. Certaines conditions sont nécessaires à la validité du modèle et de l inférence correspondante (similaire à la régression linéaire simple).

40 40 Exemple avec une variable qualitative à deux niveaux que lon codera 0 et 1 dans le modèle: The regression equation is Totale = ,83 Terrain + 47,2 Pied SbainsC Sbains Garage Predictor Coef StDev T P Constant ,08 0,000 Terrain 1,8342 0,1892 9,69 0,000 Pied2 47,175 7,013 6,73 0,000 SbainsC ,54 0,001 Sbains ,63 0,001 Garage ,01 0,048 S = R-Sq = 87,6% R-Sq(adj) = 86,8% Predicted Values (terrain= , Pied2=1 500, SbainsC=2, Sbains=1, Garage=1) Fit StDev Fit 95,0% CI 95,0% PI ( ; ) ( ; )

41 41 Exemple avec une variable qualitative à deux niveaux que lon codera 0 et 1 dans le modèle: The regression equation is Totale = ,83 Terrain + 47,2 Pied SbainsC Sbains Garage Predictor Coef StDev T P Constant ,08 0,000 Terrain 1,8342 0,1892 9,69 0,000 Pied2 47,175 7,013 6,73 0,000 SbainsC ,54 0,001 Sbains ,63 0,001 Garage ,01 0,048 S = R-Sq = 87,6% R-Sq(adj) = 86,8% Predicted Values (terrain= , Pied2=1 500, SbainsC=2, Sbains=1, Garage=0) Fit StDev Fit 95,0% CI 95,0% PI ( ; ) ( 95355; )


Télécharger ppt "1 Régression linéaire simple et multiple. 2 Exemple Une entreprise faisant du marketing direct en ligne aimerait construire un modèle pour identifier."

Présentations similaires


Annonces Google