Télécharger la présentation
1
LA RÉGRESSION MULTIPLE
Michel Tenenhaus
2
La régression multiple
Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X1,…, Xk
3
Cas Ventes : les données
X8 X1 X2 X3 X4 X5 X6 X7 Y ! !
4
Cas Ventes Variable à expliquer : Y = Ventes semestrielles (KF)
Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)
5
Problème de prévision des ventes
Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200
6
Cas Ventes : Graphiques des liaisons deux à deux
7
Cas Ventes : les corrélations
Corrélation R significative au risque 5% si |R| > 2/ (= pour n = 38)
8
Cas Ventes : choix de modèles
Quel est le meilleur modèle à une variable? Quel est le meilleur modèle à deux variables?
9
1. Les données Y = Variable à expliquer X1, …, Xk numérique
(ou dépendante) X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données
10
2. Le modèle Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). Les i sont indépendants les uns des autres.
11
i Ventes Un outlier yi Zone de probabilité à 95% i i + 2
yi = 0 + 1*MTi + 2*PUBi + i Un outlier yi Zone de probabilité à 95% i i + 2 x1i i - 2 x2i MT PUB
12
3. Les problèmes A) Estimation des coefficients de régression
0, 1,…, k. B) Estimation de l’écart-type du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk : R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?
13
Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y. J) Intervalle de confiance à 95% de E(Y).
14
4. Estimation des coefficients de régression j
Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi = erreur Méthode des moindres carrés : On recherche minimisant
15
Résultats SPSS
16
Résultats SPSS
17
Graphique SPSS
18
Graphique SPSS Régression simple de Ventes sur Prévision
7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.
19
5. Estimation de l’écart-type du terme résiduel
20
Résultats SPSS
21
6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk + avec N(0, ) Loi de Un résidu ei est considéré comme trop important si 95% ou 1.96 -1.96 Résidu standardisé
22
7. Coefficient de détermination R2 et corrélation multiple R
Somme des carrés totale carrés expliquée carrés résiduelle A) Formule de décomposition B) R2 = C) R =
23
Visualisation de la qualité de la régression multiple
24
8. La liaison globale entre Y et X1,…,Xk est-elle significative ?
Modèle : Y = 0 + 1X1 + … + kXk + Test : H0 : 1 = … = k = 0 (Y = 0 + ne dépend pas des X) H1 : Au moins un j 0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque de se tromper : Rejet de H0 si F F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor
25
Niveau de signification
Plus petite valeur de conduisant au rejet de H0 Loi de F sous H0 Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque de se tromper si NS
26
9. L’apport marginal de Xj est-il significatif ?
Modèle : Y = 0 + 1X1 + … + jXj + … + kXk + Test : H0 : j = 0 (On peut supprimer Xj) H1 : j 0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque de se tromper : Rejet de H0 si | tj | t1-/2 (n-k-1) Variance Inflation Factor Fractile d’une loi de Student
27
Indiquer les variables significatives du modèle
( = 0.05)
28
Niveau de signification
Plus petite valeur de conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque de se tromper si NS
29
Mesure de la multi-colinéarité : Tolérance et VIF
Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. VIF = Variance Inflation Factor = 1 / Tolérance Il est préférable d’observer un VIF inférieur à 3.
30
Mesure de la multi-colinéarité : Tolérance et VIF
31
La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).
32
10. Sélection des variables
Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj) 0.1 = valeur par défaut de SPSS).
33
Cas Ventes Régression pas à pas descendante
Compléter le tableau suivant : Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Variable la moins Modèle variables détermination Ecart-type significative satisfaisant explicatives R 2 résiduel avec NS 0.1 8 M
34
Etape 1 Variable enlevée : Total publicité de la branche
35
Etape 2 Variable enlevée : Budget de recherche
36
Etape 3 Variable enlevée : Frais de ventes
37
Etape 4 Variable enlevée : Remises aux grossistes
38
Etape 5 Toutes les variable sont significatives au seuil .10
39
Analyse des résidus du modèle simplifié
40
11. Comparaison de modèles
Modèle complet Modèle simplifié
41
Test sur le modèle complet
H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j 0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque de se tromper si : F F1- [k1-k2, n-k1-1]
42
12. Intervalle de prévision de yi
Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.
43
Résultats SPSS pour le modèle simplifié
44
Graphique SPSS 8
45
Graphique SPSS Intervalles de prévision de y à 95%
7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction
46
Prédiction 7000 6000 5000 4000 3000 VENTES 8
47
13. Intervalle de confiance de E(Y)
Modèle : Yi = 0 + 1x1i + … + kxki + i Intervalle de confiance de E(Yi) au niveau 0.95 Formule simplifiée :
48
Résultats SPSS pour le modèle simplifié
49
Graphique SPSS Intervalle de confiance de E(Y) à 95%
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.