LA RÉGRESSION MULTIPLE Michel Tenenhaus
La régression multiple Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X1,…, Xk
Cas Ventes : les données X8 X1 X2 X3 X4 X5 X6 X7 Y ! !
Cas Ventes Variable à expliquer : Y = Ventes semestrielles (KF) Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)
Problème de prévision des ventes Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200
Cas Ventes : Graphiques des liaisons deux à deux
Cas Ventes : les corrélations Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)
Cas Ventes : choix de modèles Quel est le meilleur modèle à une variable? Quel est le meilleur modèle à deux variables?
1. Les données Y = Variable à expliquer X1, …, Xk numérique (ou dépendante) X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données
2. Le modèle Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). Les i sont indépendants les uns des autres.
i Ventes Un outlier yi Zone de probabilité à 95% i i + 2 yi = 0 + 1*MTi + 2*PUBi + i Un outlier yi Zone de probabilité à 95% i i + 2 x1i i - 2 x2i MT PUB
3. Les problèmes A) Estimation des coefficients de régression 0, 1,…, k. B) Estimation de l’écart-type du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk : R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?
Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y. J) Intervalle de confiance à 95% de E(Y).
4. Estimation des coefficients de régression j Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi - = erreur Méthode des moindres carrés : On recherche minimisant .
Résultats SPSS
Résultats SPSS
Graphique SPSS
Graphique SPSS Régression simple de Ventes sur Prévision 7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.
5. Estimation de l’écart-type du terme résiduel
Résultats SPSS
6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk + avec N(0, ) Loi de Un résidu ei est considéré comme trop important si 95% ou 1.96 -1.96 Résidu standardisé
7. Coefficient de détermination R2 et corrélation multiple R Somme des carrés totale carrés expliquée carrés résiduelle A) Formule de décomposition B) R2 = C) R =
Visualisation de la qualité de la régression multiple
8. La liaison globale entre Y et X1,…,Xk est-elle significative ? Modèle : Y = 0 + 1X1 + … + kXk + Test : H0 : 1 = … = k = 0 (Y = 0 + ne dépend pas des X) H1 : Au moins un j 0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque de se tromper : Rejet de H0 si F F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor
Niveau de signification Plus petite valeur de conduisant au rejet de H0 Loi de F sous H0 Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque de se tromper si NS
9. L’apport marginal de Xj est-il significatif ? Modèle : Y = 0 + 1X1 + … + jXj + … + kXk + Test : H0 : j = 0 (On peut supprimer Xj) H1 : j 0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque de se tromper : Rejet de H0 si | tj | t1-/2 (n-k-1) Variance Inflation Factor Fractile d’une loi de Student
Indiquer les variables significatives du modèle ( = 0.05)
Niveau de signification Plus petite valeur de conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque de se tromper si NS
Mesure de la multi-colinéarité : Tolérance et VIF Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. VIF = Variance Inflation Factor = 1 / Tolérance Il est préférable d’observer un VIF inférieur à 3.
Mesure de la multi-colinéarité : Tolérance et VIF
La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).
10. Sélection des variables Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj) 0.1 = valeur par défaut de SPSS).
Cas Ventes Régression pas à pas descendante Compléter le tableau suivant : Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Variable la moins Modèle variables détermination Ecart-type significative satisfaisant explicatives R 2 résiduel avec NS ³ 0.1 8 M
Etape 1 Variable enlevée : Total publicité de la branche
Etape 2 Variable enlevée : Budget de recherche
Etape 3 Variable enlevée : Frais de ventes
Etape 4 Variable enlevée : Remises aux grossistes
Etape 5 Toutes les variable sont significatives au seuil .10
Analyse des résidus du modèle simplifié
11. Comparaison de modèles Modèle complet Modèle simplifié
Test sur le modèle complet H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j 0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque de se tromper si : F F1- [k1-k2, n-k1-1]
12. Intervalle de prévision de yi Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.
Résultats SPSS pour le modèle simplifié
Graphique SPSS 8
Graphique SPSS Intervalles de prévision de y à 95% 7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction
Prédiction 7000 6000 5000 4000 3000 VENTES 8
13. Intervalle de confiance de E(Y) Modèle : Yi = 0 + 1x1i + … + kxki + i Intervalle de confiance de E(Yi) au niveau 0.95 Formule simplifiée :
Résultats SPSS pour le modèle simplifié
Graphique SPSS Intervalle de confiance de E(Y) à 95%