La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

LA RÉGRESSION MULTIPLE

Présentations similaires


Présentation au sujet: "LA RÉGRESSION MULTIPLE"— Transcription de la présentation:

1 LA RÉGRESSION MULTIPLE
Michel Tenenhaus

2 La régression multiple
Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X1,…, Xk

3 Cas Ventes : les données
X8 X1 X2 X3 X4 X5 X6 X7 Y ! !

4 Cas Ventes Variable à expliquer : Y = Ventes semestrielles (KF)
Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)

5 Problème de prévision des ventes
Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200

6 Cas Ventes : Graphiques des liaisons deux à deux

7 Cas Ventes : les corrélations
Corrélation R significative au risque 5% si |R| > 2/ (= pour n = 38)

8 Cas Ventes : choix de modèles
Quel est le meilleur modèle à une variable? Quel est le meilleur modèle à deux variables?

9 1. Les données Y = Variable à expliquer X1, …, Xk numérique
(ou dépendante) X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données

10 2. Le modèle Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). Les i sont indépendants les uns des autres.

11 i Ventes Un outlier   yi  Zone de probabilité à 95%   i i + 2
yi = 0 + 1*MTi + 2*PUBi + i Un outlier yi Zone de probabilité à 95% i i + 2 x1i i - 2 x2i MT PUB

12 3. Les problèmes A) Estimation des coefficients de régression
0, 1,…, k. B) Estimation de l’écart-type  du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk : R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?

13 Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y. J) Intervalle de confiance à 95% de E(Y).

14 4. Estimation des coefficients de régression j
Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi = erreur Méthode des moindres carrés : On recherche minimisant

15 Résultats SPSS

16 Résultats SPSS

17 Graphique SPSS

18 Graphique SPSS Régression simple de Ventes sur Prévision
7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.

19 5. Estimation de l’écart-type  du terme résiduel

20 Résultats SPSS

21 6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  avec   N(0, ) Loi de  Un résidu ei est considéré comme trop important si 95% ou 1.96 -1.96 Résidu standardisé

22 7. Coefficient de détermination R2 et corrélation multiple R
Somme des carrés totale carrés expliquée carrés résiduelle A) Formule de décomposition B) R2 = C) R =

23 Visualisation de la qualité de la régression multiple

24 8. La liaison globale entre Y et X1,…,Xk est-elle significative ?
Modèle : Y = 0 + 1X1 + … + kXk +  Test : H0 : 1 = … = k = 0 (Y = 0 +  ne dépend pas des X) H1 : Au moins un j  0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si F  F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor

25 Niveau de signification
Plus petite valeur de  conduisant au rejet de H0 Loi de F sous H0 Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque  de se tromper si NS  

26 9. L’apport marginal de Xj est-il significatif ?
Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  Test : H0 : j = 0 (On peut supprimer Xj) H1 : j  0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si | tj |  t1-/2 (n-k-1) Variance Inflation Factor Fractile d’une loi de Student

27 Indiquer les variables significatives du modèle
( = 0.05)

28 Niveau de signification
Plus petite valeur de  conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque  de se tromper si NS  

29 Mesure de la multi-colinéarité : Tolérance et VIF
Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. VIF = Variance Inflation Factor = 1 / Tolérance Il est préférable d’observer un VIF inférieur à 3.

30 Mesure de la multi-colinéarité : Tolérance et VIF

31 La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).

32 10. Sélection des variables
Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj)  0.1 = valeur par défaut de SPSS).

33 Cas Ventes Régression pas à pas descendante
Compléter le tableau suivant : Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Variable la moins Modèle variables détermination Ecart-type significative satisfaisant explicatives R 2 résiduel avec NS 0.1 8 M

34 Etape 1 Variable enlevée : Total publicité de la branche

35 Etape 2 Variable enlevée : Budget de recherche

36 Etape 3 Variable enlevée : Frais de ventes

37 Etape 4 Variable enlevée : Remises aux grossistes

38 Etape 5 Toutes les variable sont significatives au seuil .10

39 Analyse des résidus du modèle simplifié

40 11. Comparaison de modèles
Modèle complet Modèle simplifié

41 Test sur le modèle complet
H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j  0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque  de se tromper si : F  F1- [k1-k2, n-k1-1]

42 12. Intervalle de prévision de yi
Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.

43 Résultats SPSS pour le modèle simplifié

44 Graphique SPSS 8

45 Graphique SPSS Intervalles de prévision de y à 95%
7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction

46 Prédiction 7000 6000 5000 4000 3000 VENTES 8

47 13. Intervalle de confiance de E(Y)
Modèle : Yi = 0 + 1x1i + … + kxki + i Intervalle de confiance de E(Yi) au niveau 0.95 Formule simplifiée :

48 Résultats SPSS pour le modèle simplifié

49 Graphique SPSS Intervalle de confiance de E(Y) à 95%


Télécharger ppt "LA RÉGRESSION MULTIPLE"

Présentations similaires


Annonces Google