La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

LA RÉGRESSION MULTIPLE

Présentations similaires


Présentation au sujet: "LA RÉGRESSION MULTIPLE"— Transcription de la présentation:

1 LA RÉGRESSION MULTIPLE
Michel Tenenhaus

2 La régression multiple
Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X1,…, Xk

3 Cas Ventes : les données
X8 X1 X2 X3 X4 X5 X6 X7 Y ! !

4 Cas Ventes Variable à expliquer : Y = Ventes semestrielles (KF)
Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)

5 Problème de prévision des ventes
Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200

6 Cas Ventes : Graphiques des liaisons deux à deux

7 Cas Ventes : les corrélations
Corrélation R significative au risque 5% si |R| > 2/ (= pour n = 38)

8 Cas Ventes : choix de modèles
Quel est le meilleur modèle à une variable? Quel est le meilleur modèle à deux variables?

9 1. Les données Y = Variable à expliquer X1, …, Xk numérique
(ou dépendante) X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données

10 2. Le modèle Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). Les i sont indépendants les uns des autres.

11 3. Les problèmes A) Estimation des coefficients de régression
0, 1,…, k. B) Estimation de l’écart-type  du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk : R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?

12 Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y.

13 4. Estimation des coefficients de régression j
Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi = erreur Méthode des moindres carrés : On recherche minimisant

14 Résultats SPSS

15 Résultats SPSS

16 Graphique SPSS

17 Graphique SPSS Régression simple de Ventes sur Prévision
7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.

18 5. Estimation de l’écart-type  du terme résiduel

19 Résultats SPSS

20 6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  avec   N(0, ) Loi de  Un résidu ei est considéré comme trop important si 95% ou 1.96 -1.96 Résidu standardisé

21 7. Coefficient de détermination R2 et corrélation multiple R
Somme des carrés totale carrés expliquée carrés résiduelle A) Formule de décomposition B) R2 = C) R =

22 8. La liaison globale entre Y et X1,…,Xk est-elle significative ?
Modèle : Y = 0 + 1X1 + … + kXk +  Test : H0 : 1 = … = k = 0 (Y = 0 +  ne dépend pas des X) H1 : Au moins un j  0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si F  F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor

23 Niveau de signification
Plus petite valeur de  conduisant au rejet de H0 Loi de F sous H0 Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque  de se tromper si NS  

24 9. L’apport marginal de Xj est-il significatif ?
Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  Test : H0 : j = 0 (On peut supprimer Xj) H1 : j  0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si | tj |  t1-/2 (n-k-1) Variance Inflation Factor Fractile d’une loi de Student

25 Indiquer les variables significatives du modèle
( = 0.05)

26 Niveau de signification
Plus petite valeur de  conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque  de se tromper si NS  

27 Mesure de la multi-colinéarité : Tolérance et VIF
Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. VIF = Variance Inflation Factor = 1 / Tolérance Il est préférable d’observer un VIF inférieur à 3.

28 Mesure de la multi-colinéarité : Tolérance et VIF

29 La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).

30 10. Sélection des variables
Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj)  0.1 = valeur par défaut de SPSS).

31 Cas Ventes Régression pas à pas descendante
Compléter le tableau suivant : Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Variable la moins Modèle variables détermination Ecart-type significative satisfaisant explicatives R 2 résiduel avec NS 0.1 8 M

32 Etape 1 Variable enlevée : Total publicité de la branche

33 Etape 2 Variable enlevée : Budget de recherche

34 Etape 3 Variable enlevée : Frais de ventes

35 Etape 4 Variable enlevée : Remises aux grossistes

36 Etape 5 Toutes les variable sont significatives au seuil .10

37 Analyse des résidus du modèle simplifié

38 11. Comparaison de modèles
Modèle complet Modèle simplifié

39 Test sur le modèle complet
H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j  0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque  de se tromper si : F  F1- [k1-k2, n-k1-1]

40 12. Intervalle de prévision de yi
Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.

41 Résultats SPSS pour le modèle simplifié

42 Graphique SPSS 8

43 Graphique SPSS Intervalles de prévision de y à 95%
7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction


Télécharger ppt "LA RÉGRESSION MULTIPLE"

Présentations similaires


Annonces Google