La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 LA RÉGRESSION MULTIPLE Michel Tenenhaus. 2 La régression multiple Une variable à expliquer numérique Y k variables explicatives numériques ou binaires.

Présentations similaires


Présentation au sujet: "1 LA RÉGRESSION MULTIPLE Michel Tenenhaus. 2 La régression multiple Une variable à expliquer numérique Y k variables explicatives numériques ou binaires."— Transcription de la présentation:

1 1 LA RÉGRESSION MULTIPLE Michel Tenenhaus

2 2 La régression multiple Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X 1,…, X k

3 Cas Ventes : les données X1X1 X2X2 X3X3 X4X4 X5X5 X6X6 X7X7 X8X8 Y ! !

4 4 Cas Ventes Variable à expliquer : Y = Ventes semestrielles (KF) Variables explicatives : X 1 = Marché total (MF) X 2 = Remises aux grossistes (KF) X 3 = Prix (F) X 4 = Budget de Recherche (KF) X 5 = Investissement (KF) X 6 = Publicité (KF) X 7 = Frais de ventes (KF) X 8 = Total budget publicité de la branche (KF)

5 5 Problème de prévision des ventes Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200

6 6 Cas Ventes : Graphiques des liaisons deux à deux

7 7 Cas Ventes : les corrélations Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)

8 8 Cas Ventes : choix de modèles Quel est le meilleur modèle à une variable? Quel est le meilleur modèle à deux variables?

9 9 1. Les données Y = Variable à expliquer numérique (ou dépendante) X 1, …, X k = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données

10 10 2. Le modèle Chaque valeur observée y i est considérée comme une réalisation dune variable aléatoire Y i définie par : où les x ji sont fixes et i est un terme aléatoire de loi N(0, ). Les i sont indépendants les uns des autres.

11 11 MT PUB Ventes y i = *MT i + 2 *PUB i + i x 1i x 2i Zone de probabilité à 95% i yiyi i i + 2 i - 2 Un outlier

12 12 3. Les problèmes A) Estimation des coefficients de régression 0, 1,…, k. B) Estimation de lécart-type du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X 1,…,X k : R, R 2 E) La liaison globale entre Y et X 1,…, X k est-elle significative ?

13 13 Les problèmes (suite) F) Lapport marginal de chaque variable X j (en plus des autres) à lexplication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables X j. H) Comparaison de modèles I) Intervalle de prévision à 95% de y. J) Intervalle de confiance à 95% de E(Y).

14 14 4. Estimation des coefficients de régression j Notations : -y i = valeur observée - = valeur calculée = prévision de y i -e i = y i - = erreur Méthode des moindres carrés : On recherche minimisant.

15 15 Résultats SPSS

16 16 Résultats SPSS

17 17 Graphique SPSS

18 18 Graphique SPSS Régression simple de Ventes sur Prévision Prévision VENTES La droite des moindres carrés est exactement la première bissectrice.

19 19 5. Estimation de lécart-type du terme résiduel Estimation de 2 : Estimation de :

20 20 Résultats SPSS

21 21 6. Analyse des résidus Modèle : Y = X 1 + … + j X j + … + k X k + avec N(0, ) Loi de 95% Un résidu e i est considéré comme trop important si ou Résidu standardisé

22 22 Somme des carrés totale Somme des carrés expliquée Somme des carrés résiduelle A) Formule de décomposition 7. Coefficient de détermination R 2 et corrélation multiple R B) R 2 = C) R =

23 23 Visualisation de la qualité de la régression multiple

24 24 8. La liaison globale entre Y et X 1,…,X k est-elle significative ? Modèle : Y = X 1 + … + k X k + Test : H 0 : 1 = … = k = 0 ( Y = 0 + ne dépend pas des X ) H 1 : Au moins un j 0 ( Y dépend dau moins un X) Statistique utilisée : Décision de rejeter H 0 au risque de se tromper : Rejet de H 0 si F F 1- (k, n-k-1) Fractile dune loi de Fisher-Snedecor

25 25 Niveau de signification Loi de F sous H 0 F observé Niveau de signification On rejette H 0 au risque de se tromper si NS Plus petite valeur de conduisant au rejet de H 0 F 1- (k,n-k-1)

26 26 9. Lapport marginal de X j est-il significatif ? Modèle : Y = X 1 + … + j X j + … + k X k + Test : H 0 : j = 0 (On peut supprimer X j ) H 1 : j 0 (Il faut conserver X j ) Statistique utilisée : Décision de rejeter H 0 au risque de se tromper : Rejet de H 0 si | t j | t 1- /2 (n-k-1) Fractile dune loi de Student Variance Inflation Factor

27 27 Indiquer les variables significatives du modèle ( = 0.05)

28 28 Niveau de signification On rejette « H 0 : j = 0 » au risque de se tromper si NS 0 |t j | -|t j | Loi de t j sous H 0 NS/2 Plus petite valeur de conduisant au rejet de H 0 t 1- /2 (n-k-1) /2

29 29 Mesure de la multi-colinéarité : Tolérance et VIF Tolérance (X j ) = 1 - R 2 (X j ; Autres X) Il est préférable dobserver une tolérance supérieure à VIF = Variance Inflation Factor = 1 / Tolérance Il est préférable dobserver un VIF inférieur à 3.

30 30 Mesure de la multi-colinéarité : Tolérance et VIF

31 31 La multi-colinéarité S(X 1,…,X k ) est la somme des carrés expliquée par les variables X 1,…,X k. 1) F partiel 2) On obtient un |t j | petit si : -|cor(Y,X j )| est petite (ex : RG) ou bien -R 2 (X j ; Autres variables X) est grande (ex : FV).

32 Sélection des variables Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable X j ayant lapport marginal le plus faible : |t j | minimum ou NS(t j ) maximum à condition que cet apport soit non significatif (NS(t j ) 0.1 = valeur par défaut de SPSS).

33 33 Cas Ventes Régression pas à pas descendante Compléter le tableau suivant : Prévoir les ventes du 39 e semestre et donner un intervalle de prévision à 95% de ces ventes à laide du modèle obtenu. Nombre de variables explicatives Coefficient de détermination R 2 Ecart-type résiduel Variable la moins significative avec NS 0.1 Modèle satisfaisant 8

34 34 Etape 1 Variable enlevée : Total publicité de la branche

35 35 Etape 2 Variable enlevée : Budget de recherche

36 36 Etape 3 Variable enlevée : Frais de ventes

37 37 Etape 4 Variable enlevée : Remises aux grossistes

38 38 Etape 5 Toutes les variable sont significatives au seuil.10

39 39 Analyse des résidus du modèle simplifié

40 40 11.Comparaison de modèles Modèle complet Modèle simplifié

41 41 Test sur le modèle complet Modèle complet Test : Statistique utilisée : H 0 : 2 = 4 = 7 = 8 = 0 H 1 : Au moins un de ces j 0 où : k 1 = Nb de variables du modèle complet k 2 = Nb de variables du modèle simplifié Décision : On rejette H 0 au risque de se tromper si : F F 1- [k 1 -k 2, n-k 1 -1]

42 Intervalle de prévision de y i Modèle : Y i = x 1i + … + k x ki + i y i = future valeur de Y i Intervalle de prévision de y i au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si y i nappartient pas à son propre intervalle de prévision.

43 43 Résultats SPSS pour le modèle simplifié

44 44 Graphique SPSS 8

45 45 Graphique SPSS Intervalles de prévision de y à 95% Prédiction VENTES

46 46 Prédiction VENTES

47 Intervalle de confiance de E(Y) Modèle : Y i = x 1i + … + k x ki + i Intervalle de confiance de E(Y i ) au niveau 0.95 Formule simplifiée :

48 48 Résultats SPSS pour le modèle simplifié

49 49 Graphique SPSS Intervalle de confiance de E(Y) à 95%


Télécharger ppt "1 LA RÉGRESSION MULTIPLE Michel Tenenhaus. 2 La régression multiple Une variable à expliquer numérique Y k variables explicatives numériques ou binaires."

Présentations similaires


Annonces Google