LA RÉGRESSION MULTIPLE

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Ma surprise du Zoo.
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Vocabulaire 6.2 Français II Bon voyage ! 1.
Licence pro MPCQ : Cours
Distance inter-locuteur
Le pluriel des noms
Les numéros 70 –
Les numéros
ACTIVITES Les fractions (10).
Les identités remarquables
Sirop de Liège « industriel »
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
La régression simple Michel Tenenhaus. 2 La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative.
Analyse Factorielle des Correspondances
Analyse de la variance à un facteur
Analyse de la variance à deux facteurs (données déséquilibrées) Michel Tenenhaus.
1 Analyse de la variance multivariée Michel Tenenhaus.
La régression simple Michel Tenenhaus
Modèle Linéaire Généralisé (Proc Genmod)
Description et estimation
Analyse de la variance à un facteur
Comparaison de deux échantillons indépendants au niveau des moyennes
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
-17 Anticipations économiques en Europe Septembre 2013 Indicateur > +20 Indicateur 0 a +20 Indicateur 0 a -20 Indicateur < -20 Union européenne total:
CONCOURS DE CONAISSANCE 4 Français I Mars Il ________ la géographie (to learn).
1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
PM18 MONTAGE DU BLINDAGE AUTOUR DE LA QRL F. DELSAUX - 25 JAN 2005
Titre : Implémentation des éléments finis sous Matlab
ACDI IUT de Paris – 05 février CR-MD - v1.20 Enquête POST-DUT Informatique 03 1 Les diplômés de 2003 Claude Ratard - Vélizy.
LES NOMBRES PREMIERS ET COMPOSÉS
Les chiffres & les nombres
1 INETOP
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Les modèles linéaires (Generalized Linear Models, GLM)
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Aire d’une figure par encadrement
La régression multiple
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Nom:____________ Prénom: ___________
CALENDRIER-PLAYBOY 2020.
Exercice de vérification 1 p
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Rappels de statistiques descriptives
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
La régression simple Michel Tenenhaus
Transcription de la présentation:

LA RÉGRESSION MULTIPLE Michel Tenenhaus

La régression multiple Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X1,…, Xk

Cas Ventes : les données X8 X1 X2 X3 X4 X5 X6 X7 Y ! !

Cas Ventes Variable à expliquer : Y = Ventes semestrielles (KF) Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)

Problème de prévision des ventes Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200

Cas Ventes : Graphiques des liaisons deux à deux

Cas Ventes : les corrélations Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)

Cas Ventes : choix de modèles Quel est le meilleur modèle à une variable? Quel est le meilleur modèle à deux variables?

1. Les données Y = Variable à expliquer X1, …, Xk numérique (ou dépendante) X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données

2. Le modèle Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). Les i sont indépendants les uns des autres.

i Ventes Un outlier   yi  Zone de probabilité à 95%   i i + 2 yi = 0 + 1*MTi + 2*PUBi + i Un outlier   yi  Zone de probabilité à 95%   i i + 2    x1i i - 2 x2i MT PUB

3. Les problèmes A) Estimation des coefficients de régression 0, 1,…, k. B) Estimation de l’écart-type  du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk : R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?

Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y. J) Intervalle de confiance à 95% de E(Y).

4. Estimation des coefficients de régression j Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi - = erreur Méthode des moindres carrés : On recherche minimisant .

Résultats SPSS

Résultats SPSS

Graphique SPSS

Graphique SPSS Régression simple de Ventes sur Prévision 7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.

5. Estimation de l’écart-type  du terme résiduel

Résultats SPSS

6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  avec   N(0, ) Loi de  Un résidu ei est considéré comme trop important si 95% ou 1.96 -1.96 Résidu standardisé

7. Coefficient de détermination R2 et corrélation multiple R Somme des carrés totale carrés expliquée carrés résiduelle A) Formule de décomposition B) R2 = C) R =

Visualisation de la qualité de la régression multiple

8. La liaison globale entre Y et X1,…,Xk est-elle significative ? Modèle : Y = 0 + 1X1 + … + kXk +  Test : H0 : 1 = … = k = 0 (Y = 0 +  ne dépend pas des X) H1 : Au moins un j  0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si F  F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor

Niveau de signification Plus petite valeur de  conduisant au rejet de H0 Loi de F sous H0  Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque  de se tromper si NS  

9. L’apport marginal de Xj est-il significatif ? Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +  Test : H0 : j = 0 (On peut supprimer Xj) H1 : j  0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque  de se tromper : Rejet de H0 si | tj |  t1-/2 (n-k-1) Variance Inflation Factor Fractile d’une loi de Student

Indiquer les variables significatives du modèle ( = 0.05)

Niveau de signification Plus petite valeur de  conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque  de se tromper si NS  

Mesure de la multi-colinéarité : Tolérance et VIF Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. VIF = Variance Inflation Factor = 1 / Tolérance Il est préférable d’observer un VIF inférieur à 3.

Mesure de la multi-colinéarité : Tolérance et VIF

La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).

10. Sélection des variables Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj)  0.1 = valeur par défaut de SPSS).

Cas Ventes Régression pas à pas descendante Compléter le tableau suivant : Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Variable la moins Modèle variables détermination Ecart-type significative satisfaisant explicatives R 2 résiduel avec NS ³ 0.1 8 M

Etape 1 Variable enlevée : Total publicité de la branche

Etape 2 Variable enlevée : Budget de recherche

Etape 3 Variable enlevée : Frais de ventes

Etape 4 Variable enlevée : Remises aux grossistes

Etape 5 Toutes les variable sont significatives au seuil .10

Analyse des résidus du modèle simplifié

11. Comparaison de modèles Modèle complet Modèle simplifié

Test sur le modèle complet H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j  0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque  de se tromper si : F  F1- [k1-k2, n-k1-1]

12. Intervalle de prévision de yi Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.

Résultats SPSS pour le modèle simplifié

Graphique SPSS 8

Graphique SPSS Intervalles de prévision de y à 95% 7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction

Prédiction 7000 6000 5000 4000 3000 VENTES 8

13. Intervalle de confiance de E(Y) Modèle : Yi = 0 + 1x1i + … + kxki + i Intervalle de confiance de E(Yi) au niveau 0.95 Formule simplifiée :

Résultats SPSS pour le modèle simplifié

Graphique SPSS Intervalle de confiance de E(Y) à 95%