LA REGRESSION MULTIPLE Pr. BOULAHOUAL Adil
En analyse explicative simple, nous essayons de définir la relation qui existe entre deux variables statistiques. Exemples : Le nombre d’années d’expérience et le nombre d’erreurs commises ; Le volume des ventes et les dépenses en publicité ; Alors qu’en analyse explicative multiple le types de problème auquel nous nous heurtons et du genre : La tranche d’âge du conducteur, sa santé, son état d’ébriété, et le nombre d’accidents d’auto ; Rappel Pr. BOULAHOUAL Adil
Sous le contrôle de l’Économiste Économiste (Expert du domaine) Exprime une théorie sur un phénomène économique Ex. La demande dépend du prix ANALYSE DE DONNEES Statisticien (Estimation) Estime les paramètres du modèle à partir de données. Validation statistique. Ex.;( B0=2) ;(B1=12) ; (B2 =5) Mathématicien (Modélisation) Propose une formulation algébrique de la théorie. Ex. Demande =B0+ (B1*prix) + (B2 *type bien) Sous le contrôle de l’Économiste Validation de l’Expert du domaine (ex. a est forcément négatif) Pr. BOULAHOUAL Adil
LA REGRESSION MULTIPLE EXEMPLE INTRODUCTIF Voulons savoir quelles variables influencent le salaire annuel d’un employé (SALAIRE), la théorie nous indique que le nombre d’années de scolarité a une importante influence (EDUC). Nous désirons savoir si le sexe des employés (SEXE) et le nombre de mois d’expérience dans l’entreprise (DURÉE) exercent également une influence. Nous avons donc choisi un modèle de régression hiérarchique avec la méthode entrée pour la première étape, mais la méthode ascendante pour la deuxième, dans le but de faciliter l’explication. Pr. BOULAHOUAL Adil
Pour réaliser l’analyse, cliquez sur Analyse, Régression, puis Linéaire. Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
L’encadré Coefficients Estimations : valeurs b pour chaque VI et son test de signification Intervalles de confiance : intervalle pour chaque coefficient dans la population, L’encadré Résidus Durbin-Watson : évaluation de l’indépendance des erreurs Diagnostic des observations : valeur de la VD observée et prédite, du résiduel et du résiduel standardisé pour chaque observation. Indique quelles observations ont un résiduel standardisé de plus de 2 ou 3 é.-t. Les autres statistiques Qualité de l’ajustement : fournit le test pour évaluer l’ensemble du modèle (F), le R multiple, le R2correspondant et le R2 ajusté Variation de R-deux : changement du R2 après l’ajout d’un nouveau bloc de VIMesure et corrélations partielles : Corrélation entre chaque VI et la VD Corrélation partielle entre chaque VI et VD en contrôlant pour les autres VI Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
INTERPRETETATION DES RESULTATS OBTENU DEPUIS SPSS Statistiques descriptives Examinons d’abord les statistiques descriptives. Nous voyons que l’étude a été menée auprès de 474 employés qui gagnent en moyenne près de 35 000 dh. Ils travaillent depuis environ sept ans pour leur entreprise (81 mois) et ont en moyenne 13 ans de scolarité. Bien entendu, la moyenne des hommes et des femmes n’est pas une donnée intéressante. Pr. BOULAHOUAL Adil
Le deuxième tableau fournit par SPSS concerne les corrélations entre les variables étudiées. Nous voyons qu’il y a une corrélation très élevée et significative entre le salaire et le nombre d’années de scolarité, ainsi qu’entre le sexe et le salaire. On doit porter attention aux relations entre les variables indépendantes. Si la corrélation entre deux de ces variables se situait à 0,9 (ou – 0,9), il y aurait un risque important de multicolinéarité. Nous aurions introduit deux variables qui mesuraient sensiblement la même chose pour prédire le salaire actuel. Pr. BOULAHOUAL Adil
Variables introduites/éliminées Le tableau suivant présente les variables retenues dans les étapes du modèle. On constate que la variable EDUC est présente puisque nous avions choisi la méthode Entrée. Pour le deuxième modèle, SPSS a retenu la variable SEXE avec notre critère de sélection (la probabilité F est significative à p < 0,05). Pr. BOULAHOUAL Adil
Étape 1 : Évaluation de la pertinence du modèle de régression Tout comme la régression simple, l’interprétation débute en évaluant la pertinence du modèle. On vérifie si la première étape du modèle explique significativement plus de variabilité qu’un modèle sans prédicteur. Ceci revient à prendre une décision sur l'hypothèse nulle d'absence de relation entre la variable dépendante et la combinaison de variables indépendantes, i.e. le modèle. Si le modèle tient la route, le travail consiste ensuite à interpréter la contribution relative de chaque variable indépendante significative à l’explication de la variance de la variable dépendante. Dans la mesure où un modèle est non significatif, l’interprétation s’arrête avec ce constat. Il faut alors retourner à la table à dessin pour construire et tester un autre modèle. Pr. BOULAHOUAL Adil
Analyse de variance Le tableau d’ANOVA nous donne les informations nécessaires pour prendre une décision sur l’hypothèse nulle (H0) à l’effet que notre modèle n’explique pas significativement plus de variance qu’un modèle sans prédicteur. Dans le tableau ANOVA suivant, le modèle 1 teste l’H0 que le nombre d’années de scolarité n’explique pas mieux le salaire qu’un modèle sans prédicteur. La ligne du modèle 2 teste l’H0 que la combinaison du nombre d’années de scolarité et du sexe n’explique pas mieux la variation de salaire qu’un modèle sans prédicteur. Dans les deux cas, l’H0 est que les modèles ne sont pas significativement plus explicatifs de la variance du salaire qu’un modèle sans prédicteur. Pr. BOULAHOUAL Adil
Nous constatons à la lecture du tableau que selon la valeur F obtenue pour les deux modèles, on peut rejeter l’hypothèse nulle. En effet, les valeurs de F=365,38 et de F=225,51 sont significatives à p < 0,001, ce qui indique que l’on a moins de 0,1 % de probabilité de commettre une erreur en affirmant que les modèles contribuent à mieux prédire le salaire qu’un modèle sans prédicteur. ANOVA Pr. BOULAHOUAL Adil
Étape 2 : Évaluation de l'ajustement du modèle de régression aux données Maintenant que l’on sait que le modèle final est significatif, on peut estimer dans quelle mesure ce modèle est ajusté aux données observées. Cette information est contenue dans le tableau «Récapitulatif des modèles». Dans le cas d’une régression multiple à entrée forcée, rappelons qu’un seul modèle ferait l’objet du tableau. Récap. Pr. BOULAHOUAL Adil
Ce tableau contient plusieurs informations utiles Ce tableau contient plusieurs informations utiles. Premièrement, la valeur de la corrélation multiple (R) nous renseigne sur l’ajustement du modèle. Cet indice varie entre 0 et 1 et représente en valeur absolue la corrélation entre la variable dépendante et la combinaison de toutes les variables indépendantes du modèle. Plus la valeur de R est près de 1, plus le modèle est ajusté aux données. Dans notre exemple, le modèle final a une valeur de R de 0,70 ce qui est relativement élevé et qui suggère que le modèle est bien ajusté. Pr. BOULAHOUAL Adil
Étape 3 : Évaluation de la performance du modèle de régression Le tableau permet également d’évaluer la performance du modèle en termes de proportion de la variance expliquée par la combinaison des variables indépendantes avec le calcul de la valeur de R². On se rappellera que la valeur du R², lorsqu’elle est multipliée par 100, indique le pourcentage de variabilité de Y expliquée par le modèle (la combinaison de tous les prédicteurs). Dans notre exemple, on observe que 48,9 % du salaire est expliqué par la combinaison de la scolarité et du sexe de l’employé. Pr. BOULAHOUAL Adil
Étape 4 : Estimation des paramètres du modèle Maintenant que nous savons que notre modèle est significatif et que le deuxième est celui qui explique le plus de variance, il est possible de construire l’équation de régression pour prédire une valeur de Y. L’équation de base était la suivante : Yi = (β 0 + β 1X1 + β 2X2 + … + β nXn) + εi Pr. BOULAHOUAL Adil
L’erreur standard nous renseigne sur la variabilité du coefficient dans la population. Elle permet également d’indiquer si le coefficient est significatif. La signification de t nous permet de répondre à la question «est-ce que le b est différent de 0 ? » Plus la valeur de t est élevée et plus celle de p est petite, , plus le prédicteur contribue fortement au modèle. Nous constatons donc que les deux variables sont significatives, mais qu’en termes de leur poids relatif dans le modèle, la variabilité expliquée par le nombre d’années de scolarité est plus importante que celle expliquée par le sexe. Pr. BOULAHOUAL Adil
La valeur du Beta standardisé (β) apporte aussi une information intéressante en plus d’indiquer le sens de la relation (+/-) et le poids relatif de la variable dans le modèle. Elle indique le changement en écart-type de la VD pour chaque augmentation d’un écart-type de la VI quand toutes les autres valeurs sont constantes. Par exemple, la valeur d’un écart-type du salaire est de 17 075,66 dhs et celle d’un écart-type de scolarité est de 2,89dhs. Nous pouvons donc savoir que l’augmentation de d’un é.-t. de la scolarité (2,89) est associé à l’augmentation de 0,57 é.-t. du salaire (0,57*17 075,66 = 9 733,13). Par conséquent, chaque fois que l’on étudie 2,89 années de plus, le salaire augmente de 9 733,13 dhs. Pr. BOULAHOUAL Adil
Ce tableau présente également la valeur des corrélations et des corrélations partielles. Ce sont ces valeurs sur lesquelles se base SPSS lorsqu’il choisit d’introduire des variables lorsque l’on sélectionne une méthode progressive. La première variable est choisie à partir de la corrélation simple la plus forte (ici 0,661 pour EDUC). Le choix des variables suivantes est par contre basé sur la corrélation partielle, c'est-à-dire la plus forte corrélation entre les variables toujours disponibles et la partie de variance qui reste à expliquer une fois que l’on a retiré ce qui est expliqué par la première VI. Finalement, la valeur VIF (ou la tolérance qui est l’inverse du VIF (1/VIF)) permet de vérifier la prémisse de multicolinéarité. Nous cherchons à obtenir une valeur VIF près de 1. Si elle est de 10, c’est problématique. Inversement, si la valeur de la tolérance est équivalente à 0,1, il y a un problème sérieux de colinéarité dans le modèle. Probablement que les corrélations entre 2 VI ou plus sont trop élevées. Pr. BOULAHOUAL Adil
Le diagnostic des observations et la vérification des prémisses Ce dernier tableau est fourni grâce aux options sélectionnées préalablement. Il nous renseigne sur la présence de valeurs extrêmes qui influenceraient le modèle, notamment sur la qualité de l’ajustement des données. Les valeurs extrêmes font varier les coefficients b et sont mal prédites par le modèle. Ces valeurs produisent une valeur résiduelle importante. Comme nous avons vu précédemment dans le rappel théorique, nous ne voulons aucune valeur résiduelle standardisée de plus de 3,29 (ou de moins de -3,29), pas plus de 1 % de l’échantillon ayant une valeur de plus de 2,58 (ou de moins de -2,58) ainsi que pas plus de 5 % des observations ayant une valeur de plus de 1,96 (ou de moins de – 1,96). Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
Bon courage Pr. BOULAHOUAL Adil