LA REGRESSION MULTIPLE

Slides:

Advertisements

Présentations similaires

3. Variantes de l’algorithme

Advertisements

Test statistique : principe

Les tests d’hypothèses (I)

Inférence statistique

C1 Bio-statistiques F. KOHLER

Inférence statistique

Comparaison d'une distribution observée à une distribution théorique

1. Les caractéristiques de dispersion. 11. Utilité.

Les tests d’hypothèses

Analyse de la variance à un facteur

1 Analyse de la variance multivariée Michel Tenenhaus.

Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.

COURS 5 Les tableaux croisés, le chi-carré et la corrélation

Un neurone élémentaire

La Régression Multiple

Cours Corporate finance Eléments de théorie du portefeuille Le Medaf

Régression linéaire simple

Problème Autre formulation :

Systèmes d’équations du premier degré à deux variables

1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]

Méthodes de prévision (STT-3220)

Modeles Lineaires.

Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->

La corrélation et la régression multiple

La corrélation et la régression

La corrélation et la régression

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.

Les modèles linéaires (Generalized Linear Models, GLM)

Corrélation Principe fondamental d’une analyse de corrélation

Le comportement des coûts Chapitre 3

LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.

La régression multiple

Régression linéaire (STT-2400)

l’algorithme du simplexe

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement

Régression linéaire (STT-2400)

Mesures dans le temps Claude Marois 2012.

Mise en forme en Mathématiques

MATHÉMATIQUES FINANCIÈRES I

Calcul de probabilités

Présentation de la méthode des Eléments Finis

STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.

Régression linéaire multiple : hypothèses & interprétation. Partie 2.

Régression linéaire multiple : hypothèses & interprétation

Régression linéaire multiple : hypothèses & tests. Partie 3.

Statistiques, deuxième séance

M1 2013/2014 Implémentation des procédures statistiques Introduction aux régressions linéaires.

ÉVALUATION DE LA PERFORMANCE D’UN PORTEFEUILLE

Corrélation et régression linéaire

Méthodes de Biostatistique

Méthodologie expérimentale : l’analyse des données

Seconde partie - cours n°3 Théorie des tests

Suites numériques Définitions.

ANOVA : introduction.

Multi-country Workshop on Development Impact Evaluation in Finance and Private Sector Development Dakar, Senegal, February 1-4, 2010 Non-Experimental Methods.

Chimiometrie (Chemometrics)

ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage

Rappels de statistiques descriptives

STATISTIQUES ANALYTIQUES (suite)

ANALYSE DE DONNEES TESTS D’ASSOCIATION

La régression simple Michel Tenenhaus

LA REGRESSION LINEAIRE

Intervalles de confiance pour des proportions L’inférence statistique

Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.

Tests relatifs aux variables qualitatives: Tests du Chi-deux.

ETUDES PRONOSTIQUES Pr Ganry.

Introduction aux statistiques Intervalles de confiance

Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.

Transcription de la présentation:

LA REGRESSION MULTIPLE Pr. BOULAHOUAL Adil

En analyse explicative simple, nous essayons de définir la relation qui existe entre deux variables statistiques. Exemples : Le nombre d’années d’expérience et le nombre d’erreurs commises ; Le volume des ventes et les dépenses en publicité ; Alors qu’en analyse explicative multiple le types de problème auquel nous nous heurtons et du genre : La tranche d’âge du conducteur, sa santé, son état d’ébriété, et le nombre d’accidents d’auto ; Rappel Pr. BOULAHOUAL Adil

Sous le contrôle de l’Économiste Économiste (Expert du domaine) Exprime une théorie sur un phénomène économique Ex. La demande dépend du prix ANALYSE DE DONNEES Statisticien (Estimation) Estime les paramètres du modèle à partir de données. Validation statistique. Ex.;( B0=2) ;(B1=12) ; (B2 =5) Mathématicien (Modélisation) Propose une formulation algébrique de la théorie. Ex. Demande =B0+ (B1*prix) + (B2 *type bien) Sous le contrôle de l’Économiste Validation de l’Expert du domaine (ex. a est forcément négatif) Pr. BOULAHOUAL Adil

LA REGRESSION MULTIPLE EXEMPLE INTRODUCTIF Voulons savoir quelles variables influencent le salaire annuel d’un employé (SALAIRE), la théorie nous indique que le nombre d’années de scolarité a une importante influence (EDUC). Nous désirons savoir si le sexe des employés (SEXE) et le nombre de mois d’expérience dans l’entreprise (DURÉE) exercent également une influence. Nous avons donc choisi un modèle de régression hiérarchique avec la méthode entrée pour la première étape, mais la méthode ascendante pour la deuxième, dans le but de faciliter l’explication. Pr. BOULAHOUAL Adil

Pour réaliser l’analyse, cliquez sur Analyse, Régression, puis Linéaire. Pr. BOULAHOUAL Adil

Pr. BOULAHOUAL Adil

L’encadré Coefficients Estimations : valeurs b pour chaque VI et son test de signification Intervalles de confiance : intervalle pour chaque coefficient dans la population, L’encadré Résidus Durbin-Watson : évaluation de l’indépendance des erreurs Diagnostic des observations : valeur de la VD observée et prédite, du résiduel et du résiduel standardisé pour chaque observation. Indique quelles observations ont un résiduel standardisé de plus de 2 ou 3 é.-t. Les autres statistiques Qualité de l’ajustement : fournit le test pour évaluer l’ensemble du modèle (F), le R multiple, le R2correspondant et le R2 ajusté Variation de R-deux : changement du R2 après l’ajout d’un nouveau bloc de VIMesure et corrélations partielles : Corrélation entre chaque VI et la VD Corrélation partielle entre chaque VI et VD en contrôlant pour les autres VI Pr. BOULAHOUAL Adil

Pr. BOULAHOUAL Adil

INTERPRETETATION DES RESULTATS OBTENU DEPUIS SPSS Statistiques descriptives Examinons d’abord les statistiques descriptives. Nous voyons que l’étude a été menée auprès de 474 employés qui gagnent en moyenne près de 35 000 dh. Ils travaillent depuis environ sept ans pour leur entreprise (81 mois) et ont en moyenne 13 ans de scolarité. Bien entendu, la moyenne des hommes et des femmes n’est pas une donnée intéressante. Pr. BOULAHOUAL Adil

Le deuxième tableau fournit par SPSS concerne les corrélations entre les variables étudiées. Nous voyons qu’il y a une corrélation très élevée et significative entre le salaire et le nombre d’années de scolarité, ainsi qu’entre le sexe et le salaire. On doit porter attention aux relations entre les variables indépendantes. Si la corrélation entre deux de ces variables se situait à 0,9 (ou – 0,9), il y aurait un risque important de multicolinéarité. Nous aurions introduit deux variables qui mesuraient sensiblement la même chose pour prédire le salaire actuel. Pr. BOULAHOUAL Adil

Variables introduites/éliminées Le tableau suivant présente les variables retenues dans les étapes du modèle. On constate que la variable EDUC est présente puisque nous avions choisi la méthode Entrée. Pour le deuxième modèle, SPSS a retenu la variable SEXE avec notre critère de sélection (la probabilité F est significative à p < 0,05). Pr. BOULAHOUAL Adil

Étape 1 : Évaluation de la pertinence du modèle de régression Tout comme la régression simple, l’interprétation débute en évaluant la pertinence du modèle. On vérifie si la première étape du modèle explique significativement plus de variabilité qu’un modèle sans prédicteur. Ceci revient à prendre une décision sur l'hypothèse nulle d'absence de relation entre la variable dépendante et la combinaison de variables indépendantes, i.e. le modèle. Si le modèle tient la route, le travail consiste ensuite à interpréter la contribution relative de chaque variable indépendante significative à l’explication de la variance de la variable dépendante. Dans la mesure où un modèle est non significatif, l’interprétation s’arrête avec ce constat. Il faut alors retourner à la table à dessin pour construire et tester un autre modèle. Pr. BOULAHOUAL Adil

Analyse de variance Le tableau d’ANOVA nous donne les informations nécessaires pour prendre une décision sur l’hypothèse nulle (H0) à l’effet que notre modèle n’explique pas significativement plus de variance qu’un modèle sans prédicteur. Dans le tableau ANOVA suivant, le modèle 1 teste l’H0 que le nombre d’années de scolarité n’explique pas mieux le salaire qu’un modèle sans prédicteur. La ligne du modèle 2 teste l’H0 que la combinaison du nombre d’années de scolarité et du sexe n’explique pas mieux la variation de salaire qu’un modèle sans prédicteur. Dans les deux cas, l’H0 est que les modèles ne sont pas significativement plus explicatifs de la variance du salaire qu’un modèle sans prédicteur. Pr. BOULAHOUAL Adil

Nous constatons à la lecture du tableau que selon la valeur F obtenue pour les deux modèles, on peut rejeter l’hypothèse nulle. En effet, les valeurs de F=365,38 et de F=225,51 sont significatives à p < 0,001, ce qui indique que l’on a moins de 0,1 % de probabilité de commettre une erreur en affirmant que les modèles contribuent à mieux prédire le salaire qu’un modèle sans prédicteur. ANOVA Pr. BOULAHOUAL Adil

Étape 2 : Évaluation de l'ajustement du modèle de régression aux données Maintenant que l’on sait que le modèle final est significatif, on peut estimer dans quelle mesure ce modèle est ajusté aux données observées. Cette information est contenue dans le tableau «Récapitulatif des modèles». Dans le cas d’une régression multiple à entrée forcée, rappelons qu’un seul modèle ferait l’objet du tableau. Récap. Pr. BOULAHOUAL Adil

Ce tableau contient plusieurs informations utiles Ce tableau contient plusieurs informations utiles. Premièrement, la valeur de la corrélation multiple (R) nous renseigne sur l’ajustement du modèle. Cet indice varie entre 0 et 1 et représente en valeur absolue la corrélation entre la variable dépendante et la combinaison de toutes les variables indépendantes du modèle. Plus la valeur de R est près de 1, plus le modèle est ajusté aux données. Dans notre exemple, le modèle final a une valeur de R de 0,70 ce qui est relativement élevé et qui suggère que le modèle est bien ajusté. Pr. BOULAHOUAL Adil

Étape 3 : Évaluation de la performance du modèle de régression Le tableau permet également d’évaluer la performance du modèle en termes de proportion de la variance expliquée par la combinaison des variables indépendantes avec le calcul de la valeur de R². On se rappellera que la valeur du R², lorsqu’elle est multipliée par 100, indique le pourcentage de variabilité de Y expliquée par le modèle (la combinaison de tous les prédicteurs). Dans notre exemple, on observe que 48,9 % du salaire est expliqué par la combinaison de la scolarité et du sexe de l’employé. Pr. BOULAHOUAL Adil

Étape 4 : Estimation des paramètres du modèle Maintenant que nous savons que notre modèle est significatif et que le deuxième est celui qui explique le plus de variance, il est possible de construire l’équation de régression pour prédire une valeur de Y. L’équation de base était la suivante : Yi = (β 0 + β 1X1 + β 2X2 + … + β nXn) + εi Pr. BOULAHOUAL Adil

L’erreur standard nous renseigne sur la variabilité du coefficient dans la population. Elle permet également d’indiquer si le coefficient est significatif. La signification de t nous permet de répondre à la question «est-ce que le b est différent de 0 ? » Plus la valeur de t est élevée et plus celle de p est petite, , plus le prédicteur contribue fortement au modèle. Nous constatons donc que les deux variables sont significatives, mais qu’en termes de leur poids relatif dans le modèle, la variabilité expliquée par le nombre d’années de scolarité est plus importante que celle expliquée par le sexe. Pr. BOULAHOUAL Adil

La valeur du Beta standardisé (β) apporte aussi une information intéressante en plus d’indiquer le sens de la relation (+/-) et le poids relatif de la variable dans le modèle. Elle indique le changement en écart-type de la VD pour chaque augmentation d’un écart-type de la VI quand toutes les autres valeurs sont constantes. Par exemple, la valeur d’un écart-type du salaire est de 17 075,66 dhs et celle d’un écart-type de scolarité est de 2,89dhs. Nous pouvons donc savoir que l’augmentation de d’un é.-t. de la scolarité (2,89) est associé à l’augmentation de 0,57 é.-t. du salaire (0,57*17 075,66 = 9 733,13). Par conséquent, chaque fois que l’on étudie 2,89 années de plus, le salaire augmente de 9 733,13 dhs. Pr. BOULAHOUAL Adil

Ce tableau présente également la valeur des corrélations et des corrélations partielles. Ce sont ces valeurs sur lesquelles se base SPSS lorsqu’il choisit d’introduire des variables lorsque l’on sélectionne une méthode progressive. La première variable est choisie à partir de la corrélation simple la plus forte (ici 0,661 pour EDUC). Le choix des variables suivantes est par contre basé sur la corrélation partielle, c'est-à-dire la plus forte corrélation entre les variables toujours disponibles et la partie de variance qui reste à expliquer une fois que l’on a retiré ce qui est expliqué par la première VI. Finalement, la valeur VIF (ou la tolérance qui est l’inverse du VIF (1/VIF)) permet de vérifier la prémisse de multicolinéarité. Nous cherchons à obtenir une valeur VIF près de 1. Si elle est de 10, c’est problématique. Inversement, si la valeur de la tolérance est équivalente à 0,1, il y a un problème sérieux de colinéarité dans le modèle. Probablement que les corrélations entre 2 VI ou plus sont trop élevées. Pr. BOULAHOUAL Adil

Le diagnostic des observations et la vérification des prémisses Ce dernier tableau est fourni grâce aux options sélectionnées préalablement. Il nous renseigne sur la présence de valeurs extrêmes qui influenceraient le modèle, notamment sur la qualité de l’ajustement des données. Les valeurs extrêmes font varier les coefficients b et sont mal prédites par le modèle. Ces valeurs produisent une valeur résiduelle importante. Comme nous avons vu précédemment dans le rappel théorique, nous ne voulons aucune valeur résiduelle standardisée de plus de 3,29 (ou de moins de -3,29), pas plus de 1 % de l’échantillon ayant une valeur de plus de 2,58 (ou de moins de -2,58) ainsi que pas plus de 5 % des observations ayant une valeur de plus de 1,96 (ou de moins de – 1,96). Pr. BOULAHOUAL Adil

Pr. BOULAHOUAL Adil

Bon courage Pr. BOULAHOUAL Adil