La Régression Multiple

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

La régression logistique: fondements et conditions d’application
C1 Bio-statistiques F. KOHLER
Inférence statistique
Régression ou corrélation
Régression -corrélation
Vérification des données
Corrélation linéaire et la droite de régression
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Méthodes de Biostatistique
Analyse factorielle.

Structure de causalité bivariée
L’inférence statistique
Analyse de la variance : ANOVA à un facteur
Régression linéaire simple
Groupe 1: Classes de même intervalle
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Modeles Lineaires.
Analyse de la covariance
Analyse de la variance multivariée
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
La régression logistique
Lanalyse de la covariance. X y ANOVA Lanalyse de la covariance y X ANOVA.
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Structure discriminante (analyse discriminante)
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Les analyses multivariées
Analyse factorielle de variance: Principes d’expérimentation
La régression multiple
STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Méthodes de Biostatistique
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
La régression simple Michel Tenenhaus
LA REGRESSION LINEAIRE
Présentation du marché obligataire
Séance 8 30 novembre 2005 N. Yamaguchi
Statistique Cours #4 Régression linéaire simple et multiple
ANOVA à 1 facteur en groupes de mesure indépendants
Chapitre 12 Régression linéaire simple et corrélation linéaire
Probabilités et Statistiques Année 2010/2011
1 BIO 4518: Biostatistiques appliquées Le 1er novembre 2005 Laboratoire 7 ANCOVAs (Analyse de covariance)
Élection canadienne du 20 juillet-12 oct NOMBRE% CIRCONSCRIPTIONS65— ÉLECTEURS INSCRITS — ABSTENTIONS ,1 VOTES EXPRIMÉS
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Méthode des moindres carrés (1)
Modèle linéaire Relation entre une variable expliquée Y (par exemple le salaire), et p variables explicatives X j, j = 1, …, p (par exemple, p = 5, X 1.
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Statistiques à 2 variables
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Approximation linéaire –Méthode du moindre carré u Exemple.
BIO 4518: Biostatistiques appliquées Le 8 novembre 2005 Laboratoire 8 Regressions multiples.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Introduction aux statistiques Intervalles de confiance
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

La Régression Multiple Ursula Hess UQAM

Définitions Corrélation bivariée: Relation entre deux variables continues sans distinction entre VI et VD Régression bivariée: Prédiction d ’une variable dépendante à partir d ’une variable indépendante Corrélation multiple: Relation entre une variable dépendante et une série des variables indépendantes qui sont combinées afin de créer une variable composite Régression multiple: Prédiction d’une variable dépendante à partir d ’une série des variables indépendantes Régression hiérarchique: Le chercheur assigne des priorités aux variables indépendantes Corrélation canonique: La relation entre une série des variables dépendantes et une série de variables indépendantes

Questions de recherche Prédiction Modèle théorique L’importance relative des différentes VIs Ajout d’une variable -> amélioration du modèle? Comparaison de différents modèles théoriques Analyse de chemins causaux

Introduction Régression multiple: une extension de la régression simple; la prédiction d’une variable dépendante à partir de plusieurs variables indépendantes continues Modèle de régression multiple: Y = 0 + 1X1 + 2X2 + e

Plan La relation entre deux variables Les moindres carrés La régression Les commandes SPSS “Goodness of fit”

La relation entre deux variables

Les moindres carrés Nous visons à ajuster une droite: Y’ = a + bX avec une pente b de façon à minimiser d = Y - Y’ ou bien d2 = (Y-Y’)2

Les moindres carrés La pente qui correspond à ces exigences: http://newton.dynamicgeometry.com/JavaSketchpad/Gallery/Other_Explorations_and_Amusements/Least_Squares.html Déf.: La pente b = la variation de Y qui accompagne la variation d’une unité de X

Corrélation et régression

SPSS: Régression simple

Output

Interpretation des résultats Prédiction Consommation crème glacée (pinte/personne) = .207 + .003 * Température (F) Explication: pour chaque degré F de chaleur la personne mangera .003 pintes de crème glacée de plus pour chaque augmentation d’une unité d’écart-type de température la personne augmente sa consommation de crème glacée de .776 unités d’écart-type

Consommation et temperature F Y = .207 + .003 * Temperature (F)

Consommation et temperature C Y = .306 + .006 * Temperature (C) Explication: pour chaque dégré C de chaleur la personne mangera .006 pints de crème glacée de plus pour chaque augmentation d’une unité d’écart-type de temperature la personne augmente sa comsommation de crème glacée .776 unités d’écart-type

Régression simple: Tests des hypothèses L’intervalle de confiance à 95% de la pente  = b ± t.025 SE Test - t avec l’hypothèse nulle: b = 0 t = b/SE Intervalle de prédiction à 95% pour une seule valeur Y0 correspondant au niveau X0

La Régression simple Modèle: Y =  + X + e Postulats de base e: erreurs indépendantes avec une moyenne de 0 et une variance de 2 Postulats de base Homogénéité de la variance Linéarité Indépendance des observations

Goodness of fit

Goodness of fit (suite)

(a) (b) e e Y’ (c) Y’ e (a) patron de distribution “normale” (b) problème d’hétèrogénéitée de la variance (c) nonlinéarité Y’

La régression multiple Sources de variation (Yi-Y.)2 (Somme des carrés totaux; df = n-1) (Yi- Y’i)2 (Somme des carrés résiduels; df = n-k-1) (Y’i-Y.)2 (Somme des carrés régression; df = k) R 2 = somme des carrés régression/somme des carrés totaux. F = (R2/k) / ((1-R2)/(n-k-1)) avec k et n-k-1 df

Considérations pratiques Nombre de cas en relation avec le nombre de VIs Quand le nombre de VIs est égal ou supérieur au nombre de cas, la solution explique toujours toute la variance. Afin que la solution des équations soit théoriquement significative, un rapport de 20 pour 1 est généralement recommandé. Pour une régression hiérarchique, le minimum acceptable est un rapport de 5 pour 1. Pour une régression « stepwise » permettant une généralisation de la solution, un ratio de 40 pour 1 est recommandé.

Considérations pratiques Cas extrêmes (outliers): Les corrélations sont très susceptibles à l’influence des cas extrêmes, il faut donc vérifier les données attentivement

Types de régressions multiples Régression ordinaire Chacune des variables fait partie de l ’équation. Chaque variable est évaluée comme si elle s ’ajoutait à toutes les autres. C’est-à-dire pour chaque variable, seulement sa contribution unique est évaluée. Il est donc possible qu’une variable soit hautement corrélée avec la VD mais que sa contribution semble négligeable car elle est partagée avec d’autres variables.

Régression hiérarchique Les variables sont inclus dans l ’équation dans un ordre prédéterminé par le chercheur. Dans ce cas, les variables qui entrent en premier «prennent» toute la variance disponible pour elles et celles qui entrent plus tard ne disposent que de la variance non-expliquée au moment de leur entrée.

Régression «stepwise» L’ordre d’entrée des variables n’est pas décidé par des raisons théoriques, mais uniquement par des raisons statistiques. A chaque point, la variable qui a la meilleure corrélation avec la VD est ajoutée. Chaque variable prend toute la variance disponible pour elle au moment de son entrée. Cette procédure fournit des résultats potentiellement peu généralisable (capitalise sur la chance).

SPSS

SPSS analyses séquentielles

SPSS (resultats) B1 = variation de Y consécutive à une variation d’une unité de X1, les autres facteurs de régression restent constants. Ex: Toutes les autres choses étant égales, la consommation augmente de .003 pintes par $ de salaire familiale hebdomadaire

Présentation des données (Tabachnick et Fiedel)

Présentation des données: APA

APA suite

Analyses séquentielles

Hypothèses de base Toutes les variables étaient mesurées au niveau intervalle et sans erreur -> Problème d'erreur de mesure La moyenne du terme d'erreur est zéro pour chaque ensemble de valeurs pour les k variables indépendantes La variance est constante pour chaque ensemble de valeurs pour les k variables indépendantes -> Problème de hétérocédasticité Pour chaque paire d'ensembles de valeurs pour les k variables indépendantes les termes d'erreur ne sont pas corrélés, COV(ei, ei)= 0. => il n'y a pas d'auto-corrélation Pour chaque variables indépendantse la COV(Xi, e) = 0. C-à-d, les variables indépendantes ne sont pas corrélées avec le terme d'erreur -> Problème de spécification du modèle Il n'y a pas colinéarité parfaite. C-à-d, il n'y a pas une variable indépendante qui soit parfaitement linéairement liée à une ou plusieurs autres variables indépendantes -> Problème de multicolinéarité Pour chaque ensemble de valeurs pour les k variables indépendantes, ei est distribuée normalement