La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Ursula Hess UQAM. Corrélation bivariée: Relation entre deux variables continues sans distinction entre VI et VD Corrélation bivariée: Relation entre deux.

Présentations similaires


Présentation au sujet: "Ursula Hess UQAM. Corrélation bivariée: Relation entre deux variables continues sans distinction entre VI et VD Corrélation bivariée: Relation entre deux."— Transcription de la présentation:

1 Ursula Hess UQAM

2 Corrélation bivariée: Relation entre deux variables continues sans distinction entre VI et VD Corrélation bivariée: Relation entre deux variables continues sans distinction entre VI et VD Régression bivariée: Prédiction d une variable dépendante à partir d une variable indépendante Régression bivariée: Prédiction d une variable dépendante à partir d une variable indépendante Corrélation multiple: Relation entre une variable dépendante et une série des variables indépendantes qui sont combinées afin de créer une variable composite Corrélation multiple: Relation entre une variable dépendante et une série des variables indépendantes qui sont combinées afin de créer une variable composite Régression multiple: Prédiction dune variable dépendante à partir d une série des variables indépendantes Régression multiple: Prédiction dune variable dépendante à partir d une série des variables indépendantes Régression hiérarchique: Le chercheur assigne des priorités aux variables indépendantes Régression hiérarchique: Le chercheur assigne des priorités aux variables indépendantes Corrélation canonique: La relation entre une série des variables dépendantes et une série de variables indépendantes Corrélation canonique: La relation entre une série des variables dépendantes et une série de variables indépendantes

3 Prédiction Prédiction Modèle théorique Modèle théorique Limportance relative des différentes VIs Limportance relative des différentes VIs Ajout dune variable -> amélioration du modèle? Ajout dune variable -> amélioration du modèle? Comparaison de différents modèles théoriques Comparaison de différents modèles théoriques Analyse de chemins causaux Analyse de chemins causaux

4 Régression multiple: une extension de la régression simple; la prédiction dune variable dépendante à partir de plusieurs variables indépendantes continues Régression multiple: une extension de la régression simple; la prédiction dune variable dépendante à partir de plusieurs variables indépendantes continues Modèle de régression multiple: Modèle de régression multiple: Y = X X 2 + e Y = X X 2 + e

5 La relation entre deux variables La relation entre deux variables Les moindres carrés Les moindres carrés La régression La régression Les commandes SPSS Les commandes SPSS Goodness of fit Goodness of fit

6 r =.78

7 Nous visons à ajuster une droite: Nous visons à ajuster une droite: Y = a + bX Y = a + bX avec une pente b de façon à minimiser avec une pente b de façon à minimiser d = Y - Y d = Y - Y ou bien ou bien d 2 = (Y-Y) 2 d 2 = (Y-Y) 2

8 La pente qui correspond à ces exigences: La pente qui correspond à ces exigences: Déf.: La pente b = la variation de Y qui accompagne la variation dune unité de X

9

10

11

12

13 = * Température (F) Prédiction Explication: pour chaque degré F de chaleur la personne mangera.003 pintes de crème glacée de plus pour chaque augmentation dune unité décart- type de température la personne augmente sa consommation de crème glacée de.776 unités décart-type Consommation crème glacée (pinte/personne)

14 Y = * Temperature (F)

15 Y = * Temperature (C) Explication: pour chaque dégré C de chaleur la personne mangera.006 pints de crème glacée de plus pour chaque augmentation dune unité décart-type de temperature la personne augmente sa comsommation de crème glacée.776 unités décart-type

16

17 Lintervalle de confiance à 95% de la pente Lintervalle de confiance à 95% de la pente = b ± t.025 SE = b ± t.025 SE Test - t avec lhypothèse nulle: b = 0 Test - t avec lhypothèse nulle: b = 0 t = b/SE t = b/SE Intervalle de prédiction à 95% pour une seule valeur Y 0 correspondant au niveau X 0 Intervalle de prédiction à 95% pour une seule valeur Y 0 correspondant au niveau X 0

18 Modèle: Y = + X + e Modèle: Y = + X + e e: erreurs indépendantes avec une moyenne de 0 et une variance de 2 e: erreurs indépendantes avec une moyenne de 0 et une variance de 2 Postulats de base Postulats de base Homogénéité de la variance Homogénéité de la variance Linéarité Linéarité Indépendance des observations Indépendance des observations

19

20

21

22 e Y (a) patron de distribution normale (b) problème dhétèrogénéitée de la variance (c) nonlinéarité e Y e Y (a) (b) (c)

23 Sources de variation Sources de variation (Y i -Y.) 2 (Somme des carrés totaux; df = n-1) (Y i -Y.) 2 (Somme des carrés totaux; df = n-1) (Y i - Y i ) 2 (Somme des carrés résiduels; df = n-k-1) (Y i - Y i ) 2 (Somme des carrés résiduels; df = n-k-1) (Y i -Y.) 2 (Somme des carrés régression; df = k) (Y i -Y.) 2 (Somme des carrés régression; df = k) R 2 = somme des carrés régression/somme des carrés totaux. R 2 = somme des carrés régression/somme des carrés totaux. F = (R 2 /k) / ((1-R 2 )/(n-k-1)) avec k et n-k-1 df F = (R 2 /k) / ((1-R 2 )/(n-k-1)) avec k et n-k-1 df

24 Nombre de cas en relation avec le nombre de VIs Nombre de cas en relation avec le nombre de VIs Quand le nombre de VIs est égal ou supérieur au nombre de cas, la solution explique toujours toute la variance. Quand le nombre de VIs est égal ou supérieur au nombre de cas, la solution explique toujours toute la variance. Afin que la solution des équations soit théoriquement significative, un rapport de 20 pour 1 est généralement recommandé. Afin que la solution des équations soit théoriquement significative, un rapport de 20 pour 1 est généralement recommandé. Pour une régression hiérarchique, le minimum acceptable est un rapport de 5 pour 1. Pour une régression hiérarchique, le minimum acceptable est un rapport de 5 pour 1. Pour une régression « stepwise » permettant une généralisation de la solution, un ratio de 40 pour 1 est recommandé. Pour une régression « stepwise » permettant une généralisation de la solution, un ratio de 40 pour 1 est recommandé.

25 Cas extrêmes (outliers): Les corrélations sont très susceptibles à linfluence des cas extrêmes, il faut donc vérifier les données attentivement Cas extrêmes (outliers): Les corrélations sont très susceptibles à linfluence des cas extrêmes, il faut donc vérifier les données attentivement

26 Régression ordinaire Régression ordinaire Chacune des variables fait partie de l équation. Chaque variable est évaluée comme si elle s ajoutait à toutes les autres. Cest-à-dire pour chaque variable, seulement sa contribution unique est évaluée. Il est donc possible quune variable soit hautement corrélée avec la VD mais que sa contribution semble négligeable car elle est partagée avec dautres variables. Chacune des variables fait partie de l équation. Chaque variable est évaluée comme si elle s ajoutait à toutes les autres. Cest-à-dire pour chaque variable, seulement sa contribution unique est évaluée. Il est donc possible quune variable soit hautement corrélée avec la VD mais que sa contribution semble négligeable car elle est partagée avec dautres variables.

27 Régression hiérarchique Régression hiérarchique Les variables sont inclus dans l équation dans un ordre prédéterminé par le chercheur. Dans ce cas, les variables qui entrent en premier «prennent» toute la variance disponible pour elles et celles qui entrent plus tard ne disposent que de la variance non-expliquée au moment de leur entrée. Les variables sont inclus dans l équation dans un ordre prédéterminé par le chercheur. Dans ce cas, les variables qui entrent en premier «prennent» toute la variance disponible pour elles et celles qui entrent plus tard ne disposent que de la variance non-expliquée au moment de leur entrée.

28 Régression «stepwise» Régression «stepwise» Lordre dentrée des variables nest pas décidé par des raisons théoriques, mais uniquement par des raisons statistiques. A chaque point, la variable qui a la meilleure corrélation avec la VD est ajoutée. Chaque variable prend toute la variance disponible pour elle au moment de son entrée. Cette procédure fournit des résultats potentiellement peu généralisable (capitalise sur la chance). Lordre dentrée des variables nest pas décidé par des raisons théoriques, mais uniquement par des raisons statistiques. A chaque point, la variable qui a la meilleure corrélation avec la VD est ajoutée. Chaque variable prend toute la variance disponible pour elle au moment de son entrée. Cette procédure fournit des résultats potentiellement peu généralisable (capitalise sur la chance).

29

30

31 B 1 = variation de Y consécutive à une variation dune unité de X 1, les autres facteurs de régression restent constants. Ex: Toutes les autres choses étant égales, la consommation augmente de.003 pintes par $ de salaire familiale hebdomadaire

32

33

34

35

36 Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur -> Problème d'erreur de mesure La moyenne du terme d'erreur est zéro pour chaque ensemble de valeurs pour les k variables indépendantes La moyenne du terme d'erreur est zéro pour chaque ensemble de valeurs pour les k variables indépendantes La variance est constante pour chaque ensemble de valeurs pour les k variables indépendantes La variance est constante pour chaque ensemble de valeurs pour les k variables indépendantes -> Problème de hétérocédasticité Pour chaque paire d'ensembles de valeurs pour les k variables indépendantes les termes d'erreur ne sont pas corrélés, COV(ei, ei)= 0. => il n'y a pas d'auto-corrélation Pour chaque paire d'ensembles de valeurs pour les k variables indépendantes les termes d'erreur ne sont pas corrélés, COV(ei, ei)= 0. => il n'y a pas d'auto-corrélation Pour chaque variables indépendantse la COV(Xi, e) = 0. C-à-d, les variables indépendantes ne sont pas corrélées avec le terme d'erreur Pour chaque variables indépendantse la COV(Xi, e) = 0. C-à-d, les variables indépendantes ne sont pas corrélées avec le terme d'erreur -> Problème de spécification du modèle Il n'y a pas colinéarité parfaite. C-à-d, il n'y a pas une variable indépendante qui soit parfaitement linéairement liée à une ou plusieurs autres variables indépendantes Il n'y a pas colinéarité parfaite. C-à-d, il n'y a pas une variable indépendante qui soit parfaitement linéairement liée à une ou plusieurs autres variables indépendantes -> Problème de multicolinéarité Pour chaque ensemble de valeurs pour les k variables indépendantes, ei est distribuée normalement Pour chaque ensemble de valeurs pour les k variables indépendantes, ei est distribuée normalement


Télécharger ppt "Ursula Hess UQAM. Corrélation bivariée: Relation entre deux variables continues sans distinction entre VI et VD Corrélation bivariée: Relation entre deux."

Présentations similaires


Annonces Google