La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Régression linéaire multiple Eugénie Dostie-Goulet

Présentations similaires


Présentation au sujet: "Régression linéaire multiple Eugénie Dostie-Goulet"— Transcription de la présentation:

1 Régression linéaire multiple Eugénie Dostie-Goulet
Plan de la présentation Retour sur l’hypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final

2 Construction du cadre opératoire
Problématique: Est-ce qu’il y a un lien entre l’âge et l’opinion sur l’euthanasie? Hypothèse: Plus on vieillit, moins on perçoit l’euthanasie comme une option qui se justifie Variable dépendante: opinion sur l’euthanasie (à quel point celle-ci se justifie ou non). Variable continue, sur une échelle de 1 à 10 où 1 signifie que ce n’est jamais justifiable et 10 que c’est toujours justifiable Variable indépendante: l’âge. Variable continue allant de 18 à 94.

3 Opinion sur l’euthanasie
Schéma conceptuel (1) Opinion sur l’euthanasie Âge

4 Variables contrôle Variables indépendantes qui ne font pas partie de l’hypothèse Servent à contrôler pour les autres facteurs potentiellement perturbateurs: ces variables servent à s’assurer qu’on prend bien en compte les autres facteurs susceptibles d’influencer notre variable dépendante. On choisit nos variables contrôle selon la relation qui peut exister entre celles-ci et la variable dépendante. En « contrôlant » pour un facteur particulier, on est en mesure de savoir que la relation qu’on trouve entre notre variable indépendante principale et notre variable dépendante est « authentique », et non pas influencée par ce facteur.

5 Description des variables contrôle
Sexe: être un homme ou une femme Province: habiter au Québec ou non Relation avec l’Église : avoir confiance en l’Église. Variable polytomique ordonnée : pas du tout (0), peu (1), assez (2), beaucoup (3). Attention: il est essentiel de justifier le choix de nos variables contrôle -

6 Schéma conceptuel (2) Province Sexe Opinion sur l’euthanasie Âge
En mettant les flèches entre les variables, ça vous permet de vous questionner sur la relation qu’il y a entre elles... Relation avec l’Église

7 Relation fallacieuse Lorsque la corrélation trouvée entre deux variables est due à un troisième phénomène, qui est lié à ces deux variables Exemples: Les villes ayant le plus grand nombre d’églises sont aussi celles avec le plus grand nombre de bars... Il y a une corrélation négative entre les augmentations annuelles moyennes des salaires et la satisfaction du public envers les politiques économiques de leur gouvernement. Doit-on en conclure que plus les salaires augmentent, moins les citoyens sont satisfaits des politiques économiques? -

8 Relation indirecte Cette relation entre deux variables ne peut se manifester que si un troisième phénomène vient s’interposer entre les deux premiers. En d’autres termes, A cause C, mais seulement parce que A est une cause directe de B, qui lui- même cause C. Exemples: Si vous mangez un sandwich et qu’après vous touchez votre nombril, il y a de fortes chances que votre nombril sente votre sandwich... Si nos parents s’intéressent à la politique, on a plus de chance de voter. -

9 Questions à se poser Quel test devrions-nous effectuer?
La régression linéaire (MCO) s’applique dans le cas d’une variable dépendante continue Quelles variables indépendantes choisir? On cherche à obtenir un modèle le plus parcimonieux possible, comprenant peu de variables, mais dont les variables expliquent bien la variation dans notre variable dépendante. S’assurer du sens de la relation Il arrive que la relation je soit pas seulement de X vers Y, mais aussi de Y vers X. C’est un problème d’endogénéité. Parfois, la question ne se pose pas (notamment pour les variables sociodémographiques) Trois étapes: On se pose la question: un risque d’endogénéité est-il possible entre mes deux variables? On décide si cette variable est assez importante pour qu’on vive avec ce risque On explique notre choix lorsqu’on présente nos variables -

10 La régression linéaire simple
Rappel: la régression linéaire simple est une droite de tendance entre deux variables La corrélation permet de voir la force de la relation entre ces deux variables L’équation de régression permet de connaître l’impact de l’augmentation (ou la diminution) de X sur Y. Forme fonctionnelle: y = a + bx Prise en compte de l’erreur: y = a + bx + e C’est de l’erreur que vient notre 95% de confiance. Parce que cette droite n’est jamais parfaite. -

11 La relation entre l’âge et l’opinion sur l’euthanasie
> mco1=lm(eut ~ age) > summary(mco1) R

12 La relation entre l’âge et l’opinion sur l’euthanasie
> mco1=lm(eut ~ age + homme + qc + conf_eglise) > summary(mco1) R

13 Multicolinéarité On parle de multicolinéarité lorsqu’il y a une forte corrélation entre deux ou plusieurs variables indépendantes. Forme fonctionnelle de la régression linéaire multiple: y = a + bx1 + bx2 + bx bxj + e Conséquences de la multicolinéarité Le modèle lui-même est assez performant (R2 peut être élevé, test F significatif) Mais problème d’information (et donc de précision) dans les effets individuels: l’erreur est assez élevée pour les variables en cause Les coefficients peuvent aussi être assez faibles -

14 La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité
> mco1=lm(eut ~ age + homme + qc + francais + conf_eglise) > summary(mco1)    R

15 Que faire avec la multicolinéarité?
On peut faire une corrélation de Pearson entre les variables indépendantes concernées (celles qui sont conceptuellement proches): plus la corrélation est élevée, plus le risque de multicolinéarité est élevé. > cor.test(qc, francais, use="complete.obs") R

16 Que faire avec la multicolinéarité?
Si la corrélation est au moins moyennement élevée, on peut relancer le modèle en excluant chaque fois une des deux variables, pour voir la différence. On peut garder la variable qui « parle » le plus, ou celle qui, théoriquement, a le plus de raison d’être dans cette régression S’il s’agit de variables avec lesquelles on peut construire un indice (information, conservatisme social, corruption, cynisme...), ne pas hésiter à le faire, après avoir vérifié qu’il y a bien corrélation entre ces variables.

17 La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité?
Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** age *** homme * qc * francais conf_eglise < 2e-16 *** Multiple R-squared: , Adjusted R-squared: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** age *** homme * francais e-10 *** conf_eglise < 2e-16 *** Multiple R-squared: , Adjusted R-squared: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** age *** homme qc e-11 *** conf_eglise < 2e-16 *** Multiple R-squared: , Adjusted R-squared: R

18 La relation entre l’âge et l’opinion sur l’euthanasie: non-linéarité
> mco1=lm(eut ~ age age homme + qc + conf_eglise) > summary(mco1) R


Télécharger ppt "Régression linéaire multiple Eugénie Dostie-Goulet"

Présentations similaires


Annonces Google