Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur l’hypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final
Construction du cadre opératoire Problématique: Est-ce qu’il y a un lien entre l’âge et l’opinion sur l’euthanasie? Hypothèse: Plus on vieillit, moins on perçoit l’euthanasie comme une option qui se justifie Variable dépendante: opinion sur l’euthanasie (à quel point celle-ci se justifie ou non). Variable continue, sur une échelle de 1 à 10 où 1 signifie que ce n’est jamais justifiable et 10 que c’est toujours justifiable Variable indépendante: l’âge. Variable continue allant de 18 à 94.
Opinion sur l’euthanasie Schéma conceptuel (1) Opinion sur l’euthanasie Âge
Variables contrôle Variables indépendantes qui ne font pas partie de l’hypothèse Servent à contrôler pour les autres facteurs potentiellement perturbateurs: ces variables servent à s’assurer qu’on prend bien en compte les autres facteurs susceptibles d’influencer notre variable dépendante. On choisit nos variables contrôle selon la relation qui peut exister entre celles-ci et la variable dépendante. En « contrôlant » pour un facteur particulier, on est en mesure de savoir que la relation qu’on trouve entre notre variable indépendante principale et notre variable dépendante est « authentique », et non pas influencée par ce facteur.
Description des variables contrôle Sexe: être un homme ou une femme Province: habiter au Québec ou non Relation avec l’Église : avoir confiance en l’Église. Variable polytomique ordonnée : pas du tout (0), peu (1), assez (2), beaucoup (3). Attention: il est essentiel de justifier le choix de nos variables contrôle -
Schéma conceptuel (2) Province Sexe Opinion sur l’euthanasie Âge En mettant les flèches entre les variables, ça vous permet de vous questionner sur la relation qu’il y a entre elles... Relation avec l’Église
Relation fallacieuse Lorsque la corrélation trouvée entre deux variables est due à un troisième phénomène, qui est lié à ces deux variables Exemples: Les villes ayant le plus grand nombre d’églises sont aussi celles avec le plus grand nombre de bars... Il y a une corrélation négative entre les augmentations annuelles moyennes des salaires et la satisfaction du public envers les politiques économiques de leur gouvernement. Doit-on en conclure que plus les salaires augmentent, moins les citoyens sont satisfaits des politiques économiques? -
Relation indirecte Cette relation entre deux variables ne peut se manifester que si un troisième phénomène vient s’interposer entre les deux premiers. En d’autres termes, A cause C, mais seulement parce que A est une cause directe de B, qui lui- même cause C. Exemples: Si vous mangez un sandwich et qu’après vous touchez votre nombril, il y a de fortes chances que votre nombril sente votre sandwich... Si nos parents s’intéressent à la politique, on a plus de chance de voter. -
Questions à se poser Quel test devrions-nous effectuer? La régression linéaire (MCO) s’applique dans le cas d’une variable dépendante continue Quelles variables indépendantes choisir? On cherche à obtenir un modèle le plus parcimonieux possible, comprenant peu de variables, mais dont les variables expliquent bien la variation dans notre variable dépendante. S’assurer du sens de la relation Il arrive que la relation je soit pas seulement de X vers Y, mais aussi de Y vers X. C’est un problème d’endogénéité. Parfois, la question ne se pose pas (notamment pour les variables sociodémographiques) Trois étapes: On se pose la question: un risque d’endogénéité est-il possible entre mes deux variables? On décide si cette variable est assez importante pour qu’on vive avec ce risque On explique notre choix lorsqu’on présente nos variables -
La régression linéaire simple Rappel: la régression linéaire simple est une droite de tendance entre deux variables La corrélation permet de voir la force de la relation entre ces deux variables L’équation de régression permet de connaître l’impact de l’augmentation (ou la diminution) de X sur Y. Forme fonctionnelle: y = a + bx Prise en compte de l’erreur: y = a + bx + e C’est de l’erreur que vient notre 95% de confiance. Parce que cette droite n’est jamais parfaite. -
La relation entre l’âge et l’opinion sur l’euthanasie > mco1=lm(eut ~ age) > summary(mco1) R
La relation entre l’âge et l’opinion sur l’euthanasie > mco1=lm(eut ~ age + homme + qc + conf_eglise) > summary(mco1) R
Multicolinéarité On parle de multicolinéarité lorsqu’il y a une forte corrélation entre deux ou plusieurs variables indépendantes. Forme fonctionnelle de la régression linéaire multiple: y = a + bx1 + bx2 + bx3... + bxj + e Conséquences de la multicolinéarité Le modèle lui-même est assez performant (R2 peut être élevé, test F significatif) Mais problème d’information (et donc de précision) dans les effets individuels: l’erreur est assez élevée pour les variables en cause Les coefficients peuvent aussi être assez faibles -
La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité > mco1=lm(eut ~ age + homme + qc + francais + conf_eglise) > summary(mco1) R
Que faire avec la multicolinéarité? On peut faire une corrélation de Pearson entre les variables indépendantes concernées (celles qui sont conceptuellement proches): plus la corrélation est élevée, plus le risque de multicolinéarité est élevé. > cor.test(qc, francais, use="complete.obs") R
Que faire avec la multicolinéarité? Si la corrélation est au moins moyennement élevée, on peut relancer le modèle en excluant chaque fois une des deux variables, pour voir la différence. On peut garder la variable qui « parle » le plus, ou celle qui, théoriquement, a le plus de raison d’être dans cette régression S’il s’agit de variables avec lesquelles on peut construire un indice (information, conservatisme social, corruption, cynisme...), ne pas hésiter à le faire, après avoir vérifié qu’il y a bien corrélation entre ces variables.
La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité? Estimate Std. Error t value Pr(>|t|) (Intercept) 7.004824 0.232962 30.068 < 2e-16 *** age -0.014016 0.003893 -3.600 0.000326 *** homme 0.274582 0.136969 2.005 0.045140 * qc 0.590840 0.286128 2.065 0.039066 * francais 0.477502 0.284353 1.679 0.093270 . conf_eglise -0.809760 0.077749 -10.415 < 2e-16 *** Multiple R-squared: 0.1007, Adjusted R-squared: 0.0983 Estimate Std. Error t value Pr(>|t|) (Intercept) 7.065437 0.231309 30.545 < 2e-16 *** age -0.014230 0.003895 -3.653 0.000266 *** homme 0.275680 0.137088 2.011 0.044474 * francais 0.974003 0.151937 6.411 1.83e-10 *** conf_eglise -0.825590 0.077438 -10.661 < 2e-16 *** Multiple R-squared: 0.09865, Adjusted R-squared: 0.09671 Estimate Std. Error t value Pr(>|t|) (Intercept) 7.005482 0.233076 30.057 < 2e-16 *** age -0.013851 0.003894 -3.557 0.000384 *** homme 0.266481 0.136951 1.946 0.051829 . qc 0.997125 0.152826 6.525 8.77e-11 *** conf_eglise -0.801163 0.077618 -10.322 < 2e-16 *** Multiple R-squared: 0.09936, Adjusted R-squared: 0.09741 R
La relation entre l’âge et l’opinion sur l’euthanasie: non-linéarité > mco1=lm(eut ~ age3655 + age5694 + homme + qc + conf_eglise) > summary(mco1) R