La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

+ Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur lhypothèse La régression linéaire multiple Problèmes statistiques.

Présentations similaires


Présentation au sujet: "+ Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur lhypothèse La régression linéaire multiple Problèmes statistiques."— Transcription de la présentation:

1 + Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur lhypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final

2 + Construction du cadre opératoire Problématique: Est-ce quil y a un lien entre lâge et lopinion sur leuthanasie? Hypothèse: Plus on vieillit, moins on perçoit leuthanasie comme une option qui se justifie Variable dépendante: opinion sur leuthanasie (à quel point celle-ci se justifie ou non). Variable continue, sur une échelle de 1 à 10 où 1 signifie que ce nest jamais justifiable et 10 que cest toujours justifiable Variable indépendante: lâge. Variable continue allant de 18 à 94.

3 + Schéma conceptuel (1) Âge Opinion sur leuthanasie

4 + Variables contrôle Variables indépendantes qui ne font pas partie de lhypothèse Servent à contrôler pour les autres facteurs potentiellement perturbateurs: ces variables servent à sassurer quon prend bien en compte les autres facteurs susceptibles dinfluencer notre variable dépendante. On choisit nos variables contrôle selon la relation qui peut exister entre celles-ci et la variable dépendante. En « contrôlant » pour un facteur particulier, on est en mesure de savoir que la relation quon trouve entre notre variable indépendante principale et notre variable dépendante est « authentique », et non pas influencée par ce facteur.

5 + Description des variables contrôle - Sexe: être un homme ou une femme Province: habiter au Québec ou non Relation avec lÉglise : avoir confiance en lÉglise. Variable polytomique ordonnée : pas du tout (0), peu (1), assez (2), beaucoup (3). Attention: il est essentiel de justifier le choix de nos variables contrôle

6 + Schéma conceptuel (2) Âge Opinion sur leuthanasie Sexe Province Relation avec lÉglise En mettant les flèches entre les variables, ça vous permet de vous questionner sur la relation quil y a entre elles...

7 + Relation fallacieuse - Lorsque la corrélation trouvée entre deux variables est due à un troisième phénomène, qui est lié à ces deux variables Exemples: Les villes ayant le plus grand nombre déglises sont aussi celles avec le plus grand nombre de bars... Il y a une corrélation négative entre les augmentations annuelles moyennes des salaires et la satisfaction du public envers les politiques économiques de leur gouvernement. Doit-on en conclure que plus les salaires augmentent, moins les citoyens sont satisfaits des politiques économiques?

8 + Relation indirecte - Cette relation entre deux variables ne peut se manifester que si un troisième phénomène vient sinterposer entre les deux premiers. En dautres termes, A cause C, mais seulement parce que A est une cause directe de B, qui lui- même cause C. Exemples: Si vous mangez un sandwich et quaprès vous touchez votre nombril, il y a de fortes chances que votre nombril sente votre sandwich... Si nos parents sintéressent à la politique, on a plus de chance de voter.

9 + Questions à se poser - Quel test devrions-nous effectuer? La régression linéaire (MCO) sapplique dans le cas dune variable dépendante continue Quelles variables indépendantes choisir? On cherche à obtenir un modèle le plus parcimonieux possible, comprenant peu de variables, mais dont les variables expliquent bien la variation dans notre variable dépendante. Sassurer du sens de la relation Il arrive que la relation je soit pas seulement de X vers Y, mais aussi de Y vers X. Cest un problème dendogénéité. Parfois, la question ne se pose pas (notamment pour les variables sociodémographiques) Trois étapes : 1. On se pose la question: un risque dendogénéité est-il possible entre mes deux variables? 2. On décide si cette variable est assez importante pour quon vive avec ce risque 3. On explique notre choix lorsquon présente nos variables

10 + La régression linéaire simple - Rappel: la régression linéaire simple est une droite de tendance entre deux variables La corrélation permet de voir la force de la relation entre ces deux variables Léquation de régression permet de connaître limpact de laugmentation (ou la diminution) de X sur Y. Forme fonctionnelle: y = a + bx Prise en compte de lerreur: y = a + bx + e Cest de lerreur que vient notre 95% de confiance. Parce que cette droite nest jamais parfaite.

11 + La relation entre lâge et lopinion sur leuthanasie > mco1=lm(eut ~ age) > summary(mco1) R R

12 + La relation entre lâge et lopinion sur leuthanasie > mco1=lm(eut ~ age + homme + qc + conf_eglise) > summary(mco1) R R

13 + Multicolinéarité - On parle de multicolinéarité lorsquil y a une forte corrélation entre deux ou plusieurs variables indépendantes. Forme fonctionnelle de la régression linéaire multiple: y = a + bx1 + bx2 + bx bxj + e Conséquences de la multicolinéarité Le modèle lui-même est assez performant (R2 peut être élevé, test F significatif) Mais problème dinformation (et donc de précision) dans les effets individuels: lerreur est assez élevée pour les variables en cause Les coefficients peuvent aussi être assez faibles

14 + La relation entre lâge et lopinion sur leuthanasie: multicolinéarité > mco1=lm(eut ~ age + homme + qc + francais + conf_eglise) > summary(mco1) R R

15 + Que faire avec la multicolinéarité? On peut faire une corrélation de Pearson entre les variables indépendantes concernées (celles qui sont conceptuellement proches): plus la corrélation est élevée, plus le risque de multicolinéarité est élevé. R R > cor.test(qc, francais, use="complete.obs")

16 + Que faire avec la multicolinéarité? Si la corrélation est au moins moyennement élevée, on peut relancer le modèle en excluant chaque fois une des deux variables, pour voir la différence. On peut garder la variable qui « parle » le plus, ou celle qui, théoriquement, a le plus de raison dêtre dans cette régression Sil sagit de variables avec lesquelles on peut construire un indice (information, conservatisme social, corruption, cynisme...), ne pas hésiter à le faire, après avoir vérifié quil y a bien corrélation entre ces variables.

17 + La relation entre lâge et lopinion sur leuthanasie: multicolinéarité? Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** age *** homme * qc * francais conf_eglise < 2e-16 *** Multiple R-squared: ,Adjusted R-squared: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** age *** homme * francais e-10 *** conf_eglise < 2e-16 *** Multiple R-squared: ,Adjusted R-squared: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** age *** homme qc e-11 *** conf_eglise < 2e-16 *** Multiple R-squared: ,Adjusted R-squared: R R

18 + La relation entre lâge et lopinion sur leuthanasie: non-linéarité > mco1=lm(eut ~ age age homme + qc + conf_eglise) > summary(mco1) R R


Télécharger ppt "+ Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur lhypothèse La régression linéaire multiple Problèmes statistiques."

Présentations similaires


Annonces Google