Régression linéaire multiple Eugénie Dostie-Goulet

Slides:



Advertisements
Présentations similaires
Nos choix et la volonté de Dieu
Advertisements

Probabilités et statistiques au lycée
Chap4- Le mix marketing II- La politique de prix
GESTION DE PORTEFEUILLE chapitre n° 7
Raisonnement et logique
La régression logistique: fondements et conditions d’application
C1 Bio-statistiques F. KOHLER
(c) N. Rossignol Voici deux séries de prix Mon salaire, tout comme l'ordinateur que je compte acheter, augmente d'année en année (sauf en 2007 pour mon.
Régression -corrélation
Statistiques descriptives Répartition des communes par département Côtes dArmor Finistère Ile et Vilaine Morbihan Répartition de la population par département.
Laboratoire Inter-universitaire de Psychologie Cours 6
Corrélation linéaire et la droite de régression
Les traitements croisés
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Prévision du nombre de naissances à moyen terme
Les liens entre les variables et les tests d’hypothèse
Le modèle IS-LM à prix fixes 2. IS-LM et les fluctuations économiques
La Régression Multiple
Structure de causalité bivariée
Régression linéaire simple
Groupe 1: Classes de même intervalle
Le développement de l’autonomie
La distinction entre variable modératrice et variable médiatrice
Systèmes d’équations du premier degré à deux variables
L’Analyse de Covariance
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
BERGOT Guillaume HAVEZ Maxime. Présentation Problématique Endogène Exogènes Résultats Bilan Présentation du contexte Problématique Mise en place du modèle.
Régression logistique Eugénie Dostie-Goulet
Synthèse du bloc 3 Eugénie Dostie-Goulet
POLI-D-208 Introduction à la recherche en sciences politiques Partie Exercices Titulaire: Jean-Benoit Pilet.
Séminaire d’Analyses comparatives et enquête sociologique
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
La régression logistique
La corrélation et la régression
Le comportement des coûts Chapitre 3
Régression linéaire (STT-2400)
Méthodes de prévision (STT-3220)
Logiciels et technologies de l'information de gestion
STATISTIQUES COURS 4 La régression. Nous avons vu divers tests statistiques afin de vérifier le degré d ’interdépendance entre 2 variables Test.
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Stress au travail et santé mentale dans une société en changement Thématique médecine du travail European Journal of Public Health, Vol.18, No. 3,
1 CRÉDIBILITÉ ET SUCCÈS DE VOS INTERVENTIONS: QUELQUES CLEFS Conférence FCO Montréal, le 21 février 2012 Par : Johanne Savard, Ombudsman – Ville de Montréal.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
Présentation du marché obligataire
M2 Sciences des Procédés - Sciences des Aliments
GTS813: cours #6 Évaluation d’une mesure (Validité, Répétabilité, Fiabilité, précision) Activité. Études de cas #2: Qui pose la question? La question est-elle.
Probabilités et Statistiques Année 2010/2011
Un exemple d’ANOVA Pour étudier l'influence du milieu sur la DL50 de daphnies (heure), on a mesuré cette durée de vie pour deux clones de daphnies en fonction.
1 1 Licence Stat-info CM7 a 2004 V1Christophe Genolini Récapitulatif : Variables qualitatives Variables qualitatives : –on se demande si elles sont liées.
Le texte d’opinion L’introduction.
On souhaite analyser les concentrations de mercure (ppm) dans les chaires de poissons carnivores des lacs de l'est de Etats- Unis. On espère trouver une.
Notions de coûts et prise de décision
Régréssion linéaire simple
Modèle linéaire Relation entre une variable expliquée Y (par exemple le salaire), et p variables explicatives X j, j = 1, …, p (par exemple, p = 5, X 1.
Introduction à la recherche en science politique
Distribution à deux variables
Offre Globale – Demande Globale
Corrélation et causalité
ETUDES PRONOSTIQUES Pr Ganry.
Les « Pistes » : Témoignages des élèves du collège Louis-Philippe
Le travail non rémunéré dans une société de l‘information Marian Kika – Maria Uramova Katowice, 2013.
Chapitre 12 Des modeles corrélationnelles. A la fin de ce chapitre on sera capable de:  definir le but et l’utilisation des modeles correlationnelles.
Transcription de la présentation:

Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur l’hypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final

Construction du cadre opératoire Problématique: Est-ce qu’il y a un lien entre l’âge et l’opinion sur l’euthanasie? Hypothèse: Plus on vieillit, moins on perçoit l’euthanasie comme une option qui se justifie Variable dépendante: opinion sur l’euthanasie (à quel point celle-ci se justifie ou non). Variable continue, sur une échelle de 1 à 10 où 1 signifie que ce n’est jamais justifiable et 10 que c’est toujours justifiable Variable indépendante: l’âge. Variable continue allant de 18 à 94.

Opinion sur l’euthanasie Schéma conceptuel (1) Opinion sur l’euthanasie Âge

Variables contrôle Variables indépendantes qui ne font pas partie de l’hypothèse Servent à contrôler pour les autres facteurs potentiellement perturbateurs: ces variables servent à s’assurer qu’on prend bien en compte les autres facteurs susceptibles d’influencer notre variable dépendante. On choisit nos variables contrôle selon la relation qui peut exister entre celles-ci et la variable dépendante. En « contrôlant » pour un facteur particulier, on est en mesure de savoir que la relation qu’on trouve entre notre variable indépendante principale et notre variable dépendante est « authentique », et non pas influencée par ce facteur.

Description des variables contrôle Sexe: être un homme ou une femme Province: habiter au Québec ou non Relation avec l’Église : avoir confiance en l’Église. Variable polytomique ordonnée : pas du tout (0), peu (1), assez (2), beaucoup (3). Attention: il est essentiel de justifier le choix de nos variables contrôle -

Schéma conceptuel (2) Province Sexe Opinion sur l’euthanasie Âge En mettant les flèches entre les variables, ça vous permet de vous questionner sur la relation qu’il y a entre elles... Relation avec l’Église

Relation fallacieuse Lorsque la corrélation trouvée entre deux variables est due à un troisième phénomène, qui est lié à ces deux variables Exemples: Les villes ayant le plus grand nombre d’églises sont aussi celles avec le plus grand nombre de bars... Il y a une corrélation négative entre les augmentations annuelles moyennes des salaires et la satisfaction du public envers les politiques économiques de leur gouvernement. Doit-on en conclure que plus les salaires augmentent, moins les citoyens sont satisfaits des politiques économiques? -

Relation indirecte Cette relation entre deux variables ne peut se manifester que si un troisième phénomène vient s’interposer entre les deux premiers. En d’autres termes, A cause C, mais seulement parce que A est une cause directe de B, qui lui- même cause C. Exemples: Si vous mangez un sandwich et qu’après vous touchez votre nombril, il y a de fortes chances que votre nombril sente votre sandwich... Si nos parents s’intéressent à la politique, on a plus de chance de voter. -

Questions à se poser Quel test devrions-nous effectuer? La régression linéaire (MCO) s’applique dans le cas d’une variable dépendante continue Quelles variables indépendantes choisir? On cherche à obtenir un modèle le plus parcimonieux possible, comprenant peu de variables, mais dont les variables expliquent bien la variation dans notre variable dépendante. S’assurer du sens de la relation Il arrive que la relation je soit pas seulement de X vers Y, mais aussi de Y vers X. C’est un problème d’endogénéité. Parfois, la question ne se pose pas (notamment pour les variables sociodémographiques) Trois étapes: On se pose la question: un risque d’endogénéité est-il possible entre mes deux variables? On décide si cette variable est assez importante pour qu’on vive avec ce risque On explique notre choix lorsqu’on présente nos variables -

La régression linéaire simple Rappel: la régression linéaire simple est une droite de tendance entre deux variables La corrélation permet de voir la force de la relation entre ces deux variables L’équation de régression permet de connaître l’impact de l’augmentation (ou la diminution) de X sur Y. Forme fonctionnelle: y = a + bx Prise en compte de l’erreur: y = a + bx + e C’est de l’erreur que vient notre 95% de confiance. Parce que cette droite n’est jamais parfaite. -

La relation entre l’âge et l’opinion sur l’euthanasie > mco1=lm(eut ~ age) > summary(mco1) R

La relation entre l’âge et l’opinion sur l’euthanasie > mco1=lm(eut ~ age + homme + qc + conf_eglise) > summary(mco1) R

Multicolinéarité On parle de multicolinéarité lorsqu’il y a une forte corrélation entre deux ou plusieurs variables indépendantes. Forme fonctionnelle de la régression linéaire multiple: y = a + bx1 + bx2 + bx3... + bxj + e Conséquences de la multicolinéarité Le modèle lui-même est assez performant (R2 peut être élevé, test F significatif) Mais problème d’information (et donc de précision) dans les effets individuels: l’erreur est assez élevée pour les variables en cause Les coefficients peuvent aussi être assez faibles -

La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité > mco1=lm(eut ~ age + homme + qc + francais + conf_eglise) > summary(mco1)    R

Que faire avec la multicolinéarité? On peut faire une corrélation de Pearson entre les variables indépendantes concernées (celles qui sont conceptuellement proches): plus la corrélation est élevée, plus le risque de multicolinéarité est élevé. > cor.test(qc, francais, use="complete.obs") R

Que faire avec la multicolinéarité? Si la corrélation est au moins moyennement élevée, on peut relancer le modèle en excluant chaque fois une des deux variables, pour voir la différence. On peut garder la variable qui « parle » le plus, ou celle qui, théoriquement, a le plus de raison d’être dans cette régression S’il s’agit de variables avec lesquelles on peut construire un indice (information, conservatisme social, corruption, cynisme...), ne pas hésiter à le faire, après avoir vérifié qu’il y a bien corrélation entre ces variables.

La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité? Estimate Std. Error t value Pr(>|t|) (Intercept) 7.004824 0.232962 30.068 < 2e-16 *** age -0.014016 0.003893 -3.600 0.000326 *** homme 0.274582 0.136969 2.005 0.045140 * qc 0.590840 0.286128 2.065 0.039066 * francais 0.477502 0.284353 1.679 0.093270 . conf_eglise -0.809760 0.077749 -10.415 < 2e-16 *** Multiple R-squared: 0.1007, Adjusted R-squared: 0.0983 Estimate Std. Error t value Pr(>|t|) (Intercept) 7.065437 0.231309 30.545 < 2e-16 *** age -0.014230 0.003895 -3.653 0.000266 *** homme 0.275680 0.137088 2.011 0.044474 * francais 0.974003 0.151937 6.411 1.83e-10 *** conf_eglise -0.825590 0.077438 -10.661 < 2e-16 *** Multiple R-squared: 0.09865, Adjusted R-squared: 0.09671 Estimate Std. Error t value Pr(>|t|) (Intercept) 7.005482 0.233076 30.057 < 2e-16 *** age -0.013851 0.003894 -3.557 0.000384 *** homme 0.266481 0.136951 1.946 0.051829 . qc 0.997125 0.152826 6.525 8.77e-11 *** conf_eglise -0.801163 0.077618 -10.322 < 2e-16 *** Multiple R-squared: 0.09936, Adjusted R-squared: 0.09741 R

La relation entre l’âge et l’opinion sur l’euthanasie: non-linéarité > mco1=lm(eut ~ age3655 + age5694 + homme + qc + conf_eglise) > summary(mco1) R