La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

+ Synthèse du bloc 3 Eugénie Dostie-Goulet Plan de la présentation Pourquoi des statistiques? Inférence Le tableau croisé et le chi2 La corrélation de.

Présentations similaires


Présentation au sujet: "+ Synthèse du bloc 3 Eugénie Dostie-Goulet Plan de la présentation Pourquoi des statistiques? Inférence Le tableau croisé et le chi2 La corrélation de."— Transcription de la présentation:

1 + Synthèse du bloc 3 Eugénie Dostie-Goulet Plan de la présentation Pourquoi des statistiques? Inférence Le tableau croisé et le chi2 La corrélation de Pearson La régression linéaire (MCO) La régression logistique

2 + Pourquoi des statistiques? Permet de vérifier les a priori, daller au-delà des préconceptions. Paul Lazarsfeld: « Puisque toute espèce de réaction humaine est concevable, il est dune grande importance de savoir quelles réactions se produisent en fait le plus fréquemment et dans quelles conditions. Alors seulement, la science sociale peut aller plus loin ».

3 + La réflexion théorique Il est essentiel de saisir les arguments théoriques et les débats qui sy trouvent avant de se lancer dans des analyses statistiques trop poussées. La littérature nous aide (parfois même est essentielle) pour: La formulation de la problématique La revue de littérature sur la question quon étudie La justification de notre hypothèse et nos attentes La justification des variables contrôle Lexplication entourant les résultats obtenus (particulièrement si ça va dans un sens contraire à nos attentes)

4 + La banque de données, les variables 1952 Montréalais âgés de 19 à 31 ans (2007) Quelles sont les caractéristiques des Montréalais qui ont déjà participé à une manifestation? Y1 : manifestation (1/0) ; 42% ont déjà manifesté Y2 : information ( 0 à 10) ; moyenne : 6.07 X1 : scolarité (trois dichotomiques) Primaire/secondaire (26%) Cégep (38%) Université (36%) >> catégorie de référence. X2 : habite à Montréal depuis au moins 5 ans (1/0) ; 21% X3 : intérêt politique (0 à 10) ; moyenne : 5.71

5 + Les bases de linférence À 95% de certitude: μ = x ± 1,96 s x où s x = s/n À 99% de certitude: μ = x ± 2,58 s x où s x = s/n u = moyenne de la population x = moyenne de léchantillon s x = écart-type de la distribution déchantillonnage s = écart-type de léchantillon Tous les éléments de la formule affectent lampleur de lintervalle: 1)Le niveau de confiance: plus on veut être confiant, plus grand sera lintervalle (et moins lestimation sera précise 2)Lécart-type de léchantillon: plus il y a de dispersion, plus grand sera lintervalle (et moins lestimation sera précise) 3)La taille de léchantillon: plus grand est léchantillon, plus petit sera lintervalle (et plus lestimation sera précise)

6 + Le tableau croisé Lorsquon travaille avec des données quantitatives, le tableau croisé est utilisé pour observer la relation entre deux variables lorsque ces variables ont peu de catégories. Un maximum de 20 cellules est fortement recommandé. Dans un tableau croisé, la convention veut que la variable indépendante soit sur le haut (colonnes) et la variable dépendante sur le côté gauche (lignes, ou rangées). Les pourcentages font référence à la variable indépendante (colonnes). Rappel : lobjectif du tableau croisé est de vérifier si vous êtes dans la bonne direction concernant votre hypothèse, en confirmant quil existe bien une relation bivariée entre X et Y, significative à 95% de confiance.

7 + Le tableau croisé Pas universitéUniversitéTotal Jamais manifesté790 (63,2%) 332 (47,29%) 1122 Déjà manifesté460 (36,8%) 370 (52,71%) 830 Total1250 (64,04%) 702 (35,96%) 1952 Chi2: 46,53p<0,05 CrossTable(manifestation,universite, prop.c=T, prop.r=F, prop.t=F, prop.chisq=F, chisq=T, format="SPSS") Le chi2 est une mesure de signification statistique: son objectif est de voir sil y a une relation, dans la population plus vaste de laquelle fût extrait léchantillon.

8 + La corrélation de Pearson La corrélation de Pearson est une analyse bivariée. Elle nous permet de mesurer la force dune association, mais ne nous dit rien sur la direction de cette relation. Lorsquon a au moins une variable continue (sur deux), il est hautement préférable dutiliser la corrélation. Cependant, lorsquil y a peu de catégories (ex: deux dichotomiques), nous choisirons un tableau croisé. La corrélation va de -1 à +1. On dit que la corrélation est faible lorsquelle est entre 0 et.25, moyenne entre.25 et.5, et forte entre.5 et 1. La corrélation entre la participation à une manifestation et lintérêt pour la politique est de Cest une corrélation modérée, significative à 95% de confiance. Elle indique que la participation augmente avec lintérêt (ou vice-versa).

9 + La régression linéaire (MCO) Niveau dinformation Éducation prim/sec (0/1)-1.91 (.11) * Éducation cégep (0/1)-0.73 (.10) * Montréal depuis 5 ans et + (0/1).23 (.10) * Intérêt politique (0 à 10).33 (.02) * Constante4.91 (.02) * R2 ajusté N1948 Note: pour léducation, on compare avec les gens ayant été à lUniversité.

10 + Les déterminants du niveau dinformation (MCO) R R

11 + Les déterminants de la participation à une manifestation R R

12 + R R

13 + Qualité du modèle - > logit$null.deviance - logit$deviance [1] > logit$df.null - logit$df.residual [1] 4 > dchisq(logit$null.deviance-logit$deviance, logit$df.null-logit$df.residual) [1] e-39

14 + « Odds Ratio » ou Rapports de probabilité OR = e b = e = 1,51 R R

15 + Comment lire les rapports de probabilité? P = 0,60: diminue la probabilité de 40% P = 0,80: diminue la probabilité de 20% P = 1: 0%. Le changement dans la variable indépendante n'affecte pas la variable dépendante P = 1,40: augmente la probabilité de 40% P = 2: augmente la probabilité de 100% (c'est un rapport de 2 contre 1) P = 4,20: augmente la probabilité de 320%

16 + Les déterminants de la participation à une manifestation CoefficientsRapports de probabilité Éducation prim/sec (0/1)-.77 (.13) *.46 Éducation cégep (0/1)-.29 (.11) *.75 Montréal 5 ans et plus (0/1).41 (.12) *1.51 Intérêt politique.22 (.02) *1.25 Constante-1.41 (.17) * N1952

17 + Prédictions prim_sec=c(1) cegep=c(0) universite=c(0) mtl5ans=c(1) interet=c(mean(df$interet, na.rm=T)) newdata1=data.frame(prim_sec, cegep, universite, mtl5ans, interet) newdata1newdata1$predict=predict(logit, newdata=newdata1, type="response") newdata1 R R ________________________________

18 + Prédictions newdata2=data.frame(prim_sec=0, cegep=0, universite=1, mtl5ans=1, interet=seq(0,10,2)) newdata2$predict2=predict(logit, newdata=newdata2, type="response") newdata2 newdata2=data.frame(prim_sec=0, cegep=0, universite=1, mtl5ans=0, interet=seq(0,10,2))newdata2$predict2=predict(logit, newdata=newdata2, type="response") newdata2 R R

19 + Analyses multivariées Descriptives (exploratoires) Méthodes factorielles Analyse en composantes principales Analyse des correspondances simples Analyse des correspondances multiples Autres méthodes Explicatives (confirmatoire) Analyse de régression Régression linéaire Régression logistique Autres méthodes


Télécharger ppt "+ Synthèse du bloc 3 Eugénie Dostie-Goulet Plan de la présentation Pourquoi des statistiques? Inférence Le tableau croisé et le chi2 La corrélation de."

Présentations similaires


Annonces Google