Synthèse du bloc 3 Eugénie Dostie-Goulet

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Intervalles de confiance
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Licence pro MPCQ : Cours
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Les déterminants des investissements des salariés dans les FCPE d’Actionnariat Salarié Monsieur le Président, messieurs les membres du jury, je vous remercie.
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Patients (n = 530) Biomarqueurs IHC (n = 412) Séquençage (n = 418) 200 patients évaluables pour les facteurs pronostiques cliniques et biologiques Comparaison.
Test statistique : principe
Les numéros 70 –
Les numéros
La régression logistique: fondements et conditions d’application
Inférence statistique
Nombre de sujets nécessaires en recherche clinique
1. Les caractéristiques de dispersion. 11. Utilité.
Demande globale, élasticités et équilibre de marché
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Régression -corrélation
Données statistiques sur le droit doption au 31/01 8 février 2012.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
La loi normale et l’estimation de paramètres
Modèle affine Montage préparé par : André Ross
La méthodologie………………………………………………………….. p3 Les résultats
Christelle Scharff IFI 2004
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Les liens entre les variables et les tests d’hypothèse
Formules empiriques et Formules moléculaires
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Titre : Implémentation des éléments finis sous Matlab
Les quartiers Villeray – La Petite-Patrie et les voisinages
Régression linéaire simple
Problème Autre formulation :
Tableaux de distributions
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
Les chiffres & les nombres
Corrélation et régression linéaire simple
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Régression logistique Eugénie Dostie-Goulet
Inférence tests univariés tests bivariés Eugénie Dostie-Goulet
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
La Distribution des Données
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Rappels de statistiques descriptives
Transcription de la présentation:

Synthèse du bloc 3 Eugénie Dostie-Goulet Plan de la présentation Pourquoi des statistiques? Inférence Le tableau croisé et le chi2 La corrélation de Pearson La régression linéaire (MCO) La régression logistique

Pourquoi des statistiques? Permet de vérifier les a priori, d’aller au-delà des préconceptions. Paul Lazarsfeld: « Puisque toute espèce de réaction humaine est concevable, il est d’une grande importance de savoir quelles réactions se produisent en fait le plus fréquemment et dans quelles conditions. Alors seulement, la science sociale peut aller plus loin ».

La réflexion théorique Il est essentiel de saisir les arguments théoriques et les débats qui s’y trouvent avant de se lancer dans des analyses statistiques trop poussées. La littérature nous aide (parfois même est essentielle) pour: La formulation de la problématique La revue de littérature sur la question qu’on étudie La justification de notre hypothèse et nos attentes La justification des variables contrôle L’explication entourant les résultats obtenus (particulièrement si ça va dans un sens contraire à nos attentes)

La banque de données, les variables 1952 Montréalais âgés de 19 à 31 ans (2007) Quelles sont les caractéristiques des Montréalais qui ont déjà participé à une manifestation? Y1 : manifestation (1/0) ; 42% ont déjà manifesté Y2 : information ( 0 à 10) ; moyenne : 6.07 X1 : scolarité (trois dichotomiques) Primaire/secondaire (26%) Cégep (38%) Université (36%) >> catégorie de référence. X2 : habite à Montréal depuis au moins 5 ans (1/0) ; 21% X3 : intérêt politique (0 à 10) ; moyenne : 5.71

Les bases de l’inférence À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n u = moyenne de la population x = moyenne de l’échantillon sx = écart-type de la distribution d’échantillonnage s = écart-type de l’échantillon Tous les éléments de la formule affectent l’ampleur de l’intervalle: Le niveau de confiance: plus on veut être confiant, plus grand sera l’intervalle (et moins l’estimation sera précise L’écart-type de l’échantillon: plus il y a de dispersion, plus grand sera l’intervalle (et moins l’estimation sera précise) La taille de l’échantillon: plus grand est l’échantillon, plus petit sera l’intervalle (et plus l’estimation sera précise)

Le tableau croisé Lorsqu’on travaille avec des données quantitatives, le tableau croisé est utilisé pour observer la relation entre deux variables lorsque ces variables ont peu de catégories. Un maximum de 20 cellules est fortement recommandé. Dans un tableau croisé, la convention veut que la variable indépendante soit sur le haut (colonnes) et la variable dépendante sur le côté gauche (lignes, ou rangées). Les pourcentages font référence à la variable indépendante (colonnes). Rappel : l’objectif du tableau croisé est de vérifier si vous êtes dans la bonne direction concernant votre hypothèse, en confirmant qu’il existe bien une relation bivariée entre X et Y, significative à 95% de confiance.

Le tableau croisé CrossTable(manifestation,universite, prop.c=T, prop.r=F, prop.t=F, prop.chisq=F, chisq=T, format="SPSS") Pas université Université Total Jamais manifesté 790 (63,2%) 332 (47,29%) 1122 Déjà manifesté 460 (36,8%) 370 (52,71%) 830 1250 (64,04%) 702 (35,96%) 1952 Chi2: 46,53 p<0,05 Le chi2 est une mesure de signification statistique: son objectif est de voir s’il y a une relation, dans la population plus vaste de laquelle fût extrait l’échantillon.

La corrélation de Pearson La corrélation de Pearson est une analyse bivariée. Elle nous permet de mesurer la force d’une association, mais ne nous dit rien sur la direction de cette relation. Lorsqu’on a au moins une variable continue (sur deux), il est hautement préférable d’utiliser la corrélation. Cependant, lorsqu’il y a peu de catégories (ex: deux dichotomiques), nous choisirons un tableau croisé. La corrélation va de -1 à +1. On dit que la corrélation est faible lorsqu’elle est entre 0 et .25, moyenne entre .25 et .5, et forte entre .5 et 1. La corrélation entre la participation à une manifestation et l’intérêt pour la politique est de 0.25. C’est une corrélation modérée, significative à 95% de confiance. Elle indique que la participation augmente avec l’intérêt (ou vice-versa).

La régression linéaire (MCO) Niveau d’information Éducation prim/sec (0/1) -1.91 (.11) * Éducation cégep (0/1) -0.73 (.10) * Montréal depuis 5 ans et + (0/1) .23 (.10) * Intérêt politique (0 à 10) .33 (.02) * Constante 4.91 (.02) * R2 ajusté 0.2858 N 1948 Note: pour l’éducation, on compare avec les gens ayant été à l’Université.

Les déterminants du niveau d’information (MCO)

Les déterminants de la participation à une manifestation

Les déterminants de la participation à une manifestation

Qualité du modèle - > logit$null.deviance - logit$deviance [1] 186.4063 > logit$df.null - logit$df.residual [1] 4 > dchisq(logit$null.deviance-logit$deviance, logit$df.null-logit$df.residual) [1] 1.551587e-39 -

« Odds Ratio » ou Rapports de probabilité OR = eb = e0.41389 = 1,51 R

Comment lire les rapports de probabilité? P = 0,60: diminue la probabilité de 40% P = 0,80: diminue la probabilité de 20% P = 1: 0%. Le changement dans la variable indépendante n'affecte pas la variable dépendante P = 1,40: augmente la probabilité de 40% P = 2: augmente la probabilité de 100% (c'est un rapport de 2 contre 1) P = 4,20: augmente la probabilité de 320%

Les déterminants de la participation à une manifestation Coefficients Rapports de probabilité Éducation prim/sec (0/1) -.77 (.13) * .46 Éducation cégep (0/1) -.29 (.11) * .75 Montréal 5 ans et plus (0/1) .41 (.12) * 1.51 Intérêt politique .22 (.02) * 1.25 Constante -1.41 (.17) * N 1952

Prédictions R ________________________________ prim_sec=c(1) cegep=c(0) universite=c(0) mtl5ans=c(1) interet=c(mean(df$interet, na.rm=T)) newdata1=data.frame(prim_sec, cegep, universite, mtl5ans, interet) newdata1newdata1$predict=predict(logit, newdata=newdata1, type="response") newdata1 R ________________________________

Prédictions newdata2=data.frame(prim_sec=0, cegep=0, universite=1, mtl5ans=1, interet=seq(0,10,2)) newdata2$predict2=predict(logit, newdata=newdata2, type="response") newdata2 R newdata2=data.frame(prim_sec=0, cegep=0, universite=1, mtl5ans=0, interet=seq(0,10,2))newdata2$predict2=predict(logit, newdata=newdata2, type="response") newdata2

Analyses multivariées Descriptives (exploratoires) Méthodes factorielles Analyse en composantes principales Analyse des correspondances simples Analyse des correspondances multiples Autres méthodes Explicatives (confirmatoire) Analyse de régression Régression linéaire Régression logistique