Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAlphonse Larivière Modifié depuis plus de 9 années
1
Dominic Beaulieu-Prévost Mars 2015, UQÀM
SEX1200 Cours 10 et 11 Dominic Beaulieu-Prévost Mars 2015, UQÀM
2
Méthodes quantitatives I: Les statistiques descriptives
Dominic Beaulieu-Prévost Mars 2013, UQÀM
3
Plan de match Notions de base en statistique
Les statistiques descriptives: Comment décrire un échantillon Introduction à l’inférence statistique
4
Notions de base en statistiques
La population de référence En statistique, une population est un ensemble fini d'objets (ex.: des individus) sur lesquels une étude se porte et dont les éléments répondent à une ou plusieurs caractéristiques communes. Dit autrement, c’est l’ensemble des unités qu’on désire étudier. Ex.: La population canadienne, les cégépiens, les sexologues, les victimes d’abus sexuel, les HARSAH. L’échantillon à l’étude En statistiques, un échantillon est un ensemble d'individus extraits d'une population étudiée de manière à ce qu'il soit représentatif de cette population. Dit autrement, c’est l’ensemble des participants à une étude. La représentativité de l’échantillon dépend de la méthode d’échantillonnage.
5
Notions de base en statistiques
Statistiques descriptives L'objectif des statistiques descriptives est de décrire, c'est-à-dire de résumer ou représenter, par des statistiques, les données d’un échantillon quand elles sont nombreuses. Statistiques inférentielles/inductives L’objectif des statistiques inférentielles est d’estimer des caractéristiques d’une population à partir des données d’un échantillon représentatif de cette population.
6
Notions de base en statistiques
Un paramètres vs une statistique Un paramètre est une caractéristiques numérique d’une population. Une statistique est une caractéristique numérique d’un échantillon. Le paramètre est à la population ce que la statistique est à l’échantillon. Ex de caractéristiques numériques: moyenne, min, max, écart-type.
7
Notions de base en statistiques
8
Notions de base en statistiques
9
Les statistiques descriptives
La distribution: un résumé de l’ensemble des données Les différents indicateurs statistiques Les indicateurs de tendance centrale Les indicateurs de dispersion Les indicateurs de forme
10
Les statistiques descriptives La distribution
Méthodes pour représenter la distribution des données Le tableau des fréquences L’histogramme La fonction de densité de probabilité
11
Les statistiques descriptives La distribution
Le tableau de fréquences Source:
12
Les statistiques descriptives La distribution
L’histogramme Source:
13
Les statistiques descriptives La distribution
L’histogramme Source:
14
Les statistiques descriptives La distribution
La fonction de densité de probabilité Une représentation visuelle pour variables continues.
15
Les statistiques descriptives La tendance centrale
La tendance centrale représente le point autour duquel les valeurs d’une variable tendent à se concentrer. Les trois principales mesures de tendance centrale sont: Le mode La médiane La moyenne
16
Les statistiques descriptives La tendance centrale
Le mode La valeur ou catégorie la plus représentée de l’échantillon. La seule mesure de tendance centrale possible pour les variables nominales. Pour les variables ordinales ou quantitatives, on peut aussi préciser si la distribution est unimodale, bimodale ou multimodale.
17
Les statistiques descriptives La tendance centrale
Le mode
18
Les statistiques descriptives La tendance centrale
Le mode Dans une distribution multimodale, on distingue le mode principal (maximum global) et les modes secondaires (maxima locaux).
19
Les statistiques descriptives La tendance centrale
La médiane La médiane est la valeur qui permet de partager une série numérique ordonnée en deux parties de même nombre d'éléments. Si n est impair, la médiane est la valeur du milieu. Si n est pair, la médiane est la moyenne arithmétique des deux valeurs centrales. EX: La médiane de cette série est 2,5.
20
Les statistiques descriptives La tendance centrale
La moyenne arithmétique (ou moyenne) La moyenne (mean) correspond à la somme des valeurs divisée par le nombre de valeurs. La moyenne est plus facile à calculer que la médiane, mais elle est plus affectée par les valeurs extrêmes.
21
Les statistiques descriptives La dispersion
La dispersion représente la variabilité des différentes valeurs que peut prendre une variable. Les principales mesures de dispersion associées à la moyenne sont: L’étendue et les valeurs minimale et maximale L’écart moyen L’écart-type et la variance L’intervalle empirique
22
Les statistiques descriptives La dispersion
L’étendue et les valeurs minimale et maximale L’étendue (range) est la différence entre la valeur maximale et la valeur minimale de la variable. Étendue = xmax - xmin
23
Les statistiques descriptives La dispersion
L’écart moyen Après avoir calculé la moyenne, on peut chercher à savoir de quelle façon les valeurs s'éloignent de cette moyenne. On crée alors une nouvelle série statistique : la série des écarts à la moyenne. Problème: La moyenne des écarts à la moyenne est toujours égal à zéro. Ex.: Série [1, 1, 2, 3, 3]; moy=2; Écarts [-1, -1, 0, 1, 1]
24
Les statistiques descriptives La dispersion
L’écart moyen L’écart moyen est donc la moyenne des valeurs absolues des écarts. Écart moyen = Ex.: Série [1, 1, 2, 3, 3]; Écart moyen = ( )/5 = 0,8 Problème: L’utilisation de la valeur absolue rend les calculs compliqués.
25
Les statistiques descriptives La dispersion
L’écart-type et la variance L’écart-type et la variance pallient aux limites de l’écart moyen en passant par le carré des écarts à la moyenne, qui est toujours positif. La variance (s2) est la moyenne des carrés des écarts à la moyenne.
26
Les statistiques descriptives La dispersion
L’écart-type et la variance L’écart-type (s) est la racine carré de la variance. L’écart-type est plus utilisé que la variance car il utilise les mêmes unités que la variable (au lieu du carré des unités).
27
Les statistiques descriptives La dispersion
L’écart-type et la variance Dans le cas d’une distribution normale: Environ 68% des valeurs sont à +/- 1 écart-type Environ 95% des valeurs sont à +/- 2 écarts-types Environ 99% des valeurs sont à +/- 3 écarts-types
28
Les statistiques descriptives La dispersion
L’intervalle empirique Il est donc possible de créer, à partir des écarts-types, des intervalles empiriques (IE) qui incluent une proportion spécifique des données. Ces intervalles supposent une variable continue et une distribution relativement normale des données. IE(95%)= moy +/- 1,96(écart-type) IE(99%)= moy +/- 2,58(écart-type)
29
Les statistiques descriptives La forme
La forme d’une distribution est aussi un élément pertinent. Le modèle de base d’une distribution est appelé la distribution normale ou gaussienne Trois dimensions sont souvent évoqués pour décrire l’écart entre une distribution et le modèle normal: L’assymétrie L’aplatissement Le nombre de modes
30
Les statistiques descriptives La forme
La distribution normale Le modèle de référence d’une distribution est appelé la distribution normale ou gaussienne car ce modèle suit la loi statistique du même nom. Toute distribution normale peut être décrite simplement en précisant sa moyenne et son écart-type. Si la moyenne est zéro et l’écart-type égal un, on parle d’une distribution normale centrée réduite.
31
Les statistiques descriptives La forme
La distribution normale (et la cote Z) La normalisation d’une distribution est d’ailleurs sa transformation en distribution centrée réduite, en centrant la moyenne à zéro et en réduisant l’écart-type à un. Cela transforme les scores en cotes Z.
32
Les statistiques descriptives La forme
Pourquoi la loi normale comme modèle de base? Des mesures faites sur une population de grande taille donnent souvent des valeurs qui sont distribuées selon une loi similaire à la loi normale, par exemple la taille des femmes adultes d'une population donnée. La loi normale est un bon modèle pour les variations aléatoires d’une caractéristique dans un grand échantillon.
33
Les statistiques descriptives La forme
L’asymétrie (skewness) Un coefficient d’asymétrie positif indique une distribution décalée à gauche de la moyenne, et donc une queue de distribution étalée vers la droite. Un coefficient d’asymétrie négatif indique une distribution décalée à droite de la moyenne, et donc une queue de distribution étalée vers la gauche. Un coefficient d’asymétrie nul indique une distribution symétrique : c’est par exemple le cas de la loi normale.
34
Les statistiques descriptives La forme
L’asymétrie (skewness) Un coefficient d’asymétrie positif est courant pour des fréquences ou nombres d’événements rares (ex.: nb de cauchemars par semaine, nb de partenaires sexuels dans les 12 derniers mois) ou des variables avec quelques données positives extrêmes (ex.: salaire).
35
Les statistiques descriptives La forme
L’aplatissement (kurtosis) Un coefficient d’aplatissement positif implique une distribution « pointue ». On parle alors d’une distribution leptokurtique. Un coefficient d’aplatissement négatif implique une distribution « aplatie ». On parle alors d’une distribution platykurtique. Un coefficient d’aplatissement nul implique une distribution « intermédiaire ». On parle alors d’une distribution mesokurtique.
36
Les statistiques descriptives La forme
Le nombre de modes Une distribution bimodale suggère la présence de deux populations distinctes. Ex.: Cours du soir; tailles chez les humains.
37
Les statistiques descriptives Les relations entre variables
Décrire les relations Jusqu’à maintenant, les indicateurs présentés décrivent chaque variable séparément. Mais quoi faire lorsqu’on veut décrire une relation entre deux variables continues? Deux solutions: Le nuage de points (scatter plot) La corrélation
38
Les statistiques descriptives Les relations entre variables
Le nuage de points En projetant chaque variable sur un axe, on peut évaluer la force et la direction d’une relation.
39
Les statistiques descriptives Les relations entre variables
La corrélation (r) La corrélation quantifie la force et la direction d’une relation linéaire par une valeur entre -1 et =corrélation positive parfaite 0=corrélation nulle (pas relié) -1=corrélation négative parfaite
40
Les statistiques descriptives Les relations entre variables
La corrélation (r)
41
Les statistiques descriptives Les relations entre variables
La corrélation (r) est la covariance entre x et y est l’écart-type de x est l’écart-type de y P.S. Vous n’aurez pas à calculer des corrélations.
42
Les statistiques descriptives Les relations entre variables
La corrélation (r) Le carré de la corrélation (r2) est plus facile à interpréter car il représente le % de variance expliquée. Exemple V1: Fréqu. des pratiques religieuses (0=jamais,…, 7=chaque jour) V2: Niveau d’homophobie (0-12) r=0,30; r2=0,09 La fréquence des pratiques religieuses permet d’expliquer 9% de la variance du niveau d’homophobie. Plus la fréquence est élevée, plus le niveau d’homophobie est élevé.
43
Méthodes quantitatives II: Les statistiques inférentielles
Dominic Beaulieu-Prévost Mars 2015, UQÀM
44
Les statistiques inférentielles
L’inférence statistique permet d’utiliser les statistiques échantillonales pour: Estimer des paramètres populationnels Tester des hypothèses à propos de la population
45
L’estimation de paramètres
46
Les statistiques inférentielles L’estimation de paramètres
Inférer un paramètre à partir d’une statistique Cette inférence est basée sur la théorie des probabilités et implique que l’échantillon à été tiré aléatoirement de la population (ou au moins qu’il en soit représentatif). Le modèle de base: Statistique = Paramètre + Erreur L’enjeu: Bien évaluer l’erreur.
47
Les statistiques inférentielles L’estimation de paramètres
Estimer la variance et l’écart-type populationnels La variance échantillonnale tend à être plus petite que la variance populationelle car il y a plus de variabilité dans la population. On utilise donc (n-1) au lieu de n pour estimer la variance et l’écart-type populationnels.
48
Les statistiques inférentielles L’estimation de paramètres
Estimer la moyenne populationnelle La moyenne échantillonnale est un estimateur non-biaisé de la moyenne populationnelle. Par contre, il faut recourir au théorème central limite pour évaluer la marge d’erreur possible.
49
Les statistiques inférentielles L’estimation de paramètres
Théorème central limite Toute somme de variables aléatoires indépendantes et identiquement distribuées tend vers une variable aléatoire gaussienne. Plus un échantillon est grand, plus sa moyenne tend vers la moyenne populationnelle. L’erreur diminue donc avec le nombre de participants. Si on pouvait tirer un nombre infini d’échantillons aléatoires d’une population, la distribution des moyennes échantillonnales serait normale et la moyenne de cette distribution serait la moyenne populationnelle.
50
Les statistiques inférentielles L’estimation de paramètres
Théorème central limite
51
Les statistiques inférentielles L’estimation de paramètres
Théorème central limite Si la taille échantillonnale est grande (>30), la distribution des moyennes échantillonnales sera à peu près normale. La moyenne de la distribution des moyennes échantillonnales est la moyenne populationnelle. L’écart-type de cette distribution, appelé l’erreur-type, est un ratio de l’écart-type de la population. Donc, plus la taille de l’échantillon (n) est grande, plus l’erreur-type est petite. OU
52
Les statistiques inférentielles L’estimation de paramètres
L’intervalle de confiance Tout comme l’écart-type est une mesure de l’écart « moyen » entre le score d’un individu et la moyenne de la distribution des scores dans un échantillon (voir intervalles empiriques)… …l’erreur-type est une mesure de l’écart « moyen » entre la moyenne d’un échantillon et la moyenne populationnelle. On peut donc créer des intervalles (de confiance) à partir de l’erreur-type, sur le même principe que les intervalles empiriques basées sur l’écart-type de l’échantillon.
53
Rappel! L’écart-type et la variance
Dans le cas d’une distribution normale: Environ 68% des valeurs sont à +/- 1 écart-type Environ 95% des valeurs sont à +/- 2 écarts-types Environ 99% des valeurs sont à +/- 3 écarts-types IE(95%)= moy +/- 1,96(écart-type) IE(99%)= moy +/- 2,58(écart-type)
54
Les statistiques inférentielles L’estimation de paramètres
L’intervalle de confiance Un intervalle de confiance de 95% représentent un intervalle qui a 95% de chances d’inclure la moyenne populationnelle. IC(95%)= m +/- 1,96(ET) IC(99%)= m +/- 2,58(ET) m= moyenne échantillonnale ET= erreur-type
55
Les statistiques inférentielles L’estimation de paramètres
L’intervalle de confiance Par extension, on peut considérer la distribution reliée à l’IC comme la distribution des valeurs probables pour la moyenne populationelle. Si on pouvait calculer des IC(95%) pour une infinité d’échantillons aléatoires provenant de la même population, la moyenne de la population serait incluse dans 95% d’entre eux.
56
Les statistiques inférentielles L’estimation de paramètres
L’intervalle de confiance (de 95%), c’est aussi: L’intervalle des valeurs considérées équivalentes (étant donné l’erreur échantillonnale) avec un niveau de confiance de 95%. Une estimation de la moyenne populationnelle avec un niveau de confiance de 95%.
57
Les statistiques inférentielles L’estimation de paramètres
L’intervalle de confiance est donc: L’outils idéal pour évaluer la moyenne populationnelle. Il fournit à la fois: - l’étendue des valeurs probables de la moyenne populationnelle; - la précision de l’estimation paramétrique.
58
Les statistiques inférentielles L’estimation de paramètres
Un exemple pour une moyenne Le niveau de satisfaction sexuelle dans un échantillon est: moyenne = 32,50 points écart-type = 12; n = 36; donc, erreur-type = 2,0 IC(95%) = 32,50 +/- 1,96*(2,0) IC(95%) = 32,5 +/- 3,92 IC(95%) = [28,58 à 36,42] La moyenne populationnelle serait donc entre 28,58 et 36,42 avec 95% de confiance.
59
Les statistiques inférentielles L’estimation de paramètres
Le secret des intervalles de confiance Il est possible de calculer des ICs pour évaluer n’importe quel paramètre à partir de la statistique correspondante. On peut donc en calculer pour: - des moyennes; - des proportions; - des différences de moyennes; - des différences de proportion; - des corrélations…
60
Les statistiques inférentielles L’estimation de paramètres
IC pour une moyenne Le test T à échantillon unique IC pour une différence de moyennes entre deux groupes indépendants Le test T à groupes indépendants IC pour une différence de moyennes entre deux mesures appariées (ex: prétest vs posttest)
61
Les statistiques inférentielles L’estimation de paramètres
Exemple pour groupes indépendants Différence h/f dans le nb de Sx après avoir été victime ou témoin d’un acte de violence grave au travail. IC(95%) = [-0,70 à 0,27]
62
Les statistiques inférentielles L’estimation de paramètres
Intervalles de confiance pour des proportions ou des corrélations Si vous avez: (a) la valeur de proportion dans l’échantillon et (b) le nombre d’individus dans l’échantillon, vous pouvez directement calculer l’intervalle de confiance à partir de feuilles de calcul comme celle-ci:
63
Les statistiques inférentielles L’estimation de paramètres
Un exemple pour une proportion Dans un échantillon australien (n=10173 hommes), 20% des hommes rapportent avoir déjà été diagnostiqué avec une ITSS (à vie) ( ). IC(95%)=[19,2% à 20,8%] (vérifiez avec la feuille de calcul) Et si l’échantillon avait été de 100 hommes… IC(95%)=[13,3% à 28,9%] Et pour n=20… IC(95%)=[8,1% à 41,6%]
64
Les statistiques inférentielles L’estimation de paramètres
Un exemple pour une corrélation V1: Fréqu. des pratiques religieuses (0=jamais,…, 7=chaque jour) V2: Niveau d’homophobie (0-12) r=0,30; r2=0,09, n= 500 IC(95%) r=[0,22 à 0,38] r2=[4,8% à 14,3%] Au niveau de la population, la pratique expliquerait entre 4,8% et 14,3% de la variance du niveau d’homophobie. Si n=100, IC(95%) r=[0,11 à 0,47] r2=[1,2% à 22,0%] Si n=30, IC(95%) r=[-0,07 à 0,60] r2=[-0,5% à 35,5%] Comme pour tous les IC, la précision diminue avec le n.
65
Liens utiles… The PENIS of statistics ( ) Intervalle de confiance pour une moyenne ( ) Démonstration visuelle de la loi normale ( ) Tutoriels en anglais ( ) Des statistiques sur la sexualité ( )
66
Les tests d’hypothèse
67
Les statistiques inférentielles Les tests d’hypothèse
Au lieu de simplement vouloir estimer un paramètre populationnel, on veut parfois tester une hypothèse… Les types d’hypothèse La logique des tests d’hypothèse Exemple avec une proportion Exemple avec un test T
68
Les statistiques inférentielles Les tests d’hypothèse – les types de tests
Hypothèses ponctuelles vs hypothèses par intervalle H. ponctuelle: H. n’incluant qu’une seule valeur (ex: la moitié des hommes ont déjà été diagnostiqués d’une ITSS) H. par intervalle: H. incluant une étendue de valeurs (moins de la moitié des hommes ont déjà été diagnostiqués d’une ITSS)
69
Les statistiques inférentielles Les tests d’hypothèse – les types de tests
L’hypothèse nulle (ou H0) C’est l’hypothèse la plus populaire et elle représente un effet nul (ex: aucune différence entre deux groupes, aucune relation entre deux variables, moyenne de 0,…). Par tradition les chercheurs cherchent à rejeter l’hypothèse nulle pour appuyer l’idée qu’il existe un effet non-nul. C’est ce qui est appelé un test de signification statistique. Si H0 est rejetée, le test permet de conclure qu’il y a probablement un effet. C’est une hyp. ponctuelle.
70
Les statistiques inférentielles Les tests d’hypothèse – la logique des tests
Plusieurs tests peuvent être effectués sans calculs additionnels à partir d’un IC. Le principe est le même pour tous les types d’ICs. Il suffit de: - préciser l’hypothèse qui nous intéresse - comparer l’hypothèse à l’intervalle de confiance - conclure si l’hypothèse est falsifiée/rejetée, corroborée ou indéterminée. La précision d’un test est exprimée par son alpha (α), qui correspond à (1-niv de confiance). Pour un IC(95%), α=0,05.
71
Les statistiques inférentielles Les tests d’hypothèse – la logique des tests
L’hypothèse est falsifiée/rejetée si l’intervalle de confiance est totalement excluse de l’intervalle de l’hypothèse (p < 0,05 si alpha = 0,05). Pour les hypothèses par intervalle, on peut aussi savoir si: L’hypothèse est corroborée si l’intervalle de confiance est totalement incluse dans l’intervalle de l’hypothèse (p > 0,95 si alpha = 0,05). L’hypothèse est indéterminée si l’intervalle de confiance est partiellement excluse de l’intervalle de l’hypothèse (0,05 < p < 0,95 si alpha = 0,05)
72
Les statistiques inférentielles Les tests d’hypothèse – la logique des tests
Un exemple pour une proportion Selon un échantillon représentatif d’australiens (n=20), il y aurait entre 8,1% et 41,6% des hommes qui rapporteraient avoir déjà été diagnostiqué avec une ITSS (à vie). IC(95%)=[8,1% à 41,6%] L’H0 selon laquelle la moitié des hommes rapporteraient un dx est… Le test est donc statistiquement significatif ou non? L’hyp. selon laquelle plus de la moitié des hommes rapporteraient un dx est… L’hyp. selon laquelle moins de la moitié des hommes rapporteraient un dx est…
73
Les statistiques inférentielles Les tests d’hypothèse – la logique des tests
Un exemple pour une proportion Selon un échantillon représentatif d’australiens (n=20), il y aurait entre 8,1% et 41,6% des hommes qui rapporteraient avoir déjà été diagnostiqué avec une ITSS (à vie). IC(95%)=[8,1% à 41,6%] L’H0 selon laquelle la moitié des hommes rapporteraient un dx est… falsifiée/rejetée Le test est donc statistiquement significatif L’hyp. selon laquelle plus de la moitié des hommes rapporteraient un dx est… falsifiée/rejetée L’hyp. selon laquelle moins de la moitié des hommes rapporteraient un dx est… corroborée
74
Les statistiques inférentielles Les tests d’hypothèse – le test T
Retour sur un exemple précédent H0…
75
Synthèse et approfondissement
76
Les statistiques inférentielles Synthèse et approfondissement
Le test T est le modèle de base pour la comparaison de moyennes. Lorsque la VI est polytomique ou lorsqu’il y a plus d’une VI nominale, on utilise généralement des modèles de type ANOVA (analyses de variance), qui sont similaires mais plus complexes. Exemple: Pour évaluer les niveaux de bien-être en fonction de l’OS auto-identifiée (hétéro, gai/lesbienne, bi) et du genre.
77
Les statistiques inférentielles Synthèse et approfondissement
La corrélation est le modèle de base pour évaluer la force d’association entre des variables. Le modèle plus général est la régression linéaire. Elle permet de prédire une VD continue à partir d’une ou plusieurs VI continues ou catégorielles. Exemple: Quels sont les déterminants (prédicteurs) de l’homophobie chez les étudiants du secondaire. ATTENTION: corrélation ≠ causalité
78
Les statistiques inférentielles Synthèse et approfondissement
La corrélation est le modèle de base pour évaluer la force d’association entre des variables. Pour prédire une VD dichotomique, le modèle générale s’appelle la régression logistique. Ce modèle permet de prédire la VD à partir d’une ou plusieurs VI continues ou catégorielles. Exemple: Quels sont les facteurs associés à une augmentation des risques de contracter une ITSS.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.