Dominic Beaulieu-Prévost Mars 2015, UQÀM

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Présentation des données
STATISTIQUE INFERENTIELLE L ’ESTIMATION
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Optionnel de Statistique appliquée À la lecture critique d’articles
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Dr DEVILLE Emmanuelle J D V 12/07/2006
Statistique et probabilités au collège
Régression -corrélation
La loi normale et l’estimation de paramètres
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Méthodes de Biostatistique
Les principaux résumés de la statistique
La Régression Multiple
L’inférence statistique
Régression linéaire simple
Groupe 1: Classes de même intervalle
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
TECHNIQUES QUANTITATIVES APPLIQUEES A LA FINANCE
Corrélation et régression linéaire simple
Modeles Lineaires.
La corrélation et la régression multiple
La corrélation et la régression
La régression logistique
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
La régression multiple
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Rappels de statistiques descriptives
Théorème de la limite centrale l’inférence statistique
Analyse statistique de base
LA REGRESSION LINEAIRE
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
Intervalles de confiance pour des proportions L’inférence statistique
Probabilités et Statistiques Année 2010/2011
Chapitre 3: Variables aléatoires réelles continues
Distribution symétrique
Concepts fondamentaux: statistiques et distributions
Rappels Variables nominales :
L’erreur standard et les principes fondamentaux du test de t
Méthodologie de l’observation
PARAMETRES STATISTIQUES
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Analyse des semis de point
Statistique Descriptive Les Paramètres de Tendance Centrale
BIOSTATISTIQUES Définitions.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Formation Green Belt Lean Six Sigma
Introduction aux statistiques Intervalles de confiance
Nature de la statistique La statistique est la science qui étudie la collecte, la présentation, l’analyse et l’utilisation des données numériques en vue.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 4 Statistique descriptive 1. Echantillonnage statistique population On appelle population, un ensemble d’individus auquel on s’intéresse échantillon.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Transcription de la présentation:

Dominic Beaulieu-Prévost Mars 2015, UQÀM SEX1200 Cours 10 et 11 Dominic Beaulieu-Prévost Mars 2015, UQÀM

Méthodes quantitatives I: Les statistiques descriptives Dominic Beaulieu-Prévost Mars 2013, UQÀM

Plan de match Notions de base en statistique Les statistiques descriptives: Comment décrire un échantillon Introduction à l’inférence statistique

Notions de base en statistiques La population de référence En statistique, une population est un ensemble fini d'objets (ex.: des individus) sur lesquels une étude se porte et dont les éléments répondent à une ou plusieurs caractéristiques communes.  Dit autrement, c’est l’ensemble des unités qu’on désire étudier. Ex.: La population canadienne, les cégépiens, les sexologues, les victimes d’abus sexuel, les HARSAH. L’échantillon à l’étude En statistiques, un échantillon est un ensemble d'individus extraits d'une population étudiée de manière à ce qu'il soit représentatif de cette population. Dit autrement, c’est l’ensemble des participants à une étude. La représentativité de l’échantillon dépend de la méthode d’échantillonnage.

Notions de base en statistiques Statistiques descriptives L'objectif des statistiques descriptives est de décrire, c'est-à-dire de résumer ou représenter, par des statistiques, les données d’un échantillon quand elles sont nombreuses. Statistiques inférentielles/inductives L’objectif des statistiques inférentielles est d’estimer des caractéristiques d’une population à partir des données d’un échantillon représentatif de cette population.

Notions de base en statistiques Un paramètres vs une statistique Un paramètre est une caractéristiques numérique d’une population. Une statistique est une caractéristique numérique d’un échantillon. Le paramètre est à la population ce que la statistique est à l’échantillon. Ex de caractéristiques numériques: moyenne, min, max, écart-type.

Notions de base en statistiques

Notions de base en statistiques

Les statistiques descriptives La distribution: un résumé de l’ensemble des données Les différents indicateurs statistiques Les indicateurs de tendance centrale Les indicateurs de dispersion Les indicateurs de forme

Les statistiques descriptives La distribution Méthodes pour représenter la distribution des données Le tableau des fréquences L’histogramme La fonction de densité de probabilité

Les statistiques descriptives La distribution Le tableau de fréquences Source: http://www.nationalsexstudy.indiana.edu/

Les statistiques descriptives La distribution L’histogramme Source: http://www.sbs.com.au/shows/sex/about/page/i/2/h/Sex-Graphs/

Les statistiques descriptives La distribution L’histogramme Source: http://www.nationalsexstudy.indiana.edu/

Les statistiques descriptives La distribution La fonction de densité de probabilité Une représentation visuelle pour variables continues.

Les statistiques descriptives La tendance centrale La tendance centrale représente le point autour duquel les valeurs d’une variable tendent à se concentrer. Les trois principales mesures de tendance centrale sont: Le mode La médiane La moyenne

Les statistiques descriptives La tendance centrale Le mode La valeur ou catégorie la plus représentée de l’échantillon. La seule mesure de tendance centrale possible pour les variables nominales. Pour les variables ordinales ou quantitatives, on peut aussi préciser si la distribution est unimodale, bimodale ou multimodale.

Les statistiques descriptives La tendance centrale Le mode

Les statistiques descriptives La tendance centrale Le mode Dans une distribution multimodale, on distingue le mode principal (maximum global) et les modes secondaires (maxima locaux).

Les statistiques descriptives La tendance centrale La médiane La médiane est la valeur qui permet de partager une série numérique ordonnée en deux parties de même nombre d'éléments. Si n est impair, la médiane est la valeur du milieu. Si n est pair, la médiane est la moyenne arithmétique des deux valeurs centrales. EX: 1 1 1 2 3 3 3 4. La médiane de cette série est 2,5.

Les statistiques descriptives La tendance centrale La moyenne arithmétique (ou moyenne) La moyenne (mean) correspond à la somme des valeurs divisée par le nombre de valeurs. La moyenne est plus facile à calculer que la médiane, mais elle est plus affectée par les valeurs extrêmes.

Les statistiques descriptives La dispersion La dispersion représente la variabilité des différentes valeurs que peut prendre une variable. Les principales mesures de dispersion associées à la moyenne sont: L’étendue et les valeurs minimale et maximale L’écart moyen L’écart-type et la variance L’intervalle empirique

Les statistiques descriptives La dispersion L’étendue et les valeurs minimale et maximale L’étendue (range) est la différence entre la valeur maximale et la valeur minimale de la variable. Étendue = xmax - xmin

Les statistiques descriptives La dispersion L’écart moyen Après avoir calculé la moyenne, on peut chercher à savoir de quelle façon les valeurs s'éloignent de cette moyenne. On crée alors une nouvelle série statistique : la série des écarts à la moyenne. Problème: La moyenne des écarts à la moyenne est toujours égal à zéro. Ex.: Série [1, 1, 2, 3, 3]; moy=2; Écarts [-1, -1, 0, 1, 1]

Les statistiques descriptives La dispersion L’écart moyen L’écart moyen est donc la moyenne des valeurs absolues des écarts. Écart moyen = Ex.: Série [1, 1, 2, 3, 3]; Écart moyen = (1+1+0+1+1)/5 = 0,8 Problème: L’utilisation de la valeur absolue rend les calculs compliqués.

Les statistiques descriptives La dispersion L’écart-type et la variance L’écart-type et la variance pallient aux limites de l’écart moyen en passant par le carré des écarts à la moyenne, qui est toujours positif. La variance (s2) est la moyenne des carrés des écarts à la moyenne.

Les statistiques descriptives La dispersion L’écart-type et la variance L’écart-type (s) est la racine carré de la variance. L’écart-type est plus utilisé que la variance car il utilise les mêmes unités que la variable (au lieu du carré des unités).

Les statistiques descriptives La dispersion L’écart-type et la variance Dans le cas d’une distribution normale: Environ 68% des valeurs sont à +/- 1 écart-type Environ 95% des valeurs sont à +/- 2 écarts-types Environ 99% des valeurs sont à +/- 3 écarts-types

Les statistiques descriptives La dispersion L’intervalle empirique Il est donc possible de créer, à partir des écarts-types, des intervalles empiriques (IE) qui incluent une proportion spécifique des données. Ces intervalles supposent une variable continue et une distribution relativement normale des données. IE(95%)= moy +/- 1,96(écart-type) IE(99%)= moy +/- 2,58(écart-type)

Les statistiques descriptives La forme La forme d’une distribution est aussi un élément pertinent. Le modèle de base d’une distribution est appelé la distribution normale ou gaussienne Trois dimensions sont souvent évoqués pour décrire l’écart entre une distribution et le modèle normal: L’assymétrie L’aplatissement Le nombre de modes

Les statistiques descriptives La forme La distribution normale Le modèle de référence d’une distribution est appelé la distribution normale ou gaussienne car ce modèle suit la loi statistique du même nom. Toute distribution normale peut être décrite simplement en précisant sa moyenne et son écart-type. Si la moyenne est zéro et l’écart-type égal un, on parle d’une distribution normale centrée réduite.

Les statistiques descriptives La forme La distribution normale (et la cote Z) La normalisation d’une distribution est d’ailleurs sa transformation en distribution centrée réduite, en centrant la moyenne à zéro et en réduisant l’écart-type à un. Cela transforme les scores en cotes Z.

Les statistiques descriptives La forme Pourquoi la loi normale comme modèle de base? Des mesures faites sur une population de grande taille donnent souvent des valeurs qui sont distribuées selon une loi similaire à la loi normale, par exemple la taille des femmes adultes d'une population donnée. La loi normale est un bon modèle pour les variations aléatoires d’une caractéristique dans un grand échantillon.

Les statistiques descriptives La forme L’asymétrie (skewness) Un coefficient d’asymétrie positif indique une distribution décalée à gauche de la moyenne, et donc une queue de distribution étalée vers la droite. Un coefficient d’asymétrie négatif indique une distribution décalée à droite de la moyenne, et donc une queue de distribution étalée vers la gauche. Un coefficient d’asymétrie nul indique une distribution symétrique : c’est par exemple le cas de la loi normale.

Les statistiques descriptives La forme L’asymétrie (skewness) Un coefficient d’asymétrie positif est courant pour des fréquences ou nombres d’événements rares (ex.: nb de cauchemars par semaine, nb de partenaires sexuels dans les 12 derniers mois) ou des variables avec quelques données positives extrêmes (ex.: salaire).

Les statistiques descriptives La forme L’aplatissement (kurtosis) Un coefficient d’aplatissement positif implique une distribution « pointue ». On parle alors d’une distribution leptokurtique. Un coefficient d’aplatissement négatif implique une distribution « aplatie ». On parle alors d’une distribution platykurtique. Un coefficient d’aplatissement nul implique une distribution « intermédiaire ». On parle alors d’une distribution mesokurtique.

Les statistiques descriptives La forme Le nombre de modes Une distribution bimodale suggère la présence de deux populations distinctes. Ex.: Cours du soir; tailles chez les humains.

Les statistiques descriptives Les relations entre variables Décrire les relations Jusqu’à maintenant, les indicateurs présentés décrivent chaque variable séparément. Mais quoi faire lorsqu’on veut décrire une relation entre deux variables continues? Deux solutions: Le nuage de points (scatter plot) La corrélation

Les statistiques descriptives Les relations entre variables Le nuage de points En projetant chaque variable sur un axe, on peut évaluer la force et la direction d’une relation.

Les statistiques descriptives Les relations entre variables La corrélation (r) La corrélation quantifie la force et la direction d’une relation linéaire par une valeur entre -1 et 1. 1=corrélation positive parfaite 0=corrélation nulle (pas relié) -1=corrélation négative parfaite

Les statistiques descriptives Les relations entre variables La corrélation (r)

Les statistiques descriptives Les relations entre variables La corrélation (r) est la covariance entre x et y est l’écart-type de x est l’écart-type de y P.S. Vous n’aurez pas à calculer des corrélations.

Les statistiques descriptives Les relations entre variables La corrélation (r) Le carré de la corrélation (r2) est plus facile à interpréter car il représente le % de variance expliquée. Exemple V1: Fréqu. des pratiques religieuses (0=jamais,…, 7=chaque jour) V2: Niveau d’homophobie (0-12) r=0,30; r2=0,09 La fréquence des pratiques religieuses permet d’expliquer 9% de la variance du niveau d’homophobie. Plus la fréquence est élevée, plus le niveau d’homophobie est élevé.

Méthodes quantitatives II: Les statistiques inférentielles Dominic Beaulieu-Prévost Mars 2015, UQÀM

Les statistiques inférentielles L’inférence statistique permet d’utiliser les statistiques échantillonales pour: Estimer des paramètres populationnels Tester des hypothèses à propos de la population

L’estimation de paramètres

Les statistiques inférentielles L’estimation de paramètres Inférer un paramètre à partir d’une statistique Cette inférence est basée sur la théorie des probabilités et implique que l’échantillon à été tiré aléatoirement de la population (ou au moins qu’il en soit représentatif). Le modèle de base: Statistique = Paramètre + Erreur L’enjeu: Bien évaluer l’erreur.

Les statistiques inférentielles L’estimation de paramètres Estimer la variance et l’écart-type populationnels La variance échantillonnale tend à être plus petite que la variance populationelle car il y a plus de variabilité dans la population. On utilise donc (n-1) au lieu de n pour estimer la variance et l’écart-type populationnels.

Les statistiques inférentielles L’estimation de paramètres Estimer la moyenne populationnelle La moyenne échantillonnale est un estimateur non-biaisé de la moyenne populationnelle. Par contre, il faut recourir au théorème central limite pour évaluer la marge d’erreur possible.

Les statistiques inférentielles L’estimation de paramètres Théorème central limite Toute somme de variables aléatoires indépendantes et identiquement distribuées tend vers une variable aléatoire gaussienne.  Plus un échantillon est grand, plus sa moyenne tend vers la moyenne populationnelle. L’erreur diminue donc avec le nombre de participants. Si on pouvait tirer un nombre infini d’échantillons aléatoires d’une population, la distribution des moyennes échantillonnales serait normale et la moyenne de cette distribution serait la moyenne populationnelle.

Les statistiques inférentielles L’estimation de paramètres Théorème central limite

Les statistiques inférentielles L’estimation de paramètres Théorème central limite Si la taille échantillonnale est grande (>30), la distribution des moyennes échantillonnales sera à peu près normale. La moyenne de la distribution des moyennes échantillonnales est la moyenne populationnelle. L’écart-type de cette distribution, appelé l’erreur-type, est un ratio de l’écart-type de la population. Donc, plus la taille de l’échantillon (n) est grande, plus l’erreur-type est petite. OU

Les statistiques inférentielles L’estimation de paramètres L’intervalle de confiance Tout comme l’écart-type est une mesure de l’écart « moyen » entre le score d’un individu et la moyenne de la distribution des scores dans un échantillon (voir intervalles empiriques)… …l’erreur-type est une mesure de l’écart « moyen » entre la moyenne d’un échantillon et la moyenne populationnelle. On peut donc créer des intervalles (de confiance) à partir de l’erreur-type, sur le même principe que les intervalles empiriques basées sur l’écart-type de l’échantillon.

Rappel! L’écart-type et la variance Dans le cas d’une distribution normale: Environ 68% des valeurs sont à +/- 1 écart-type Environ 95% des valeurs sont à +/- 2 écarts-types Environ 99% des valeurs sont à +/- 3 écarts-types IE(95%)= moy +/- 1,96(écart-type) IE(99%)= moy +/- 2,58(écart-type)

Les statistiques inférentielles L’estimation de paramètres L’intervalle de confiance Un intervalle de confiance de 95% représentent un intervalle qui a 95% de chances d’inclure la moyenne populationnelle. IC(95%)= m +/- 1,96(ET) IC(99%)= m +/- 2,58(ET) m= moyenne échantillonnale ET= erreur-type

Les statistiques inférentielles L’estimation de paramètres L’intervalle de confiance Par extension, on peut considérer la distribution reliée à l’IC comme la distribution des valeurs probables pour la moyenne populationelle. Si on pouvait calculer des IC(95%) pour une infinité d’échantillons aléatoires provenant de la même population, la moyenne de la population serait incluse dans 95% d’entre eux.

Les statistiques inférentielles L’estimation de paramètres L’intervalle de confiance (de 95%), c’est aussi: L’intervalle des valeurs considérées équivalentes (étant donné l’erreur échantillonnale) avec un niveau de confiance de 95%. Une estimation de la moyenne populationnelle avec un niveau de confiance de 95%.

Les statistiques inférentielles L’estimation de paramètres L’intervalle de confiance est donc: L’outils idéal pour évaluer la moyenne populationnelle. Il fournit à la fois: - l’étendue des valeurs probables de la moyenne populationnelle; - la précision de l’estimation paramétrique.

Les statistiques inférentielles L’estimation de paramètres Un exemple pour une moyenne Le niveau de satisfaction sexuelle dans un échantillon est: moyenne = 32,50 points écart-type = 12; n = 36; donc, erreur-type = 2,0 IC(95%) = 32,50 +/- 1,96*(2,0) IC(95%) = 32,5 +/- 3,92 IC(95%) = [28,58 à 36,42] La moyenne populationnelle serait donc entre 28,58 et 36,42 avec 95% de confiance.

Les statistiques inférentielles L’estimation de paramètres Le secret des intervalles de confiance Il est possible de calculer des ICs pour évaluer n’importe quel paramètre à partir de la statistique correspondante. On peut donc en calculer pour: - des moyennes; - des proportions; - des différences de moyennes; - des différences de proportion; - des corrélations…

Les statistiques inférentielles L’estimation de paramètres IC pour une moyenne Le test T à échantillon unique IC pour une différence de moyennes entre deux groupes indépendants Le test T à groupes indépendants IC pour une différence de moyennes entre deux mesures appariées (ex: prétest vs posttest)

Les statistiques inférentielles L’estimation de paramètres Exemple pour groupes indépendants Différence h/f dans le nb de Sx après avoir été victime ou témoin d’un acte de violence grave au travail. IC(95%) = [-0,70 à 0,27]

Les statistiques inférentielles L’estimation de paramètres Intervalles de confiance pour des proportions ou des corrélations Si vous avez: (a) la valeur de proportion dans l’échantillon et (b) le nombre d’individus dans l’échantillon, vous pouvez directement calculer l’intervalle de confiance à partir de feuilles de calcul comme celle-ci: http://www.memoryproject.info/stat.html

Les statistiques inférentielles L’estimation de paramètres Un exemple pour une proportion Dans un échantillon australien (n=10173 hommes), 20% des hommes rapportent avoir déjà été diagnostiqué avec une ITSS (à vie) ( http://www.sbs.com.au/shows/sex/about/page/i/2/h/Sex-Graphs/ ). IC(95%)=[19,2% à 20,8%] (vérifiez avec la feuille de calcul) Et si l’échantillon avait été de 100 hommes… IC(95%)=[13,3% à 28,9%] Et pour n=20… IC(95%)=[8,1% à 41,6%]

Les statistiques inférentielles L’estimation de paramètres Un exemple pour une corrélation V1: Fréqu. des pratiques religieuses (0=jamais,…, 7=chaque jour) V2: Niveau d’homophobie (0-12) r=0,30; r2=0,09, n= 500 IC(95%) r=[0,22 à 0,38] r2=[4,8% à 14,3%] Au niveau de la population, la pratique expliquerait entre 4,8% et 14,3% de la variance du niveau d’homophobie. Si n=100, IC(95%) r=[0,11 à 0,47] r2=[1,2% à 22,0%] Si n=30, IC(95%) r=[-0,07 à 0,60] r2=[-0,5% à 35,5%] Comme pour tous les IC, la précision diminue avec le n.

Liens utiles… The PENIS of statistics ( http://www.youtube.com/watch?v=oe3_DeLC2JE&list=PL343F1B5F55734D55&index=2 ) Intervalle de confiance pour une moyenne (http://www.youtube.com/watch?v=3gZnSHk9Kt0 ) Démonstration visuelle de la loi normale (http://www.youtube.com/watch?v=AUSKTk9ENzg ) Tutoriels en anglais (http://www.youtube.com/playlist?list=PL568547ACA9211CCA ) Des statistiques sur la sexualité (http://www.sbs.com.au/shows/sex/about/page/i/2/h/Sex-Graphs/ )

Les tests d’hypothèse

Les statistiques inférentielles Les tests d’hypothèse Au lieu de simplement vouloir estimer un paramètre populationnel, on veut parfois tester une hypothèse… Les types d’hypothèse La logique des tests d’hypothèse Exemple avec une proportion Exemple avec un test T

Les statistiques inférentielles Les tests d’hypothèse – les types de tests Hypothèses ponctuelles vs hypothèses par intervalle H. ponctuelle: H. n’incluant qu’une seule valeur (ex: la moitié des hommes ont déjà été diagnostiqués d’une ITSS) H. par intervalle: H. incluant une étendue de valeurs (moins de la moitié des hommes ont déjà été diagnostiqués d’une ITSS)

Les statistiques inférentielles Les tests d’hypothèse – les types de tests L’hypothèse nulle (ou H0) C’est l’hypothèse la plus populaire et elle représente un effet nul (ex: aucune différence entre deux groupes, aucune relation entre deux variables, moyenne de 0,…). Par tradition les chercheurs cherchent à rejeter l’hypothèse nulle pour appuyer l’idée qu’il existe un effet non-nul. C’est ce qui est appelé un test de signification statistique. Si H0 est rejetée, le test permet de conclure qu’il y a probablement un effet. C’est une hyp. ponctuelle.

Les statistiques inférentielles Les tests d’hypothèse – la logique des tests Plusieurs tests peuvent être effectués sans calculs additionnels à partir d’un IC. Le principe est le même pour tous les types d’ICs. Il suffit de: - préciser l’hypothèse qui nous intéresse - comparer l’hypothèse à l’intervalle de confiance - conclure si l’hypothèse est falsifiée/rejetée, corroborée ou indéterminée. La précision d’un test est exprimée par son alpha (α), qui correspond à (1-niv de confiance). Pour un IC(95%), α=0,05.

Les statistiques inférentielles Les tests d’hypothèse – la logique des tests L’hypothèse est falsifiée/rejetée si l’intervalle de confiance est totalement excluse de l’intervalle de l’hypothèse (p < 0,05 si alpha = 0,05). Pour les hypothèses par intervalle, on peut aussi savoir si: L’hypothèse est corroborée si l’intervalle de confiance est totalement incluse dans l’intervalle de l’hypothèse (p > 0,95 si alpha = 0,05). L’hypothèse est indéterminée si l’intervalle de confiance est partiellement excluse de l’intervalle de l’hypothèse (0,05 < p < 0,95 si alpha = 0,05)

Les statistiques inférentielles Les tests d’hypothèse – la logique des tests Un exemple pour une proportion Selon un échantillon représentatif d’australiens (n=20), il y aurait entre 8,1% et 41,6% des hommes qui rapporteraient avoir déjà été diagnostiqué avec une ITSS (à vie). IC(95%)=[8,1% à 41,6%] L’H0 selon laquelle la moitié des hommes rapporteraient un dx est… Le test est donc statistiquement significatif ou non? L’hyp. selon laquelle plus de la moitié des hommes rapporteraient un dx est… L’hyp. selon laquelle moins de la moitié des hommes rapporteraient un dx est…

Les statistiques inférentielles Les tests d’hypothèse – la logique des tests Un exemple pour une proportion Selon un échantillon représentatif d’australiens (n=20), il y aurait entre 8,1% et 41,6% des hommes qui rapporteraient avoir déjà été diagnostiqué avec une ITSS (à vie). IC(95%)=[8,1% à 41,6%] L’H0 selon laquelle la moitié des hommes rapporteraient un dx est… falsifiée/rejetée Le test est donc statistiquement significatif L’hyp. selon laquelle plus de la moitié des hommes rapporteraient un dx est… falsifiée/rejetée L’hyp. selon laquelle moins de la moitié des hommes rapporteraient un dx est… corroborée

Les statistiques inférentielles Les tests d’hypothèse – le test T Retour sur un exemple précédent H0…

Synthèse et approfondissement

Les statistiques inférentielles Synthèse et approfondissement Le test T est le modèle de base pour la comparaison de moyennes. Lorsque la VI est polytomique ou lorsqu’il y a plus d’une VI nominale, on utilise généralement des modèles de type ANOVA (analyses de variance), qui sont similaires mais plus complexes. Exemple: Pour évaluer les niveaux de bien-être en fonction de l’OS auto-identifiée (hétéro, gai/lesbienne, bi) et du genre.

Les statistiques inférentielles Synthèse et approfondissement La corrélation est le modèle de base pour évaluer la force d’association entre des variables. Le modèle plus général est la régression linéaire. Elle permet de prédire une VD continue à partir d’une ou plusieurs VI continues ou catégorielles. Exemple: Quels sont les déterminants (prédicteurs) de l’homophobie chez les étudiants du secondaire. ATTENTION: corrélation ≠ causalité

Les statistiques inférentielles Synthèse et approfondissement La corrélation est le modèle de base pour évaluer la force d’association entre des variables. Pour prédire une VD dichotomique, le modèle générale s’appelle la régression logistique. Ce modèle permet de prédire la VD à partir d’une ou plusieurs VI continues ou catégorielles. Exemple: Quels sont les facteurs associés à une augmentation des risques de contracter une ITSS.