Inférence tests univariés tests bivariés Eugénie Dostie-Goulet

Slides:



Advertisements
Présentations similaires
Intervalles de confiance
Advertisements

L’échantillonnage & Ses Fluctuations
Statistique II Chapitre 3: Tests d’hypothèses
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
5 critères de qualité d'un test
Collecte de données F. Kohler.
Inférence statistique
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Variable aléatoire, estimation ponctuelle et par intervalle
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Les tests d’hypothèses
Statistiques et probabilités en première
variable aléatoire Discrète
La loi normale et l’estimation de paramètres
L’OUTIL STATISTIQUE.
Lectures Volume obligatoire: Chapitre 8
Statistiques et Probabilités au lycée
Traitement de données socio-économiques et techniques d’analyse :
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Tests de comparaison de moyennes
Méthodes de Biostatistique
« 90% de nos trains arrivent à lheure! ». énoncé exercice : « Le retard sur un trajet train de 6h15 Marseille-Paris est en moyenne: 10mn avec écart type.
La Régression Multiple
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Échantillonnage (STT-2000)
Mathématiques Les statistiques et probabilités en STI2d/STL
Comprendre la variation
Comprendre la variation dans les données: Notions de base
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Interprétation des tests statistiques.
Synthèse du bloc 3 Eugénie Dostie-Goulet
La corrélation et la régression
Le test t.
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Corrélation Principe fondamental d’une analyse de corrélation
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Objectifs du chapitre sur les distributions déchantillonnage Comprendre la relation entre les distributions déchantillonnage et les tests dinférence statistique.
Distribution d’échantillonnage
La fonction inversement proportionnelle
ÉCHANTILLONNAGE AU FIL DES PROGRAMMES Stage : nouveaux programmes de première Novembre 2011.
Lectures Volume du cours : Chapitre 7
Rappels de statistiques descriptives
STATISTIQUES DESCRIPTIVES
Intervalles de confiance pour des proportions L’inférence statistique
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Chapitre 4 Variables aléatoires discrètes
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Échantillonnage (STT-2000)
Probabilités et statistique MQT-1102
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Transcription de la présentation:

Inférence tests univariés tests bivariés Eugénie Dostie-Goulet Plan de la présentation Comment faire une bonne recherche statistique L’inférence Risques de biais Distribution normale inférence : tests univariés (moyenne, pourcentage) Inférence : tableaux croisés et Chi2 (khi-deux)

On ne prouve rien Lacunes conceptuelles: restons modestes! Impossible de spécifier le modèle parfaitement Hasard dans l’échantillonnage Notre objectif est donc de tester des hypothèses, de confronter nos résultats à nos attentes. Il y a toujours quelque chose à en tirer, peu importe le résultat.

Réflexion théorique La théorie est au coeur de l’analyse statistique: on base nos hypothèses sur cette théorie, on l’utilise pour alimenter la discussion sur nos résultats, on l’enrichit grâce à ces résultats et les conclusions qu’on en tire. Il est donc essentiel de saisir les arguments théoriques et les débats qui s’y trouvent avant de se lancer dans des analyses trop poussées. ... ce qui ne veut pas dire qu’on ne « découvrira » rien!

Formulation du problème Inondations au Pakistan Identification d’un problème Motivation: qui s’intéresse à nos résultats? Les décideurs s’intéressent à l’importance sociale ou politique des résultats d’une recherche. Les chercheurs veulent une contribution à l’avancement des connaissances scientifiques Énoncé sous forme de question problème général, qu’on précise, et pour lequel on pose une question Il y a plus de 125 000 Canadiens d’origine pakistanaise... On en connaît peu sur l’origine de l’aide en situation de crise Quels sont les facteurs influençant l’aide en situation de crise?

Construction du cadre opératoire Hypothèse Doit être plausible La littérature nous aide à en juger Doit être vérifiable Basée sur des concepts/variables opératoires (précis, mesurables) Doit être précise Formulation sans ambiguïté Doit être générale Le pouvoir d’explication va au-delà du cas particulier Plus la diaspora est nombreuse dans un pays d’accueil, plus ce pays est porté à dépenser lorsqu’un drame survient dans le pays d’origine

Construction du cadre opératoire Unité d’analyse Des individus? des villes? des pays? Variable dépendante, variable indépendante, variables contrôle Bien les choisir Indicateur Ce qu’on utilise pour « représenter » chaque variables

Structuration Schéma conceptuel Variables indépendantes ou les « causes » Variable dépendante ou la « conséquence » Importance de la diaspora Aide internationale en millions de $ Médiatisation du drame Nombre de morts Résolution de l’ONU

Cueillette des données Analyse des données / interprétation des résultats

L’analyse confirmatoire

Quelques notions d’inférence statistique Inférence statistique: ensemble des méthodes permettant de tirer des conclusions sur un groupe déterminé – la population – à partir des données provenant d’un échantillon choisi dans cette population. L’estimation ponctuelle est ajustée pour tenir compte de l’erreur échantillonnale: c’est la notion de « niveau de confiance ».

Biais possibles Erreur échantillonnale Biais échantillon Taux de réponse (par téléphone, environ 50 à 60%) Qui répond? Ceux qui sont à la maison Ceux que ça intéresse Problématique du cellulaire Biais répondant « Qualité » de la réponse Rapports avec l’enquêteur Désirabilité sociale Image conforme, « normale » Mémoire Hasard Biais questionnaire Formulation des questions Formulation des réponses Erreur échantillonnale

Quelques termes Population Échantillon Définition L’ensemble des unités considérées par le chercheur Un sous-ensemble de la population choisi pour étude Symbole Lettres grecques ou majuscules lettres minuscules Caractéristique paramètre statistique Taille N n Moyenne m (mu) x (x barre) Écart-type σ (sigma) s Pourcentage π (pi) p -

La distribution normale Une distribution normale a deux paramètres: sa moyenne et son écart-type Propriété fondamentale: pour toute combinaison de moyenne et d’écart-type, il y aura toujours une proportion de cas constante entre la moyenne et un point quelconque situé à une certaine distance de la moyenne exprimée en termes d’unité(s) d’écart-type

Environ 68 % des données se situent à l'intérieur de l'intervalle :
 -S< x < + S.

De la moyenne de l’échantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n _ - - _ - - u = moyenne de la population x = moyenne de l’échantillon sx = écart-type de la distribution d’échantillonnage s = écart-type de l’échantillon -

D’où vient le 1,96? Avec une variable continue, la probabilité d’obtenir une certaine valeur précise est trop petite pour attribuer une probabilité à chaque valeur. On attribue donc une probabilité à un intervalle de valeurs par voie d’estimation par intervalle. Cette probabilité est représentée par l’aire sous la courbe de distribution normale. C’est la cote Z qui permet d’attribuer une probabilité à un intervalle de valeurs. À une cote Z de 1,96 correspond une aire sous la courbe de 0,975. Donc: Une proportion de 0,025 (ou 2,5%) des cas sont entre 1,96 et l’infini positif, et 2,5% entre -1,96 et l’infini négatif. Donc 5% des cas sont à l’extérieur de l’intervalle allant de -1,96 à 1,96 (soit environ 2s de la moyenne).

De la moyenne de l’échantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n _ - - _ - - μ = moyenne de la population x = moyenne de l’échantillon sx = écart-type de la distribution d’échantillonnage s = écart-type de l’échantillon -

Distribution d’échantillonnage Imaginez qu’on ne prend pas seulement un échantillon tiré au hasard, mais tous les échantillons possibles... Exemple simple: population de cinq personnes, échantillon de deux cas. Combien d’échantillons possibles? 10 Exemple complexe: population de 5 000 000 d’électeurs québécois, échantillon de 1000 cas. Combien d’échantillons possibles? 27 000 000 000 000 000 000 000 000 000 000 000 000 000 Donc imaginez qu’on prend la moyenne de chacun de ces échantillons... on peut alors construire notre distribution d’échantillonnage À partir de 30 cas, la moyenne de cette distribution d’échantillonnage correspond à la moyenne de la population & la distribution d’échantillonnage suit une distribution normale.

De la moyenne de l’échantillon à la moyenne de la population... À 95% de certitude: μ = x ± 1,96 sx où sx = s/√n À 99% de certitude: μ = x ± 2,58 sx où sx = s/√n _ - - _ - - Tous les éléments de la formule affectent l’ampleur de l’intervalle: Le niveau de confiance: plus on veut être confiant, plus grand sera l’intervalle (et moins l’estimation sera précise L’écart-type de l’échantillon: plus il y a de dispersion, plus grand sera l’intervalle (et moins l’estimation sera précise) La taille de l’échantillon: plus grand est l’échantillon, plus petit sera l’intervalle (et plus l’estimation sera précise)

Exercice En Grande-Bretagne, on a demandé à un échantillon de 2326 électeurs de donner leur appréciation de chacun des partis sur une échelle de 0 à 10. Quel est l’intervalle de valeurs pour la moyenne dans la population pour chacun des partis? Sommes-nous exacts si nous affirmons qu’en moyenne, les Britanniques préfèrent les Libéraux? Moyenne Écart-type Travaillistes 4,38 3,42 Conservateurs 3,89 3,05 Libéraux-Démoc. 4,62 2,93

Le tableau croisé Lorsqu’on travaille avec des données quantitatives, le tableau croisé est utilisé pour observer la relation entre deux variables lorsque ces variables ont peu de catégories. Un maximum de 20 cellules est fortement recommandé. En analyse confirmatoire, on travaille avec une variable dépendante et au moins une variable indépendante. Dans un tableau croisé, la convention veut que la variable indépendante soit sur le haut (colonnes) et la variable dépendante sur le côté gauche (lignes, ou rangées). Les pourcentages font référence à la variable indépendante (colonnes).

Le test du Chi2 Basé sur l’hypothèse que le chercheur a établi à l’avance une relation entre les deux variables Suppose un échantillon aléatoire Le test est fiable si pas plus de 25% des cellules ont moins de 5 cas de fréquence attendue

Le Chi2 : La relation entre le sexe et le fait d’être syndiqué Cas « réel » Fréquences attendues (par l’hypothèse nulle) Homme Femme Total Syndiqué 13 (65%) 9 (33%) 22 (47%) Pas syndiqué 7 (35%) 18 (67%) 25 (53%) 20 (100%) 27 47 Homme Femme Total Syndiqué 9,4 (47%) 12,6 (47% 22 Pas syndiqué 10,6 (53%) 14,4 25 20 (100%) 27 47 Chi2 (1) : 4,6 p<0,05 Chi2 (1) : 0

À Londres: opinion sur la gestion du crime par le gouvernement chez les partisans travaillistes et les autres Parti travailliste Autre parti Total Très bonne gestion 2 (1,79%) (1,30%) 4 (1,55%) Assez bonne gestion 45 (40,18% 13 (8,44%) 58 (22,48%) Ni bonne ni mauvaise gestion 31 (27,68%) 48 (31,17% 79 (30,62%) Assez mauvaise gestion 25 (22,32% 39 (25,32%) 64 (24,81%) Très mauvaise gestion 5 (4,46%) (31,17%) 53 (20,54%) 112 (100%) 154 266 Chi2: 53.9768 p < 0.000 chisq.test(tableaucroisé) Pearson's Chi-squared test data: tableaucroisé X-squared = 53.9768, df = 4 , p-value < 0.000   R