L’ECHANTILLONNAGE : QUELQUES PRINCIPES

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Base de sondage et Plan de sondage Pres. 5
La variabilité et ses incidences dans la recherche empirique
La recherche expérimentale Premières explications Limites et interrogations Daniel Gile
D.Gile statscrit1 LUTILISATION DES STATISTIQUES INFERENTIELLES DANS LA RECHERCHE : REFLEXIONS CRITIQUES
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Introduction to Impact Evaluation training HSRC, Pretoria, South Africa April 10, 2008 Induction Causale Florence Kondylis Initiative pour lévaluation.
Test statistique : principe
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
Collecte de données F. Kohler.
Inférence statistique
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Echantillonnage Professeur Francis GUILLEMIN > Ecole de santé publique - Faculté de Médecine.
Les TESTS STATISTIQUES
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Dr DEVILLE Emmanuelle J D V 12/07/2006
La loi normale et l’estimation de paramètres
Chapitre VII :Commande par retour d’état
Fluctuations d’une fréquence selon les échantillons, Probabilités
Tests de comparaison de moyennes
L’inférence statistique
Thème 6 : l'échantillonnage et l'enquête
Nombre de sujets nécessaires en recherche clinique
Échantillonnage (STT-2000)
Mathématiques Les statistiques et probabilités en STI2d/STL
Groupe 1: Classes de même intervalle
Howell, Chap. 1 Position générale
Comprendre la variation dans les données: Notions de base
Validité interne, fiabilité, validité externe
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
La statistique Définitions et méthodes. La statistique est la branche des mathématiques qui collecte, classe, analyse et interprète des données afin den.
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Lectures Volume du cours : Chapitre 7
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Théorème de la limite centrale l’inférence statistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Concepts d’échantillonnage statistique. Introduction Échantillon représentatif – Supprime la subjectivité / biais – Une confiance plus grande dans les.
Marquez cette valeur sur le diagramme à points de la question 6. La moyenne réelle des nombres de lettres par mots dans la population de l'ensemble des.
Echantillonage pour une Evaluation d’Impact
STATISTIQUES DESCRIPTIVES
JEAN-MARC FONTAN SOC-1101 COURS 3
Intervalles de confiance pour des proportions L’inférence statistique
Concepts fondamentaux: statistiques et distributions
L’erreur standard et les principes fondamentaux du test de t
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Échantillonnage aléatoire simple
Quelques commentaires sur les tests statistiques
Concepts préliminaires sur les études de recherche Population: le groupe entier de personnes ou d'objets sur lequel un chercheur veut apprendre quelque.
Échantillonnage (STT-2000)
Échantillonnage (STT-2000)
Probabilités et statistique MQT-1102
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
ECHANTILLONAGE ET ESTIMATION
Distributions d’échantillonnage pour des proportions
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Chapitre 5 Interprétation des données d’enquête 1.
Transcription de la présentation:

L’ECHANTILLONNAGE : QUELQUES PRINCIPES Daniel Gile daniel.gile@yahoo.com www.cirinandgile.com Gile Echantillonnage

POURQUOI L’ECHANTILLONNAGE (1) Dans la recherche scientifique On cherche souvent (mais pas toujours) à généraliser à partir d’un nombre d’observations limitées parce qu’on n’a accès qu’à une partie de la réalité Si la réalité était homogène Il suffirait d’une observation (ou deux ou trois pour s’assurer que l’on n’a pas commis d’erreurs dans l’observation) Gile Echantillonnage

POURQUOI L’ECHANTILLONNAGE (2) Mais la réalité est généralement complexe et présente de la variabilité Il faut donc trouver un moyen de s’assurer (dans la mesure du possible) que la partie de la réalité que l’on va pouvoir mesurer « représentera » bien celle-ci L’échantillonnage comme méthode ou ensemble de procédés vise à assurer que, dans la mesure du possible, La partie de la réalité que l’on va pouvoir mesurer sera aussi proche que possible de la réalité Gile Echantillonnage

REPRESENTATIVITÉ ET ERREUR D’ECHANTILLONNAGE La caractéristique principale que l’on cherchera dans l’échantillon constitué est sa « représentativité » En statistique, cela ne veut pas dire qu’il aura les mêmes caractéristiques que la totalité du phénomène que l’on souhaite étudier (la ‘population’) Un certain écart est toujours possible, et même très probable. Cet écart s’appelle « erreur d’échantillonnage » bien qu’il ne s’agisse pas d’une « erreur » au sens de « faute » La ‘représentativité’ désigne l’absence de biais, c.a.d. l’absence d’une déviation systématique dans un sens donné (généralement soit plus, soit moins) entre les valeurs mesurées sur l’échantillon et la ‘population’ Gile Echantillonnage

ECHANTILLON ET POPULATION Il est convenu, en statistiques, de parler d’une « population » L’ensemble des individus ou entités qui intéressent le chercheur (personnes, animaux, objets, événements, situations) L’échantillon étant un sous-ensemble d’entités de cette même « population » L’échantillon a une certaine « taille », à savoir le nombre d’entités dont il se compose Gile Echantillonnage

CARACTERISTIQUES MESUREES DANS L’ECHANTILLON En général, on mesure dans l’échantillon la valeur d’un indicateur pour estimer sa valeur dans la population (pourcentage de chômeurs, note moyenne des étudiants, temps d’accomplissement d’une tâche, etc.) Deux calculs très importants sont celui de la moyenne de cette valeur dans l’échantillon Et celui de l’écart-type, qui est une estimation de la variabilité des valeurs constatées autour de la moyenne. La moyenne est une estimation de la moyenne de la valeur dans la population L’écart-type nous renseigne sur le degré d’incertitude due à la variabilité (par opposition à des erreurs) de cette estimation Gile Echantillonnage

ECHANTILLON REPRESENTATIF OU BIAISÉ 1 Dans un échantillon représentatif, le hasard fera que la moyenne de la valeur mesurée sera soit supérieure, soit inférieure à la moyenne de la population, sans qu’on sache si elle y est supérieure ou inférieure. En principe, si on constitue un premier échantillon représentatif, puis un second, puis un troisième et ainsi de suite, le hasard fera que les moyennes pour chaque échantillon seront distribuées de manière plus ou moins symétriques autour de la moyenne de la population. La moyenne d’une ensemble de moyennes d’échantillons devrait être plus proche de la moyenne de la population que chacune des moyennes des échantillons individuels Gile Echantillonnage

ECHANTILLON REPRESENTATIF OU BIAISÉ 2 A terme, quand on aura constitué un très grand nombre d’échantillons représentatifs, la moyenne de leurs moyennes sera très proche de la moyenne de la population Dans un échantillon biaisé, la moyenne aura tendance à être systématiquement supérieure (ou inférieure) à celle de la population, et cette tendance persistera même quand on constituera un grand nombre d’échantillons. Gile Echantillonnage

ERREUR D’ECHANTILLONNAGE ET TAILLE DE L’ECHANTILLON On peut réduire la variabilité relative dans l’échantillon en augmentant sa taille, mais cette réduction est proportionnelle non pas à l’augmentation de la taille, mais à la racine carrée de cette augmentation. Autrement dit, pour la réduire de moitié, il faut multiplier la taille de l’échantillon par 4. Pour la réduire de 75%, il faut multiplier la taille de l’échantillon par 16. Ca n’est pas nécessairement très intéressant, parce que ça peut être coûteux, sans que cela nous rapproche suffisamment de la moyenne de la population C’est pour cela qu’on ne cherche pas, en général, à constituer des échantillons de plusieurs milliers d’entités Gile Echantillonnage

REDUIRE L’ERREUR D’ECHANTILLONNAGE On peut aussi améliorer la représentativité d’un échantillon par des méthodes d’échantillonnage plus précises que le simple échantillonnage aléatoire sur l’ensemble de la population Par exemple, si l’on sait que dans une population donnée, il y a 70% de membres d’un groupe ethnique majoritaire A, 20% de membres d’un groupe ethnique minoritaire B 10% de membres d’un groupe ethnique minoritaire C Dans échantillon aléatoire simple de 100 personnes, tirage au sort peut aboutir à sur- ou sous-représentation de certains groupes ethniques, ce qui risque de biaiser les résultats de l’étude On peut donc choisir délibérément de tirer au sort de manière aléatoire 70, 20 et 10 personnes de chaque groupe respectivement C’est ce qu’on appelle l’« échantillonnage stratifié » Gile Echantillonnage

MAIS S’IL Y TANT D’INCERTITUDE, DES INFERENCES SONT-ELLES JUSTIFIEES ? Des calculs mathématiques permettent d’estimer la probabilité que la moyenne calculée sur l’échantillon représentatif se trouve à une certaine distance de la moyenne (non connue) de la population. Ce n’est qu’une estimation, mais elle a de bonnes chances d’être vraie. Une réplication avec un nouvel échantillon devrait l’améliorer, sans toutefois parvenir à une certitude. Et ainsi de suite Gile Echantillonnage

COMMENT SAIT-ON QU’UN ECHANTILLON EST REPRESENTATIF (N’EST PAS BIAISÉ En éliminant tout risque de biais Le seul moyen de l’éliminer à coup sûr, c’est de procéder par échantillonnage aléatoire, où chaque entité dans la population a la même probabilité d’être incluse dans l’échantillon. On peut le faire avec une table de nombres aléatoires, ou par voie informatique (l’ordinateur génère une série quasi-aléatoire) Mais tout « système » humain où intervient un raisonnement autre que celui de la génération de phénomènes aléatoires risque d’introduire un biais caché Gile Echantillonnage

Et que même si on l’avait, on n’aurait pas accès à tout le monde ET DANS LA REALITÉ ? Dans la réalité des sciences humaines et sociales, il est rare de pouvoir faire de l’échantillonnage aléatoire, Ne serait-ce que parce qu’on ne dispose que rarement d’une liste complète de toutes les personnes faisant partie d’une population Et que même si on l’avait, on n’aurait pas accès à tout le monde On a donc recours à un échantillonnage non aléatoire, de commodité ou de proximité (convenience sampling), ou de volontariat Dans ces conditions, on n’est jamais certain que l’échantillon n’est pas biaisé. Gile Echantillonnage

INCIDENCES ? (1) Cela n’invalide pas totalement la démarche, Surtout si on fait de son mieux pour que l’échantillon soit représentatif En fonction des connaissances et des hypothèses du chercheur. Mais on n’a aucune certitude, et l’évaluation de la fiabilité des résultats a une part de subjectivité et d’arbitraire Gile Echantillonnage

INCIDENCES ? (2) La prudence scientifique dicte donc, dans ces conditions, Une certaine prudence dans les conclusions. On peut faire des analyses statistiques, Mais en les présentant, On rappellera que l’échantillon n’est pas nécessairement représentatif Quand on sait que l’échantillon fait partie d’un sous-ensemble bien défini de la population (jeunes, originaires de tel pays, étudiants etc.) il est bon de souligner également que l’on a conscience d’un éventuel biais propres aux caractéristiques de ce sous-ensemble. Gile Echantillonnage

INCIDENCES ? (3) La prudence scientifique dicte donc, dans ces conditions, Une certaine prudence dans les conclusions. On peut faire des analyses statistiques, Mais en les présentant, On rappellera que l’échantillon n’est pas nécessairement représentatif Quand on sait que l’échantillon fait partie d’un sous-ensemble bien défini de la population (jeunes, originaires de tel pays, étudiants etc.) On peut éventuellement généraliser à ce sous-ensemble… et souligner que l’on a conscience d’un éventuel biais propres aux caractéristiques de ce sous-ensemble. Gile Echantillonnage

INCIDENCES ? (4) Autrement dit, à moins que l’échantillon soit véritablement aléatoire Toute généralisation ne peut être que provisoire .. et les résultats d’une seule étude ne démontrent rien Ce n’est qu’à travers l’accumulation de résultats convergents que l’hypothèse d’une généralisabilité gagne de plus en plus de poids Gile Echantillonnage

ECHANTILLONNAGE ET ETUDES DE CAS Mais alors, en quoi les études sur échantillons diffèrent-elles d’études de cas (sur un cas unique) ? Après tout, l’accumulation de résultats convergents sur des études de cas n’a-t-elle pas le même effet que l’accumulation d’études sur échantillons ? Si, mais les études sur échantillons sont plus puissantes, puisqu’elles sont susceptibles de réduire la variabilité par rapport aux études de cas, La moyenne d’un échantillon étant a priori plus proche de la moyenne de la population qu’une seule valeur tirée au hasard Le problème du biais demeure Les études de cas demeurent légitimes, et permettent parfois d’aller plus en profondeur que les études sur échantillon Gile Echantillonnage