L’ECHANTILLONNAGE : QUELQUES PRINCIPES Daniel Gile daniel.gile@yahoo.com www.cirinandgile.com Gile Echantillonnage
POURQUOI L’ECHANTILLONNAGE (1) Dans la recherche scientifique On cherche souvent (mais pas toujours) à généraliser à partir d’un nombre d’observations limitées parce qu’on n’a accès qu’à une partie de la réalité Si la réalité était homogène Il suffirait d’une observation (ou deux ou trois pour s’assurer que l’on n’a pas commis d’erreurs dans l’observation) Gile Echantillonnage
POURQUOI L’ECHANTILLONNAGE (2) Mais la réalité est généralement complexe et présente de la variabilité Il faut donc trouver un moyen de s’assurer (dans la mesure du possible) que la partie de la réalité que l’on va pouvoir mesurer « représentera » bien celle-ci L’échantillonnage comme méthode ou ensemble de procédés vise à assurer que, dans la mesure du possible, La partie de la réalité que l’on va pouvoir mesurer sera aussi proche que possible de la réalité Gile Echantillonnage
REPRESENTATIVITÉ ET ERREUR D’ECHANTILLONNAGE La caractéristique principale que l’on cherchera dans l’échantillon constitué est sa « représentativité » En statistique, cela ne veut pas dire qu’il aura les mêmes caractéristiques que la totalité du phénomène que l’on souhaite étudier (la ‘population’) Un certain écart est toujours possible, et même très probable. Cet écart s’appelle « erreur d’échantillonnage » bien qu’il ne s’agisse pas d’une « erreur » au sens de « faute » La ‘représentativité’ désigne l’absence de biais, c.a.d. l’absence d’une déviation systématique dans un sens donné (généralement soit plus, soit moins) entre les valeurs mesurées sur l’échantillon et la ‘population’ Gile Echantillonnage
ECHANTILLON ET POPULATION Il est convenu, en statistiques, de parler d’une « population » L’ensemble des individus ou entités qui intéressent le chercheur (personnes, animaux, objets, événements, situations) L’échantillon étant un sous-ensemble d’entités de cette même « population » L’échantillon a une certaine « taille », à savoir le nombre d’entités dont il se compose Gile Echantillonnage
CARACTERISTIQUES MESUREES DANS L’ECHANTILLON En général, on mesure dans l’échantillon la valeur d’un indicateur pour estimer sa valeur dans la population (pourcentage de chômeurs, note moyenne des étudiants, temps d’accomplissement d’une tâche, etc.) Deux calculs très importants sont celui de la moyenne de cette valeur dans l’échantillon Et celui de l’écart-type, qui est une estimation de la variabilité des valeurs constatées autour de la moyenne. La moyenne est une estimation de la moyenne de la valeur dans la population L’écart-type nous renseigne sur le degré d’incertitude due à la variabilité (par opposition à des erreurs) de cette estimation Gile Echantillonnage
ECHANTILLON REPRESENTATIF OU BIAISÉ 1 Dans un échantillon représentatif, le hasard fera que la moyenne de la valeur mesurée sera soit supérieure, soit inférieure à la moyenne de la population, sans qu’on sache si elle y est supérieure ou inférieure. En principe, si on constitue un premier échantillon représentatif, puis un second, puis un troisième et ainsi de suite, le hasard fera que les moyennes pour chaque échantillon seront distribuées de manière plus ou moins symétriques autour de la moyenne de la population. La moyenne d’une ensemble de moyennes d’échantillons devrait être plus proche de la moyenne de la population que chacune des moyennes des échantillons individuels Gile Echantillonnage
ECHANTILLON REPRESENTATIF OU BIAISÉ 2 A terme, quand on aura constitué un très grand nombre d’échantillons représentatifs, la moyenne de leurs moyennes sera très proche de la moyenne de la population Dans un échantillon biaisé, la moyenne aura tendance à être systématiquement supérieure (ou inférieure) à celle de la population, et cette tendance persistera même quand on constituera un grand nombre d’échantillons. Gile Echantillonnage
ERREUR D’ECHANTILLONNAGE ET TAILLE DE L’ECHANTILLON On peut réduire la variabilité relative dans l’échantillon en augmentant sa taille, mais cette réduction est proportionnelle non pas à l’augmentation de la taille, mais à la racine carrée de cette augmentation. Autrement dit, pour la réduire de moitié, il faut multiplier la taille de l’échantillon par 4. Pour la réduire de 75%, il faut multiplier la taille de l’échantillon par 16. Ca n’est pas nécessairement très intéressant, parce que ça peut être coûteux, sans que cela nous rapproche suffisamment de la moyenne de la population C’est pour cela qu’on ne cherche pas, en général, à constituer des échantillons de plusieurs milliers d’entités Gile Echantillonnage
REDUIRE L’ERREUR D’ECHANTILLONNAGE On peut aussi améliorer la représentativité d’un échantillon par des méthodes d’échantillonnage plus précises que le simple échantillonnage aléatoire sur l’ensemble de la population Par exemple, si l’on sait que dans une population donnée, il y a 70% de membres d’un groupe ethnique majoritaire A, 20% de membres d’un groupe ethnique minoritaire B 10% de membres d’un groupe ethnique minoritaire C Dans échantillon aléatoire simple de 100 personnes, tirage au sort peut aboutir à sur- ou sous-représentation de certains groupes ethniques, ce qui risque de biaiser les résultats de l’étude On peut donc choisir délibérément de tirer au sort de manière aléatoire 70, 20 et 10 personnes de chaque groupe respectivement C’est ce qu’on appelle l’« échantillonnage stratifié » Gile Echantillonnage
MAIS S’IL Y TANT D’INCERTITUDE, DES INFERENCES SONT-ELLES JUSTIFIEES ? Des calculs mathématiques permettent d’estimer la probabilité que la moyenne calculée sur l’échantillon représentatif se trouve à une certaine distance de la moyenne (non connue) de la population. Ce n’est qu’une estimation, mais elle a de bonnes chances d’être vraie. Une réplication avec un nouvel échantillon devrait l’améliorer, sans toutefois parvenir à une certitude. Et ainsi de suite Gile Echantillonnage
COMMENT SAIT-ON QU’UN ECHANTILLON EST REPRESENTATIF (N’EST PAS BIAISÉ En éliminant tout risque de biais Le seul moyen de l’éliminer à coup sûr, c’est de procéder par échantillonnage aléatoire, où chaque entité dans la population a la même probabilité d’être incluse dans l’échantillon. On peut le faire avec une table de nombres aléatoires, ou par voie informatique (l’ordinateur génère une série quasi-aléatoire) Mais tout « système » humain où intervient un raisonnement autre que celui de la génération de phénomènes aléatoires risque d’introduire un biais caché Gile Echantillonnage
Et que même si on l’avait, on n’aurait pas accès à tout le monde ET DANS LA REALITÉ ? Dans la réalité des sciences humaines et sociales, il est rare de pouvoir faire de l’échantillonnage aléatoire, Ne serait-ce que parce qu’on ne dispose que rarement d’une liste complète de toutes les personnes faisant partie d’une population Et que même si on l’avait, on n’aurait pas accès à tout le monde On a donc recours à un échantillonnage non aléatoire, de commodité ou de proximité (convenience sampling), ou de volontariat Dans ces conditions, on n’est jamais certain que l’échantillon n’est pas biaisé. Gile Echantillonnage
INCIDENCES ? (1) Cela n’invalide pas totalement la démarche, Surtout si on fait de son mieux pour que l’échantillon soit représentatif En fonction des connaissances et des hypothèses du chercheur. Mais on n’a aucune certitude, et l’évaluation de la fiabilité des résultats a une part de subjectivité et d’arbitraire Gile Echantillonnage
INCIDENCES ? (2) La prudence scientifique dicte donc, dans ces conditions, Une certaine prudence dans les conclusions. On peut faire des analyses statistiques, Mais en les présentant, On rappellera que l’échantillon n’est pas nécessairement représentatif Quand on sait que l’échantillon fait partie d’un sous-ensemble bien défini de la population (jeunes, originaires de tel pays, étudiants etc.) il est bon de souligner également que l’on a conscience d’un éventuel biais propres aux caractéristiques de ce sous-ensemble. Gile Echantillonnage
INCIDENCES ? (3) La prudence scientifique dicte donc, dans ces conditions, Une certaine prudence dans les conclusions. On peut faire des analyses statistiques, Mais en les présentant, On rappellera que l’échantillon n’est pas nécessairement représentatif Quand on sait que l’échantillon fait partie d’un sous-ensemble bien défini de la population (jeunes, originaires de tel pays, étudiants etc.) On peut éventuellement généraliser à ce sous-ensemble… et souligner que l’on a conscience d’un éventuel biais propres aux caractéristiques de ce sous-ensemble. Gile Echantillonnage
INCIDENCES ? (4) Autrement dit, à moins que l’échantillon soit véritablement aléatoire Toute généralisation ne peut être que provisoire .. et les résultats d’une seule étude ne démontrent rien Ce n’est qu’à travers l’accumulation de résultats convergents que l’hypothèse d’une généralisabilité gagne de plus en plus de poids Gile Echantillonnage
ECHANTILLONNAGE ET ETUDES DE CAS Mais alors, en quoi les études sur échantillons diffèrent-elles d’études de cas (sur un cas unique) ? Après tout, l’accumulation de résultats convergents sur des études de cas n’a-t-elle pas le même effet que l’accumulation d’études sur échantillons ? Si, mais les études sur échantillons sont plus puissantes, puisqu’elles sont susceptibles de réduire la variabilité par rapport aux études de cas, La moyenne d’un échantillon étant a priori plus proche de la moyenne de la population qu’une seule valeur tirée au hasard Le problème du biais demeure Les études de cas demeurent légitimes, et permettent parfois d’aller plus en profondeur que les études sur échantillon Gile Echantillonnage