2.3.2. La notion d’échantillonnage La vérification ou l'infirmation des hypothèses, associée au mode de contrôle des variables qui a été prévu, suppose bien entendu des observations ou données qui sont souvent récoltées par échantillonnage. La nécessité de tels échantillons tient au fait que la taille de l'"univers" à décrire est souvent trop grande pour être intégralement observée. Il faut alors en capturer des fractions, mais avec pour but de rendre compte de la totalité. Ce passage du segment à la totalité est nommé problème d'inférence: quelles sont les conditions qui permettent de dire que ce qui est observé dans l'échantillon est valable pour l'univers concerné tout entier? Cette question de l'inférence amène à une distinction importante entre les échantillons probabilistes et les échantillons non–probabilistes. Ces derniers sont souvent réalisés sous la forme d'échantillons par quota. Deux autres questions, liées d'ailleurs à la première, sont centrales dans les questions d'échantillonnage: - quelle taille donner à l'échantillon, ou plutôt, quels critères prendre en compte pour fixer la taille d'un échantillon? - comment concilier approche individuelle et contextuelle dans un échantillon: c’est la question des échantillons à plusieurs niveaux
1. Echantillon par quota Il s’agit d’assurer une comparabilité entre univers et échantillon en construisant une sorte de maquette, de modèle réduit, de l’univers. Pour ce faire, la constitution d’un échantillon par quota suit les procédures générales suivantes: a) Définition de l'aire géo-démographique pertinente (ou population concernée; p.ex. Citoyennes et citoyens du Canton de ..) b) Définition de la composition relative de la population concernée (p.ex. fictif 55% de femmes, 45% d’hommes; 45% <40 ans, 55% >40 ans; 5% secteur primaire, 35% secondaire, 60 % tertiaire, etc) , pour les éléments jugés pertinents (âges, statut social, zone urbaine ou rurale, travail professionnelle, état civil, revenu,etc) c) Choix de la taille de l'échantillon d) Distribution de cet échantillon global en des sous-ensembles de tailles proportionnées à la composition de la population e) Instructions de récolte données aux enquêteurs: faire x interviews auprès de femmes, y auprès d’hommes; tant dans le primaire, etc…
Les variables retenues pour définir les quotas sont celles qui sont jugées essentielles pour le comportement observé : assez classiquement. l’âge, le sexe, l’emploi, l’état-civil, la nationalité, etc. Mais on peut penser à tout autre chose ( usage d’une voiture, d’une télé, présence d’adolescents dans le ménage,etc) La simplicité apparente de ce genre d’échantillonnage le rend surtout utile quand il n’existe pas de listes fiables et détaillées de personnes en principe concernées. Pourtant, un dilemme existe : - considérer les proportions variable par variable (50% de femmes, 35% d’employés subalternes,etc), avec le risque que les femmes employées subalternes soient proportionnellement beaucoup plus nombreuses, - ou prendre des proportions de « femmes employées subalternes », avec le risque de compliquer beaucoup la récolte des données et de perdre ainsi les avantages de ce genre d’échantillonnage.
Exemple Taille échantillon.xls
Limites Un échantillon par quota ne donne pas à chaque élément de l'univers la même probabilité d'être représenté dans l'échantillon. Par exemple, on remplace sans autre les non –répondants, ou bien on ne va pas chercher de cas dans des lieux trop éloignés, ou à des heures malcommodes, etc. C'est le côté arbitraire de ces choix et remplacements qui fait parler d'échantillon non-probabiliste. En principe, de tels échantillons ne permettent donc pas de calculer des marges d’erreur.
2. Echantillonnage probabiliste 2.1. Echantillon probabiliste simple Le souci de calculer des marges d’erreur et de faire des tests de signification conduit souvent à préférer les échantillons probabilistes aux échantillons par quota. L’échantillonnage probabiliste simple est basé sur l’idée de donner à chaque élément de l’univers une chance égale de figurer dans l’échantillon. Cette égalité, lorsque la taille de l’échantillon est suffissamment grande, permet d’affirmer, avec un risque d’erreur connu, que les compositions de l’univers et de l’échantillon seront comparables (taille mise à part, bien sûr pour toutes les variables, et non seulement poiur les variables jugées pertinentes. Il convient de se baser sur les sur les procédures suivantes : a) Chaque élément de l’univers concerné reçoit un numéro d’identification de 1 à n. (Il faut donc disposer en principe d’une liste exhaustive et nominale des personnes concernées) b) A l’aide de tables de nombres au hasard ou de procédures équivalentes, on « tire au sort » le nombre de cas désiré. La taille de l’échantillon dépend de la marge d’erreur – ou intervalle de confiance – que l’on veut tolérer. Dans le cas de proportions, la formule P = p +/- k*racine(p*q/n) permet de calculer cette taille.
Brève explicitation Les différentes moyennes p1, p2, p3, pn d’une multitude d’échantillons de taille n possibles constitués de manière probabiliste se distribueront de façon « normale » autour de la « vraie » moyenne P (recherchée) C’est dire que les 66% de ces moyennes « potentielles » ne s’écarteront pas de P de plus de 1 sigma ( =racine de P*Q/n), que 95 % seront comprises dans un intervalle de 2 sigmas, 99% dans un intervalle de 3 sigmas,etc. En conséquence, on peut dire, par exemple, « avec 95% de certitude », que la vraie valeur P recherchée ne diffère pas de la valeur trouvée p d’un écart supérieur à +/- 2*racine(p*q/n)
Estimation grossière de la taille d’un échantillon Taille échantillon.xls
La consigne est alors d’observer/interviewer les personnes qui ont été tirées au sort, et pas d’autres. L’équiprobabilité d’être tiré permet, par le biais de la loi des grands nombres, d’affirmer dans certaines limites (intervalles de confiance) que l’échantillon a une composition semblable à celle de l’univers et que ce qui est observé dans l’échantillon vaut pour tout cet univers. On remarquera que la taille de l’échantillon à choisir ne dépend pas directement de la taille de l’univers, mais du degré de précision demandé. Attention, pour les univers de petite taille, à la correction (1-f), où f représente la fraction sondée. Négligeable évidemment si, par exemple, f = 0.003, utile si f = par exemple 0.4 Cette manière de faire permet de calculer des indices d’association et des tests de signification. En principe, les non-réponses ne doivent pas être « remplacées ». En pratique, on calcule souvent des tailles théoriques d’échantillons plus grandes, pour tenir compte de cette probabilité de non-réponse.
Addendum: le sondage systématique Le sondage systématique rejoint les mêmes objectifs que le sondage probabiliste simple. Il remplace simplement le tirage aléatoire par le tirage – dans une liste déjà constituée (p.ex. liste d’employés, ou d’électeurs, ou bottin téléphonique) – d’un individu tous les nièmes cas. Cette simplification peut avoir des risques quand la liste en question est organisée selon un rythme (p.ex. sections militaires listées selon l’importance décroissante du grade).
2.2. Echantillons stratifiés Il arrive que l’on préfère un échantillonnage probabiliste stratifié à un échantillonnage probabiliste simple. La procédure de stratification consiste à subdiviser l’univers en des sous-ensembles (strates) définis par des variables jugées importantes pour le comportement observé (comme dans les quotas) et de procéder au tirage aléatoire d’un nombre (Ns/N)*E de cas dans la strate considérée. Dans ce cas, il s’agit d’un échantillon stratifié proportionnel: il s’agit, par le biais de la stratification, de réduire la variance et par là le nombre de cas nécessaires. Mais on peut préférer construire un échantillon stratifié non proportionnel. Dans ce deuxième cas, il s’agit de « gonfler » les strates démographiquement peu importants, de manière à pouvoir les observer plus en détail. Les tendances générales se calculent alors en utilisant les proportions de l’univers comme pondération des tendances observées dans chaque sous- ensemble de l’échantillon.
Echantillons en grappe Aux possibilités déjà évoquées s’ajoute celle de l’échantillonnage en grappes, qui consiste à faire un tirage en plusieurs niveaux. P.ex: a) subdiviser l’ « univers » Suisse en un nombre r de régions; b) tirer au sort un certain nombre de ces régions ; c) puis, dans chaque région sélectionnée, tirer un nombre ni de cas. Autre exemple : dans une grande administration, tirer d’abord des sections ou bureaux ou divisions, puis des employés… Le but de l’opération est de pouvoir mettre en rapport des données individuelles avec des données contextuelles, ce qui serait difficile avec des données trop dispersées. Le calcul de la variance amène des résultats analogues à ceux du sondage probabiliste simple.
Questions-clé pour le choix d’un échantillon Voici quelques questions essentielles que l’on peut ou doit se poser pour sélectionner une procédure et une taille d’échantillon : Veut-on privilégier la description générale d’une population ou analyser dans le détail un système de relations ? Est-on intéressé à réunir une perspective individuelle et une perspective contextuelle ? Veut-on analyser en tant que tels des agrégats numériquement faibles ? Réciproquement, a-t-on besoin d’un très grand nombre de sujets provenant d’agrégats proportionnellement très importants ?
5. Existe-t-il un risque important d’une grande proportion de non-réponses ? Ces non-réponses sont-elles en rapport avec les attitudes ou comportements investigués ? 6. Est-on intéressé à définir des intervalles de confiance ? Plus spécifiquement, est-on attaché à la possibilité de définir une marge d’erreur ? 7. Dispose-t-on d’une liste exhaustive et nominale de l’univers ? 8. Quelles variables veut-on contrôler ? Par exclusion ou par inclusion ? Selon quelles procédures?