Thème 6 : l'échantillonnage et l'enquête Le processus d'échantillonnage Les méthodes non probabilistes Les méthodes probabilistes
Définitions Elément d'une population : sujet que l'on mesure. Population : ensemble de tous les éléments au sujet duquel ont souhaite faire des inférences. Echantillonnage = sélection des éléments d'une population afin de pouvoir tirer des conclusions généralisables à l'ensemble de la population. Recensement = recueil d'information sur tous les éléments d'une population. Cadre d'échantillonnage = la liste des éléments de laquelle est tiré l'échantillon Unités d'échantillonnage = les éléments de la population qui formeront l'échantillon
Le processus d'échantillonnage Définir la population Sélectionner le cadre d'échantillonnage Définir les unités d'échantillonnage Choisir une méthode d'échantillonnage Déterminer la taille de l'échantillon Sélectionner l'échantillon
Qu'est-ce qu'un bon échantillon? Un échantillon doit être valide c'est-à-dire le plus représentatif possible de la population. Exactitude : à quel point les biais sont absents de l'échantillon. Dans un bon échantillon, il n'y a pas de variance systématique c'est-à-dire de variation dans les mesures due à des influences connues ou inconnues qui entraînent systématiquement des mesures plus élevées ou plus faibles qu'elles ne le devraient. Ex : Ne sélectionner que des utilisateurs experts pour étudier la population d'utilisateurs d'un logiciel. Précision des estimés : aucun échantillon ne reproduit parfaitement toutes les caractéristiques de la population à cause des fluctuations aléatoires. La taille de l'échantillon est un moyen d'augmenter la précision.
Définition de la population Etape cruciale ! Parfois simple, souvent difficile. Ex.1: L'étude vise l'impact de l'utilisation d'Internet sur l'équilibre psychologique des adolescent. Comment définit-on un utilisateur d'Internet? Est-ce la personne qui l'utilise fréquemment? Que veux dire fréquemment? Comment définit-on adolescent dans ce contexte? Ex. 2: L'étude vise l'utilisation d'Internet par les étudiants de l'université de Sherbrooke Est-on intéresser aux non-utilisateurs? Qu'entend-on précisément par étudiant ? (temps plein-temps partiel, tous les campus-toutes les Facultés, formation à distance)
Sélection du cadre d'échantillonnage Il faut pouvoir identifier les membres de la population pour pouvoir les interroger. Idéalement le cadre d'échantillonnage devrait lister tous les éléments de la population. Mais en réalité, ils sont souvent incomplets, confidentiels, ils comprennent des duplications ou des éléments qui ne font pas partie de la population, etc..). Certaines méthodes d'échantillonnage ne nécessitent pas un cadre d'échantillonnage.
Définir les unités d'échantillonnage Souvent simple, parfois moins! L'enquête téléphonique porte sur la gestion des T.I. dans les entreprises manufacturières québécoises. Qui interroger? La personne qui répond, le/la responsable des S.I., son adjoint, le/la PDG, responsable SI et PDG? L'unité d'échantillonnage n'est pas nécessairement un élément de la population.
Choisir une méthode Le choix influence l'exactitude et la précision Les types de méthodes : échantillonnage probabiliste : chaque élément de la population a une chance non nulle et connue d'être sélectionné. échantillonnage non probabiliste échantillonnage non restreint : la population est vue comme un ensemble (pool) unique échantillonnage restreint : des contrôles additionnels sont introduits.
Les principales méthodes Probabilistes aléatoire simple (nr) aléatoire stratifié en grappes en phases successives Non probabilistes de convenance (nr) selon le jugement par quota en boule de neige volontaire
Déterminer la taille de l'échantillon Question importante par ce que : conséquence sur le coût de la recherche sur la précision et la crédibilité des résultats (erreur de typeII) Attention : la contribution marginale d'une observation additionnelle décroît rapidement. La taille requise est fonction : de la variation dans les paramètres de la population étudiée degré de précision requis par le chercheur (marge d'erreur) Il n'est généralement pas efficient d'agrandir le plus possible l'échantillon (voir plus loin)
Sélectionner l'échantillon Problèmes souvent rencontrés : Difficulté de rejoindre les unités d'échantillonnage : augmenter la proportion des unités d'échantillonnage jointes (rappels, changer les heures de visite, prendre R.V.) définir les efforts que l'on mettra à augmenter cette proportion (p.e.x. 3 rappels) remplacer les unités d'échantillonnage qu'on n'a pas pu joindre Refus de collaborer : mesures d'incitation (enquête postale) :questionnaire assez simple, pas trop long, format agréable, enveloppe de retour affranchie, pré-notification ou post-notification.
Les méthodes non probabilistes Quand ? Il est difficile ou même impossible de procéder de façon aléatoire (p.ex. les listes d'étudiants sont confidentielles) Echantillonnage de convenance : les unités sont sélectionnées par ce qu'elles sont disponibles, faciles à joindre et à convaincre. Ex: rejoindre les étudiants présents dans les locaux de leur Faculté ou à la cafétéria. Un professeur utilise ses classes d'étudiants. Echantillonnage selon le jugement : sélection des unités selon certains critères pré-établis. Ex. les membres d'un club micro-informatique. Jugement : ils sont représentatifs des utilisateurs experts
Les méthodes non probabilistes (suite) Echantillonnage par quota : on cherche à s'assurer que certains éléments de la population seront inclus dans l'échantillon. Cherche à améliorer la représentativité. Supposons une population étudiante composée de 60% d'étudiants de premier cycle, 30% d'étudiants de deuxième cycle et 10% d'étudiants de troisième cycle. L'échantillonnage par quota va tenter de respecter ces proportions. Lorsqu'un quota est atteint (p.ex. celui des étudiants de deuxième cycle, je ne considère plus que les étudiants des deux autres cycles). On peut utiliser des quotas sur plusieurs dimensions : p.ex. appartenance à une Faculté et à un cycle d'étude.
Les méthodes non probabilistes (suite) Echantillonnage en boule de neige : Les unités possèdent des caractéristiques non apparentes et ne peuvent-être identifier que par des réseaux de référence. On sélectionne quelques unités qui ont la caractéristique souhaitée et on demande à celles-ci de nous en référer d'autres et ainsi de suite.P.ex. Quelqu'un découvre un tout nouvel algorithme de programmation.Il connaît seulement deux personnes en mesure d'en évaluer le potentiel commercial. Intéressant pour des sujets de recherche très peu documentés. Echantillonnage volontaire : les unités s'auto-sélectionnent. P. ex. sondage à la TV, dans les journaux.
Les méthodes probabilistes Rappel : chaque élément de la population a une probabilité non nulle et connue d'être sélectionné. Objectif de l'échantillonnage : on cherche à estimer les paramètres d'une population ( p.ex. moyenne, proportion.) à partir des informations obtenues (statistiques) de l'échantillon. Echantillonnage aléatoire simple : on sélectionne au hasard n éléments à partir de liste des éléments (le cadre) d'une population de taille N. On numérote la liste et on utilise un générateur de nombres aléatoires
Echantillonnage : rappel des principes Principes généraux de l'échantillonnage Il existe assez de similarités entre les les éléments de la population de sorte que quelques éléments pris au hasard peuvent représenter adéquatement les caractéristiques de la population. Alors que certains éléments de la population entraînent une sous-estimation d'autres entraînent une surestimation. Il doit y avoir assez d'éléments dans l'échantillon L'échantillon doit être tiré de façon à ne pas favoriser les sous-estimations et les surestimations
Echantillonnage aléatoire simple : concepts La distribution d'échantillonnage de la moyenne. La moyenne d'un échantillon (M) est une estimation de la moyenne de la population (Mu). La distribution des moyennes d'échantillons répétés est normale et centrée autour de la moyenne de la population. Pour une population de taille infinie, l'écart-type de la distribution de toutes les moyennes d'échantillons possibles (Sx) (erreur standard de la moyenne) est relié à la moyenne de la population et à la taille de l'échantillonpar la formule : Sx = S / SQRT(n) où S = écart-type de la population
Echantillonnage aléatoire simple :estimation de la moyenne d'une population Construction d'un intervalle de confiance : au seuil de confiance de 95%, la moyenne de la population se trouve dans l'intervalle (M-1,96Sx <= MU <= M+1,96Sx). La marge d'erreur à 0,95 est donc 1,96Sx. Généralement on ne connaît pas l'écart type de la population. On l'estime au moyen de l'écart-type (s) de l'échantillon. marge d'erreur à 0,95 ME = 1,96 s / sqrt(n) ; et pour une marge d'erreur donnée n = (1,96 s/ME)**2
Echantillonnage aléatoire simple :estimation d'une proportion d'une population Dans le cas d'une proportion, la marge d'erreur à 0,95 est égale à 1,96 sqrt(p(1-p)/(n-1)). Proportion observée = 0,30 ME d'erreur acceptée à 0,95 = 0,1 Calculer n
Echantillonnage aléatoire stratifié Un échantillon aléatoire stratifié est obtenu en divisant les éléments d'une population en groupes distincts (strates), et en sélectionnant dans chaque groupe un échantillon aléatoire simple : 1. Définir une variable de spécification pour placer chaque élément dans une strate et une seule. 2. Tirer un échantillon aléatoire de chaque strate.
Echantillonnage aléatoire stratifié (suite) Echantillonnage proportionnel stratifié : la taille de l'échantillon dans chaque strate dépend de la taille des strates. Pas intéressant si si les moyennes et variances des strates sont similaires pour les principales variables de l'étude. Echantillon non proportionnel stratifié. Les strates peuvent avoir des variances très inégales. Dans ce cas on pourrait vouloir tirer des échantillons plus grands dans les strates à variance plus élevées. P.ex. l'utilisation de l'Internet chez les étudiants de doctorats
L'échantillonnage en grappes Procédure : On divise la population en sous-ensembles (grappes) de façon à couvrir tous les éléments et à ce que chaque élément ne participe qu'à une grappe. On sélectionne un échantillon aléatoire simple de grappes. Tous les éléments qui composent les grappes choisies constituent l'échantillon final. Cas particuliers : échantillonnage systématique ou aérolaire