Échantillonnage (STT-2000) Section 2 Méthodes d’échantillonnage. Version: 22 août 2003
Population, base de sondage, échantillon On dispose d’une population de taille finie N. Notation: U = {1,2,…,k,…,N}. L’indice k: identificateur de l’unité k. Variable d’intérêt: y Salaire: yk =$40 500 = salaire de l’unité k. Étude sur le chômage: yk = 1 si chômeur, yk = 0 sinon. STT-2000; Échantillonnage
Paramètres de la population Total: Moyenne: Variance: D’autres quantités sont possibles: médiane de la population, quantile, etc. STT-2000; Échantillonnage
Convention pour le symbole Soit A un sous ensemble d’unités, On écrira pour le total de y de A: On écrit et STT-2000; Échantillonnage
STT-2000; Échantillonnage Un échantillon s est un sous-ensemble de U. Il existe un nombre fini d’échantillons, mais le nombre possible peut être très grand. Nombre total d’échantillons? STT-2000; Échantillonnage
STT-2000; Échantillonnage Dans un sondage, on tire un échantillon s et on observe les unités Si la variable d’intérêt est y, on observe alors Échantillon probabiliste: C’est un échantillon réalisé par un mécanisme aléatoire qu’on appelle un plan d’échantillonnage. Plan d’échantillonnage: règles strictes, qui une fois mises en applications, nous donnent l’échantillon. On requiert que la probabilité d’être inclus dans l’échantillon s est > 0, et ce STT-2000; Échantillonnage
Échantillon représentatif Un échantillon a pour but de représenter la population, donc être représentatif. En quelque sorte, l’échantillon est un modèle pour la population. Il n’est pas possible de déterminer si un échantillon est représentatif ou non. Un bon plan d’échantillonnage peut cependant contribuer à éliminer des échantillons non représentatifs. STT-2000; Échantillonnage
Échantillonnage probabiliste Tirage aléatoire simple avec remise Tirage aléatoire simple sans remise (chaque échantillon de taille n (n est fournie) possède les mêmes chances de survenir) Tirage de Bernouilli Tirage stratifié simple Tirage systématique Tirage en grappes Tirage à plusieurs degrés STT-2000; Échantillonnage
Exemples de sondages probabilistes Dans une étude de marketing, on désire sonder les ménages de la ville de Montréal. On suppose que l’on dispose d’une liste de 1 à M des unités géographiques sur une carte (remarque: on parle de sondages aréolaires). On tire un échantillon au hasard d’unités géographiques. Dans chaque unité géographique, sélectionner et observer tous ou une partie des ménages. STT-2000; Échantillonnage
Île de Montréal (frontières des strates) source: François Brisebois, Statistique Canada
Partie de la strate #46236 (frontières des grappes)
STT-2000; Échantillonnage Exemple (suite) Sondages de grappes et sondages à deux degrés Sondages de grappes: Si on observe tous les ménages dans les unités géographiques sélectionnées. Sondages à deux degrés: Si on observe un sous-ensemble des ménages dans les unités géographiques sélectionnées. On parle d’échantillonnage (premier degré: les grappes) suivit de sous-échantillonnage (second degré: les ménages). STT-2000; Échantillonnage
STT-2000; Échantillonnage Base de sondage Liste de N unités de la population. Dans l’échantillonnage probabiliste, chaque unité a une chance positive d’être dans l’échantillon. Idéalement on possède une base de sondage ou encore on en construit une. Sinon, on peut construire des grappes avec l’aide d’une carte géographique et observer tous les ménages dans les grappes choisies: échantillonnage de grappes permet de contourner les problèmes lorsqu’il n’y a pas de base de sondage. STT-2000; Échantillonnage
STT-2000; Échantillonnage Exemple d’une base de sondage: population MU284 (SSW, Appendice B, p. 652 STT-2000; Échantillonnage
Base de sondage (suite) Dans l’exemple précédent, la variable P85 est inconnue et veut faire un sondage pour estimer le total de la population. Les autres variables sont des variables auxiliaires qui sont utiles au niveau de la: Conception d’un sondage; Construction d’estimateurs Variables auxiliaires quantitatives: P75, RMT85, CS82, … Variables auxiliaires qualitatives: REG, CL STT-2000; Échantillonnage
Stade d’estimation et analyse Taille de l’échantillon: Moyenne échantillonnale: Variance échantillonnale: STT-2000; Échantillonnage
Utilisation de la moyenne échantillonnale Les propriétés statistiques de cette quantité dépendent du plan d’échantillonnage. Pour le tirage aléatoire simple, on sait que Propriété d’absence de biais, de la moyenne échantillonnale, sous le tirage aléatoire simple. STT-2000; Échantillonnage
STT-2000; Échantillonnage Biais Pour tirage aléatoire simple, la moyenne de sur tous les s égale la moyenne de la population, Biais d’un estimateur: Biais positif: en moyenne, les estimateurs excèdent la véritable valeur du paramètre. Biais négatif: en moyenne, les estimateurs sont inférieurs à la véritable valeur du paramètre. STT-2000; Échantillonnage