Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003
STT-2000; Échantillonnage 2 Notations Variable dintérêt: y. Variable auxiliaire: x. Objectif: Il est exactement le même quavant, cest-à-dire estimer ou encore Jusquà maintenant, lestimateur considéré est lestimateur Horvitz-Thompson
STT-2000; Échantillonnage 3 Base de sondage
STT-2000; Échantillonnage 4 Information auxiliaire Les valeurs x k sont supposées connues pour toute la population, avant de faire le sondage. Question: Peut-on améliorer nos estimations à laide de linformation auxiliaire? Autrement dit, au lieu de considérer Horvitz- Thompson, peut-on considérer un estimateur faisant intervenir les x k ?
STT-2000; Échantillonnage 5 Estimation du total t y On sélectionne s dans la base par un plan déchantillonnage p. On obtient: On observe: On se propose de remplacer par une autre méthode destimation. Autres choix possibles: – Estimateur par le ratio, – Estimateur par la régression.
STT-2000; Échantillonnage 6 Estimateur par le ratio Estimateur: Le total est connu. La quantité est calculable sur s.
STT-2000; Échantillonnage 7 Estimateur par la régression Lestimateur peut sécrire des deux façons suivantes: Lestimateur de la pente de régression de y k sur x k est
STT-2000; Échantillonnage 8 Remarque importante sur la disponibilité de linformation auxiliaire On a présumé que x 1,x 2,…,x N sont connues. Est-ce que cest absolument nécessaire de connaître tous les x k pour lensemble de la population? Si on regarde attentivement la forme de lestimateur par le ratio et lestimateur par la régression, on remarque que – nous avons en fait besoin de connaître le total t x de la variable x. Cette information pourrait provenir dun recensement, fichiers administratifs, etc. – Les y k et les x k disponibles pour les k dans léchantillon s, typiquement disponibles lors de la collecte des données.
STT-2000; Échantillonnage 9 Disponibilité de linformation auxiliaire (suite) En pratique, deux situations pourraient survenir: Premier cas: On connaît x 1,x 2,…,x N avant le sondage. Prendre s dans U = {1,2,…, N}. Observer ainsi les données du sondage sont
STT-2000; Échantillonnage 10 Disponibilité de linformation auxiliaire (suite et fin) Second cas: On connaît t x, le total de linformation auxiliaire, avant le sondage (mais on ne connaît pas individuellement x 1,x 2,…,x N avant le sondage). Prendre s dans U = {1,2,…, N}. Lors de la collecte, observer Les données du sondage sont
STT-2000; Échantillonnage 11 Horvitz-Thompson, ratio et régression pour tirage SI, k n/N. Horvitz-Thompson: Par le ratio: Par la régression:
STT-2000; Échantillonnage 12 Coefficient de corrélation Comme on va le voir, les estimateurs par le ratio et la régression trouvent leur justification à laide de modèles. Quand le modèle sera satisfaisant, ces estimateurs seront dautant plus performants (efficaces, avec faibles variances). Le lien linéaire entre y et x est mesuré par le coefficient de corrélation. Cette mesure est une quantité utile pour comparer ces estimateurs.
STT-2000; Échantillonnage 13 Coefficient de corrélation (suite) On a que par Cauchy-Schwartz.