Théorie de l’échantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004
STT-6005; Théorie de l'échantillonnage; Hiver 2004 Non-réponse Problème survenant dans plusieurs sondages. Peut varier considérablement dans le temps, même pour un même sondage effectué à plusieurs reprises dans le temps. Pour la contrôler: entraînement des interviewers, déroulement de l’entrevue (longueur de l’entrevue, choix et formulation des questions, etc.) STT-6005; Théorie de l'échantillonnage; Hiver 2004
Exemples de non-réponse Incapacité de contacter un individu, un ménage, ou de manière générale une unité. La personne peut décider de ne pas répondre; refus catégorique; incompréhension (langue, analphabétisme) Idéalement, l’interviewer tente d’obtenir de l’information démographique sur le non-répondant (âge?, sexe?, ethnie?, lieu de résidence: rural/urbain?) STT-6005; Théorie de l'échantillonnage; Hiver 2004
Effets de la non-réponse Biais potentiel dans les estimateurs des paramètres de la population. La non-réponse est particulièrement grave car la volonté de réponse est souvent liée à la variable d’intérêt y. STT-6005; Théorie de l'échantillonnage; Hiver 2004
Facteurs principaux qui font que le biais est petit: Moyenne chez les non-répondants est similaire à la moyenne chez les répondants. Taux de non-réponse est raisonnablement petit. (Pour EPA = enquête population active, taux de non-réponse est d’environ 7%; 5% et moins est « acceptable ».) STT-6005; Théorie de l'échantillonnage; Hiver 2004
Taux de non-réponse en pratique Enquête de la population active: autour de 10%. Moins de 10% est bon en général. Souvent 30% et plus. Mesure de non-réponse si plus de deux variables? STT-6005; Théorie de l'échantillonnage; Hiver 2004
Exemple Réponse aux deux questions. Échantillon s Réponse à une question mais pas aux deux. (non-réponse par item) Non-réponse aux deux questions. (non-réponse par unité) Non-échantillonné, partie U-s
Formalisation de la non-réponse pour une variable y Contexte: On sélectionne s dans U avec probabilité p(s), avec pk > 0 et pkl > 0. Après la collecte des données, yk est disponible seulement pour les unités pour et Dans une telle situation, nous sommes en présence de données manquantes ou de la non-réponse. STT-6005; Théorie de l'échantillonnage; Hiver 2004
STT-6005; Théorie de l'échantillonnage; Hiver 2004 Illustration du problème de biais: Enquête sur le revenu, où tous les hauts revenus ont une probabilité de répondre plus faible. Ceci implique une sous-représentativité des hauts revenus dans . Si tirage SI (n parmi N): Si on considère comme estimateur où m est le nb de répondants: STT-6005; Théorie de l'échantillonnage; Hiver 2004
Techniques pour contrôler le problème de la non-réponse Sous-échantillonnage des non-répondants. Techniques de réponses randomisées. Techniques basées sur la modélisation de la non-réponse. Imputation. Substitution de dossiers analogues (qui partagent certaines caractérisques avec les unités non-répondantes). Technique de redressement. On remplace 1/pk par autre chose. STT-6005; Théorie de l'échantillonnage; Hiver 2004
Imputation: on pose des valeurs plausibles pour les valeurs manquantes On connaît On impute On obtient ainsi un ensemble de données complétées: STT-6005; Théorie de l'échantillonnage; Hiver 2004
Autre exemples d’imputation Hot Deck: On choisit au hasard une valeur déjà obtenue pour remplir les trous. Cold Deck: Utilisation de données provenant de sources externes. Imputation par la moyenne: Chacun des trous est remplacé par la valeur moyenne des répondants. Imputation utilisant des modèles: par le ratio, par la régression, etc. STT-6005; Théorie de l'échantillonnage; Hiver 2004
Repondération comme une méthode d’ajustement pour la non-réponse On accepte la non-réponse. On ne tente pas d’imputer. Cependant, on cherche à redresser l’échantillon de répondants. On a besoin cependant d’information auxiliaire, permettant un découpage en catégories (exemple: âge, sexe) STT-6005; Théorie de l'échantillonnage; Hiver 2004
STT-6005; Théorie de l'échantillonnage; Hiver 2004 Mécanisme de réponse Permet de modéliser la non-réponse. On considère un échantillon s choisi dans U selon un plan p avec les pk et pkl usuels. L’échantillon des répondants r est pris dans s selon un mécanisme de réponse inconnu. Cette façon d’aborder le problème est une application directe de la théorie d’échantillonnage en 2 phases. STT-6005; Théorie de l'échantillonnage; Hiver 2004