Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMarianne Pellerin Modifié depuis plus de 9 années
1
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003
2
STT-2000; Échantillonnage 2 Non-réponse Problème survenant dans plusieurs sondages. Peut varier considérablement dans le temps, même pour un même sondage effectué à plusieurs reprises dans le temps. Pour la contrôler: entraînement des interviewers, déroulement de l’entrevue (longueur de l’entrevue, choix et formulation des questions, etc.)
3
STT-2000; Échantillonnage 3 Exemples de non-réponse Incapacité de contacter un individu, un ménage, ou de manière générale une unité. La personne peut décider de ne pas répondre; refus catégorique; incompréhension (langue, analphabétisme) Idéalement, l’interviewer tente d’obtenir de l’information démographique sur le non- répondant (âge?, sexe?, ethnie?, lieu de résidence: rural/urbain?)
4
STT-2000; Échantillonnage 4 Effets de la non-réponse Biais potentiel dans les estimateurs des paramètres de la population. La non-réponse est particulièrement grave car la volonté de réponse est souvent liée à la variable d’intérêt y.
5
STT-2000; Échantillonnage 5 Facteurs principaux font que le biais est petit: Moyenne chez les non-répondants est similaire à la moyenne chez les répondants. Taux de non-réponse est raisonnablement petit. (Pour EPA = enquête population active, taux de non- réponse est d’environ 7%; 5% et moins est « acceptable ».)
6
STT-2000; Échantillonnage 6 Formalisation de la non-réponse Contexte: On sélectionne s dans U avec probabilité p(s), avec k > 0 et kl > 0. Après la collecte des données, y k est disponible seulement pour les unités pour et Dans une telle situation, nous sommes en présence de données manquantes ou de la non-réponse.
7
Exemple Échantillon s Non- échantillonné, partie U-s Réponse aux deux questions. Réponse à une question mais pas aux deux. (non- réponse par item) Non-réponse aux deux questions. (non- réponse par unité)
8
STT-2000; Échantillonnage 8 Illustration du problème de biais: Enquête sur le revenu, où tous les hauts revenus ont une probabilité de répondre plus faible. Ceci implique une sous-représentativité des hauts revenus dans. Si tirage SI (n parmi N): Si on considère comme estimateur où m est le nb de répondants:
9
STT-2000; Échantillonnage 9 Techniques pour contrôler le problème de la non-réponse Sous-échantillonnage des répondants. Techniques de réponses randomisées. Techniques basées sur la modélisation de la non-réponse. Imputation.
10
STT-2000; Échantillonnage 10 On connaît On impute On obtient ainsi un ensemble de données complétées: Imputation: on pose des valeurs plausibles pour les valeurs manquantes
11
STT-2000; Échantillonnage 11 Autre exemples d’imputation Hot Deck: On choisit au hasard une valeur déjà obtenue pour remplir les trous. Cold Deck: Utilisation de données provenant de sources externes. Imputation par la moyenne: Chacun des trous est remplacé par la valeur moyenne des répondants. Imputation utilisant des modèles: par le ratio, par la régression, etc.
12
STT-2000; Échantillonnage 12 Repondération comme une méthode d’ajustement pour la non- réponse On accepte la non-réponse. On ne tente pas d’imputer. Cependant, on cherche à redresser l’échantillon de répondants. On a besoin cependant d’information auxiliaire, permettant un découpage en catégories (exemple: âge, sexe)
13
STT-2000; Échantillonnage 13 Repondération On identifie G groupes, g = 1,2,…,G. L’échantillon s est découpé en s 1, s 2, …, s G. Ainsi, ceci implique que l’échantillon des répondants r est découpé en r 1, r 2, …, r G. Pour, on doit donc pouvoir observer les caractéristiques qui définissent le regroupement.
14
STT-2000; Échantillonnage 14 Repondération (suite) Pour le groupe g, soit m g /n g le taux de réponse, où m g = taille de r g, et n g = taille de s g. Par repondération, on veut dire que le poids d’échantillonnage 1/ k (poids sans non- réponse) est remplacé (ou redressé) par la valeur (n g /m g )(1/ k ) (avec non-réponse).
15
STT-2000; Échantillonnage 15 Intuition derrière la méthode de redressement (plan SI) 1/ k = N/n. On note que. Cependant. On cherche tel que
16
STT-2000; Échantillonnage 16 Estimateur par repondération Estimateur: Pour le plan SI:
17
STT-2000; Échantillonnage 17 Justification de l’estimateur par repondération Pour s: Pour r, on pose: Dans le cas de l’estimateur par repondération par groupes, on suppose: L’estimateur est:
18
STT-2000; Échantillonnage 18 Justification (suite) Sous les hypothèse suivantes: Pour chaque unité k dans le groupe g, les unités répondent avec probabilité g indépendamment (plan BE étant donné s). L’estimateur précédent est alors sans biais sous ce mécanisme de réponse. Puisque g est inconnu, on l’estime par
19
STT-2000; Échantillonnage 19 Exemple, T.P. 9, no.5
20
Solution Estimateur: On pose: On obtient: Estimateur repondéré: Moyenne des répondants:
21
STT-2000; Échantillonnage 21 Solution (suite et fin) L’estimateur repondéré est mieux que la moyenne des répondants dans la mesure où l’estimateur repondéré tient compte des différences qu’il y a entre les groupes en rapport avec la volonté de répondre. Dans l’exemple, les hommes répondaient moins que les femmes.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.