La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.

Présentations similaires


Présentation au sujet: "Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003."— Transcription de la présentation:

1 Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003

2 STT-2000; Échantillonnage 2 Non-réponse Problème survenant dans plusieurs sondages. Peut varier considérablement dans le temps, même pour un même sondage effectué à plusieurs reprises dans le temps. Pour la contrôler: entraînement des interviewers, déroulement de l’entrevue (longueur de l’entrevue, choix et formulation des questions, etc.)

3 STT-2000; Échantillonnage 3 Exemples de non-réponse Incapacité de contacter un individu, un ménage, ou de manière générale une unité. La personne peut décider de ne pas répondre; refus catégorique; incompréhension (langue, analphabétisme) Idéalement, l’interviewer tente d’obtenir de l’information démographique sur le non- répondant (âge?, sexe?, ethnie?, lieu de résidence: rural/urbain?)

4 STT-2000; Échantillonnage 4 Effets de la non-réponse Biais potentiel dans les estimateurs des paramètres de la population. La non-réponse est particulièrement grave car la volonté de réponse est souvent liée à la variable d’intérêt y.

5 STT-2000; Échantillonnage 5 Facteurs principaux font que le biais est petit: Moyenne chez les non-répondants est similaire à la moyenne chez les répondants. Taux de non-réponse est raisonnablement petit. (Pour EPA = enquête population active, taux de non- réponse est d’environ 7%; 5% et moins est « acceptable ».)

6 STT-2000; Échantillonnage 6 Formalisation de la non-réponse Contexte: On sélectionne s dans U avec probabilité p(s), avec  k > 0 et  kl > 0. Après la collecte des données, y k est disponible seulement pour les unités pour et Dans une telle situation, nous sommes en présence de données manquantes ou de la non-réponse.

7 Exemple Échantillon s Non- échantillonné, partie U-s Réponse aux deux questions. Réponse à une question mais pas aux deux. (non- réponse par item) Non-réponse aux deux questions. (non- réponse par unité)

8 STT-2000; Échantillonnage 8 Illustration du problème de biais: Enquête sur le revenu, où tous les hauts revenus ont une probabilité de répondre plus faible. Ceci implique une sous-représentativité des hauts revenus dans. Si tirage SI (n parmi N): Si on considère comme estimateur où m est le nb de répondants:

9 STT-2000; Échantillonnage 9 Techniques pour contrôler le problème de la non-réponse Sous-échantillonnage des répondants. Techniques de réponses randomisées. Techniques basées sur la modélisation de la non-réponse. Imputation.

10 STT-2000; Échantillonnage 10 On connaît On impute On obtient ainsi un ensemble de données complétées: Imputation: on pose des valeurs plausibles pour les valeurs manquantes

11 STT-2000; Échantillonnage 11 Autre exemples d’imputation Hot Deck: On choisit au hasard une valeur déjà obtenue pour remplir les trous. Cold Deck: Utilisation de données provenant de sources externes. Imputation par la moyenne: Chacun des trous est remplacé par la valeur moyenne des répondants. Imputation utilisant des modèles: par le ratio, par la régression, etc.

12 STT-2000; Échantillonnage 12 Repondération comme une méthode d’ajustement pour la non- réponse On accepte la non-réponse. On ne tente pas d’imputer. Cependant, on cherche à redresser l’échantillon de répondants. On a besoin cependant d’information auxiliaire, permettant un découpage en catégories (exemple: âge, sexe)

13 STT-2000; Échantillonnage 13 Repondération On identifie G groupes, g = 1,2,…,G. L’échantillon s est découpé en s 1, s 2, …, s G. Ainsi, ceci implique que l’échantillon des répondants r est découpé en r 1, r 2, …, r G. Pour, on doit donc pouvoir observer les caractéristiques qui définissent le regroupement.

14 STT-2000; Échantillonnage 14 Repondération (suite) Pour le groupe g, soit m g /n g le taux de réponse, où m g = taille de r g, et n g = taille de s g. Par repondération, on veut dire que le poids d’échantillonnage 1/  k (poids sans non- réponse) est remplacé (ou redressé) par la valeur (n g /m g )(1/  k ) (avec non-réponse).

15 STT-2000; Échantillonnage 15 Intuition derrière la méthode de redressement (plan SI) 1/  k = N/n. On note que. Cependant. On cherche  tel que

16 STT-2000; Échantillonnage 16 Estimateur par repondération Estimateur: Pour le plan SI:

17 STT-2000; Échantillonnage 17 Justification de l’estimateur par repondération Pour s: Pour r, on pose: Dans le cas de l’estimateur par repondération par groupes, on suppose: L’estimateur est:

18 STT-2000; Échantillonnage 18 Justification (suite) Sous les hypothèse suivantes: Pour chaque unité k dans le groupe g, les unités répondent avec probabilité  g indépendamment (plan BE étant donné s). L’estimateur précédent est alors sans biais sous ce mécanisme de réponse. Puisque  g est inconnu, on l’estime par

19 STT-2000; Échantillonnage 19 Exemple, T.P. 9, no.5

20 Solution Estimateur: On pose: On obtient: Estimateur repondéré: Moyenne des répondants:

21 STT-2000; Échantillonnage 21 Solution (suite et fin) L’estimateur repondéré est mieux que la moyenne des répondants dans la mesure où l’estimateur repondéré tient compte des différences qu’il y a entre les groupes en rapport avec la volonté de répondre. Dans l’exemple, les hommes répondaient moins que les femmes.


Télécharger ppt "Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003."

Présentations similaires


Annonces Google