La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède.

Présentations similaires


Présentation au sujet: "Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède."— Transcription de la présentation:

1 Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède e Colloque francophone sur les sondages Rennes, 2012

2 . Face à la non-réponse : deux types dactivités (a) au « stade collecte (des données) » (b) au « stade estimation », collecte ayant été terminée Les étapes (a) et (b) ne sont pas indépendantes. Nous examinerons les deux, et leur interaction

3 . Collecte des données: Évolue sur une période de temps (des jours, semaines). Aspect dynamique. Objectif: obtenir à la fin un ensemble de répondants bien équilibré Estimation: Objectif: Ajustement pour réduire le biais qui affecte néanmoins les estimations (malgré un certain équilibrage).

4 . Collecte des données Estimation Les deux activités dépendent intégralement de laccès aux variables auxiliaires Plus on en a, mieux cest En Scandinavie, on est bien équipé

5 Les idées pour cette présentation Collecte adaptive (Responsive design, USA, Canada) Europe: Statistics Netherlands (projet RISQ; représentativité) Statistics Sweden (réponse équilibrée) : projet en collaboration avec Peter Lundquist

6 Points de départ: Les variables dintérêt (variables y) : affectées par une non-réponse non-aléatoire (même conditionnellement sur vecteur auxiliaire x) Estimations plus ou moins baisées Le biais ne sera jamais entièrement éliminé La non-réponse ignorable (MAR) nexiste pas.

7 Points de départ: Les variables auxiliaires (variables x) jouent un rôle primordial. Connues pour les unités de léchantillon s (répondants et non-répondants), peut-être pour toute la population Vecteur x multivarié

8 Points de départ: En Scandinavie, aux Pays-Bas et de plus en plus ailleurs Une multitude de variables auxiliaires disponibles, surtout pour les enquêtes sur ménages et individus : Sources : Les registres administratifs Nécessité de choisir les meilleures.

9 Exemple, Suède : Pays dorigine Revenu Age Sexe Statut civil Région Taille de ménage Périodes sans emploi Urbain/rural Occupation et beaucoup dautres Enquête sur ménages et individus, parmi les variables auxiliaires potentielles:

10 . Je vous présente une théorie pour ce qui est pour nous, en Scandinavie, une réalité, chez vous, cest peut-être différent …

11 Les étapes de ma présentation 1. La notion de maléquilibre (ang.: imbalance) 2. Stade collecte : surveiller et intervenir 3. Partager le travail et les ressources : collecte vis-à-vis estimation 4. Stade estimation : réduction du biais

12 Population U = {1, …, k,..., N} Échantillon probabiliste s (s U) 1. La notion de mal-équilibre. Proba dinclusion de lunité k : Poids déchantillonnage de k :

13 Population U = {1, …, k,..., N} Échantillon probabiliste s Ensemble des répondants r r s U Sélectionnés mais non-répondants : s – r La non-réponse arrive Taux de réponse pondéré : d k = 1/ k

14 La (les) variable(s) dintérêt y continue ou catégorique On observe valeur. par exemple

15 Pondération désirable mais hypothétique Serait sans biais pour le total de y, mais inutilisable proba de réponse k inconnu, tout unité k :.

16 Introduisons Les concepts déquilibre et de distance reposant sur des variables auxiliaires (Mais la variable dintérêt y k pour k r seulement) r s U Vecteur auxiliaire x k de dimension J 1 connu k s, ou bien pour tout k U

17 ; moyenne répondants Contraster les répondants avec léchantillon entier Pour la variable x j, calculer moyenne échantillon entier

18 ; Comparer répondants avec léchantillon entier Le vecteur des différences, dim. J 1 pondéré : d k = 1/ k

19 Répondants égaux (en moyenne) à léchantillon tout entier Réponse équilibrée : Désirable, mais difficile à réaliser entièrement Objectif pour la collecte : un niveau déquilibre élevé néanmoins, au stade estimation, un ajustement simpose.

20 : réponse mal équilibrée D étant vectoriel, on forme une mesure uni-variée du maléquilibre (ang: imbalance), Matrice J J de pondération, non-singulier :

21 Exemple, la Suède : Pays dorigine Revenu Age Sexe Statut civil Région Taille de ménage Période(s) sans emploi Urbain/rural Occupation Vecteur x composé de : dimension souvent 40 ou plus

22 Notation : IMB = imbalance = maléquilibre IMB est une mesure descriptive - parmi dautres également possibles - de lensemble r des répondants, tel quil se présente à un certain moment de la collecte des données..

23 Remarquer : dépend de (i) la composition du vecteur auxiliaire x k (ii) la composition de r, étant donné s serait notation plus complète Mais par simplicité, utilisons IMB tout court

24 Propriété : Pour réponse r et échantillon s fixés, ajouter plus de variables au vecteur x fera augmenter IMB Un vecteur x plus grand donne plus de maléquilibre, naturellement, car davantage de variables pour lesquelles les moyennes doivent concorder. Le vecteur trivial x k = 1 donne IMB = 0 mais cest un vecteur dépourvu dintérêt.

25 La pondération avec s nous permet de poser une borne supérieure simple pour le maléquilibre

26 Pour toute réalisation ( s, r ) et vecteur x k, 20% non-response : 0 IMB % non-response : 0 IMB 1 IMB nest pas numériquement grand Mais IMB = 0.20 indique maléquilibre considérable comparablement à IMB = 0 (équilibre parfait) P = taux de réponse

27 La notion de distance entre répondants r and non-répondants nr = s - r Relation simple avec maléquilibre IMB : P = taux de réponse

28 La distance Par exemple, 40% non-réponse, et maléquilibre

29 peu importe r, s et choix de vecteur x Par ex., non-réponse 50% dist 2 Pour nos données, dist rarement 0.5 mais varie selon le choix du vecteur x Propritété :

30 2. Stade collecte: surveiller et intervenir (un aspect de « Responsive Design ») Optique dynamique : Surveiller la collecte des données, vue en fonction du temps (les jours, les tentatives de contact); Envisager des interventions ou altérations dans un plan original.

31 Surveiller et modifier la collecte Optique dynamique : Une série densembles de répondants emboités, fonctions du point temporel a Pour simplicité r dénotera nimporte lequel de ces ensembles

32 Tirage aléatoire simple de personnes dans le registre de la population suédoise. Interviews par téléphone. Les tentatives de contact sont enregistrées par le dispositif WinDATI Nous analysons ici un sous-échantillon de taille 8,220 Exemple dapplication: Enquête sur les Conditions de Vie, Suède 2009 ECV2009 tributaire du EU-SILC.

33 Tentatives de contact enregistrées par WinDATI. Période collecte ordinaire : 3 semaines; pour beaucoup dunités, > 30 tentatives; à la fin de cette période, taux de réponse P = 60.4 % Période des suivis (follow-up), 3 semaines, taux de réponse ultime P = 67.4% Enquête sur les conditions de vie, Suède 2009 (ECV2009).

34 Collecte ordinaire > 30 tentatives pour bon nombre dunités Collecte suivie souvent > 10 tentatives Toutes ces tentatives … 53258, au total Est-que cela vaut la peine ? Fortement douteux..

35 Pour le fichier ECV2009, calculons le maléquilibre et la distance rép/non-rép sur vecteur x = (educ owner origin); dim = 2 3 = 8

36 . 3 variables binaires : Éduc (élevée ou non) Own (propriétaire ou non) Origine (suédois ou non) x = (educ owner origin); dim = = 8

37 Fichier ECV2009 tel quel TentativeTaux rép. 100 P dist r/nr 100 IMB no.1 ordin no. 5 ordin no.12 ordin Fin ordin no. 1 fol-up no.4 fol-up Final La distance augmente sans cesse. Comment est-ce possible ?

38 Fichier ECV2009 : La distance augmente de tentative no. 5 à fin collecte Répondants de moins en moins semblables aux non-répondants... Cest troublant … Mais dites-vous, cela dépend du vecteur x choisi …

39 . Durant la phase collecte, comment réduire le maléquilibre ? Quelles interventions pouvons nous apporter à la collecte? Quelles modifications dans un plan original, pour pouvoir terminer avec un ensemble de répondants plus approprié?

40 Pour répondre à ces questions, il faudrait effectuer des expériences dans la collecte des données de la ECV..

41 Faute d expériences réelles, nous effectuons desexpériences rétrospectives dans le fichier ECV2009 On considère la collecte terminée dans un sous-groupe ayant atteint un certain taux de réponse comme 55% ou 60% ou 65% Cela possible avec le fichier ECV2009..

42 Ainsi, dans ces expériences, on rejette volontairement une partie des données du fichier ECV2009 (pour que le reste soit plus équilibré et avoir un IMB moindre)..

43 Les groupes définis par le vecteur connu k s x = (educ owner origin) de dimension = = 8 On sait que ces groupes diffèrent dans leur disposition à répondre ECV2009.

44 Résultats dune de ces expériences rétrospectives: Considérer collecte terminée dans un group ayant atteint un taux de réponse de 60% les 2 3 = 8 groupes définis par le vecteur x = (educ owner origin) ECV2009.

45 Expérience rétrospective : collecte terminée dans un groupe si son taux réponse > 60% TentativeTaux rép. 100 P dist r/nr 100 IMB 7 ordin ordin ordin ordin fol-up Final La distance maintenant décroissante, comme on souhaite

46 Comparaison au point Final (collecte terminée) Moins de réponses (58.9% vs. 67.4%) Mais distance très réduite (0.22 vs. 0.42). ECV tel quel Expérience (intervention par groupes) Taux rép. 100 P 100 IMB distance

47 Non seulement économise-t-on sur le nombre de tentatives (réduction denviron 15%) mais la distance diminue aussi (répondants et non-répondants plus semblables)..

48 3. Collecte vis-à-vis estimation Comment partager les ressources ? Quelle utilisation doit-on faire de linformation auxiliaire disponible? Quand faut-il agir, et dans quelle mesure ? stade collecte ou bien stade estimation ou les deux ?

49 On se rend compte alors que les variables auxiliaires (nombreuses) doivent être regroupés en deux catégories : Celles quon utilise lors du stade collecte, pour une surveillance Celles quon utilise, la collecte terminée, lors du stade estimation

50 . Le vecteur surveillance x a contient les variables x destinées à surveiller et diriger la collecte de données, pour sassurer à la fin dun ensemble de répondants bien équilibré, qui ressemble fortement à léchantillon probabiliste s.

51 . Dautres variables auxiliaires, quoique disponibles, demeurent inactives lors de la collecte ; Ce vecteur supplémentaire x b prend de limportance au stade estimation pour calculer les poids de calage.

52 . Cest un fait : Certaines unités faciles à rejoindre ou à faire participer, dautres plus dures, et cela dépendamment de leurs caractéristiques observables (leurs données auxiliaires).

53 . Le contexte dynamique: A tout point de la collecte, toute unité k s est caractérisée par son Intensité de réponse (ang.: Response Propensity) par rapport au vecteur surveillance choisi x a Interprétation : Régression de lindicateur de réponse I k = 1 si réponse ; 0 sinon, sur x ak

54 Intensité de réponse Peut se calculer à nimporte quel point de la collecte, pour k s P étant le taux de réponse réussi à ce point de la collecte

55 où IMB a est le mal-équilibre de x a cest-à-dire la valeur de calculée sur x = x a On découvre une relation entre maléquilibre et intensité de réponse.

56 . La relation : entre intensité de réponse et maléquilibre est logique : Plus les intensités de réponse varient, plus il doit y avoir maléquilibre, à un moment donné de la collecte..

57 Note mathématique: Nous considérons ici la famille de vecteurs x tels que : On peut spécifier vecteur tel que La majorité des vecteurs dimportance sont de cette espèce, par exemple OO

58 Disponible pour ECV2009 : multitude variables auxiliaires potentielles Prenons un exemple Retour à lEnquête Conditions de Vie, Suède (ECV2009).

59 . Exemple : On a retenu les variables auxiliaires suivantes (toutes catégoriques) :. Binaires : Éduc (élevée ou non) Own (propriétaire ou non) Origine (suédois ou non) Phone (téléphone ou non) Civil (marié ou non) Sexe (homme ou femme) Par 4 groupes : Age

60 . Préalablement analyser le fichier ECV2009 tel quel, pour maléquilibre et distance, avec le vecteur (de toutes les variables de la liste).. dim(x) = (4 – 1) = 14

61 Fichier ECV2009 tel quel (aucune intervention) Tentative Taux rép. 100×P dist r|nr 100×IMB 8 ordinaire Fin ordin follow-up Final La distance rép/non-rép augmente sans cesse

62 Faire mieux: Expériences rétrospectives Préciser un vecteur x a de surveillance pour effectuer des interventions « après coup » dans ECV2009 : Considérer les tentatives de contact terminées pour des unités « ne valant plus la peine dêtre poursuivies »

63 Procédure Arrêter les efforts de contact pour les unités ayant intensité élevée. Du coup, quand on continue avec celles qui restent, ils vont successivement atteindre une intensité de réponse plus élevée.

64 ... Vecteur de surveillance : Comment le choisir ? Options : Affecter toutes les variables de la liste au vecteur x a de surveillance Affecter une partie des variables à la surveillance, laisser les autres pour lestimation

65 . Liste des variables auxiliaires retenues :. Binaires : Éduc (élevée ou non) Own (propriétaire ou non) Origine (suédois ou non) Phone (téléphone ou non) Civil (marié ou non) Sexe (homme ou femme) Par 4 groupes : Age

66 .. Dim( x a ) = = 14 Nombre de valeurs possibles de x a = nombre de propriétés reconnues chez les unités = 256 Affecter toutes les variables à la surveillance

67 Procédure A chacun de J points définis à lavance, mettre de côté (ne plus poursuivre) une partie, 1/(J+1), des unités, celles ayant des valeurs élevées de lintensité OO

68 x a de dim.14 (toutes les var. x ), aucun x b Tentative Taux rép. 100×P dist r|nr 100× IMB a 8 ordinaire Fin ordin follow-up Final Reduction du nombre de tentatives : 16.1% Distance diminue ; bon signe.

69 Alternativement, affecter seulement une partie des variables à la surveillance ; retenir les autres pour lestimation (inactives au stade collecte).. Conséquence : IMB et dist r/nr plus élevés, comparativement à la surveillance sur toutes les variables x de la liste.

70 . Données finales taux rép. 100 P dist r/nr IMB ab ECV2009 tel quel; aucune surveillance Surveiller sur une partie x a de dim Surveiller sur toutes x a de dim Comparaison, 3 différentes collectes de données Surveillance plus serrée distance diminue

71 Données finales IMB ab (total) IMB b (marg) IMB a/b (cond) ECV2009 tel quel ; aucune surveillance Surveiller sur une partie x a de dim Surveiller sur toutes x a de dim Maléquilibre total, marginal, conditionnel

72 4. Stade estimation : ajustement pour non-réponse y k disponible k r seulement La situation est changée : r est désormais fixé plus possible daméliorer sa composition ; faut laccepter tel quel pour lestimation Objectif: Construire un vecteur x puissant r s U réponse échantillon population

73 . Disponible : Liste de variables auxiliaires (nombreux) Objectif: construire un vecteur x pour un calcul des poids de calage réduire autant que possible le biais des estimations car il y en a, malgré un certain équilibrage lors du collecte des données

74 Comment choisir, dans une manière « stepwise » ou autrement, les variables x à retenir ? « Prendre les meilleurs d'abord » est une solution. Les variables y sont nombreuses, ce qui complique le choix des variables x. Celles qui sont bonnes pour une certaine y ne lest peut-être pas pour les autres. Pour la théorie nous examinons une seule variable y. OO

75 U s r population échantillon répondants y k observé k r seulement Estimateurs de par calage; moins b iaisé sans biais mais irréa lisable par expansion; tres bi aisé

76 Estimateur calage de avec poids de calage Propriété calage des poids d k m k

77 0 Quand x k devient plus puissant, étant donne r et s :. Ajustement séloigne de lestimation rudimentaire grandit

78 0 séloigne de pour se rapprocher de (très biaisé) (sans biais) diminuant Pour r et s fixés : La tendance lorsque x devient plus puissant : OO

79 Lintuition nous dit : plus il y a du maléquilibre, plus il faudra ajuster les estimations. Cest ainsi...

80 Ajustement standardisé : S y = écart-type de y, calculé sur la réponse r

81 ou IMB est le maléquilibre R y,x et R DC des coefficients de corrélation Une analyse montre que StAdj se décompose en 3 facteurs :

82 . Limportance de lajustement dépend (en partie) du maléquilibre IMB subsistant encore malgré les efforts de léquilibrage au stade collecte) Pas de maléquilibre pas dajustement

83 OO ajustement = 0.08 écarts-type Estimation ajustée

84 Conclusion: Comment « optimiser » le partage dune quantité de variables x, entre les deux étapes, surveillance de la collecte et estimation. Serait-ce possible ?..

85 . Bibliographie Groves, R.M. and Heeringa, S.G. (2006). Responsive design for household surveys: tools for actively controlling survey errors and costs. Journal of the Royal Statistical Society: Series A, 169. Bethlehem, J., Cobben, F. and Schouten, B. (2011). Handbook of Nonresponse in Household Surveys. New York: Wiley. Schouten, B., Cobben, F. and Bethlehem, J. (2009). Indicators for the representativeness of survey response. Survey Methodology, 35, Schouten, B., Shlomo, N. and Skinner, C. (2011). Indicators for monitoring and improving representativeness of response. Journal of Official Statistics, 27, Särndal, C.E. and Lundström, S. (2005). Estimation in Surveys with Nonresponse. New York: Wiley. Särndal, C.E. (2011a). Dealing with Survey Nonresponse in Data Collection, in Estimation (Morris Hansen lecture). Journal of Official Statistics, 27, Särndal, C.E. (2011b). Three factors to signal nonresponse bias, with applications to categorical auxiliary variables. International Statistical Review, 79, Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design with applications to the Swedish Living Conditions Survey. Report 2011:1, Statistics Sweden

86 Merci de votre attention.


Télécharger ppt "Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université dÖrebro Statistique Suède."

Présentations similaires


Annonces Google