La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.

Présentations similaires


Présentation au sujet: "Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données."— Transcription de la présentation:

1 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controle-correction: Controles de structure et intra-unite statistique

2 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Partie I: contrôles de structure

3 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Presentation Partie I: controles de structure Que sont les controles de structure ? Controles de geographie Hierarchie des enregistrements Correspondance entre enregistrements logements et individus Controle des relations au sein du menage Noyau familial

4 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Que sont les controles de structure ? Controles de structure verifient la couverture et les relations entre differentes unites: personnes, menages, logements, zone de recensement, etc. Plus particulierement, ils verifient que: tous les menages et les institutions collectives presents dans une ZR sont presents dans le fichier et dans l'ordre; tous les logements occupes ont des personnes rattaches, mais que les logement vacants n'ont pas d'enregistrement individuel rattache; les menages ne doivent avoir ni enregistements individuels en double ni manquants; les ZR ne doivent avoir ni enregistrement en double de logement ni enregistrement de logement manquant.

5 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controles de geographie Chaque ZR doit avoir les bons codes geographiques (commune, province, region...) Chaque logement dans une ZR doit avoir le code de la ZR Le processus de saisie doit controler la geographie Si des erreurs persistent, il faut retrouver les bons code, par exemple en retournant aux documents de collecte

6 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements

7 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements 1_ZR 2_Logement 4_Individu 2_Logement (vacant) 3_Collectivite 4_Individu 1_ZR

8 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements Type 1 (ZR) peut etre suivi d'un Type 1 (si la ZR est vide) ou d'un Type 2 (Logement) ou d'un Type 3 (Collectivite) Cas particulier des sans abri: creer un enregistrement logement fictif pour faciliter les controles de structure Type 2 (Logement) suivi par Type 1, 2 or 3 (si vacant) or Type 4 (si occupe) Type 3 (Collectivite) suivi par Type 4 (Individu) Si non occupe, collectivites vides permises? Type 4 (Individu) suivi par Type 4 (autre individu dans le meme logement ou la meme collectivite), ou Type 2 ou 3 (nouveau logement ou collectivite) ou Type 1 (nouvelle ZR)

9 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Correspondance entre les enregistrement de logements et d'individus Un logement occupe doit avoir au moins une personne et un logement vacant ne doit avoir personne: si Type 2 (logement) & categorie vacant suivi d'un enregistrement e Type 4 (individu) lors changer la categorie en occupe La variable nombre d'occupants recueillie dans le questionnaire logement doit avoir la meme valeur que le nombre d'enregistrement individus rattaches au logement. Si non, changer la valeur Les enregistrements individuels doivent etre numerotes en sequence Type 3 (Collectivite) & categorie (Hopital) suivi par des enregistrement inividuels Type 4 (individu) de categorie maison de retraite alors changer la categorie de la colletivite en consequence

10 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controler les relations au sein du menage Chaque individu a une relation a la premiere personne : 1ere personne (ou Chef de menage, ou personne de reference) Conjoint (marie ou non) Enfant Pere/mere Autre parent Ami Locataire...

11 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controler les relations au sein du menage Menage avec incoherences possibles dans les ages

12 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Noyau familial Pere : le sexe doit etre masculin et l'age > age minimum Mere le sexe doit etre feminin et l'age > age minimum Enfant Age < age maximum ?

13 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Partie II: controles intra unites statistiques

14 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Vue d'ensemble Controles de validite et de coherence Approche descendante vs approche multi-variable Exemple de controles multi-variable Methodes de correction et d'imputation Exemple de Hot Deck (Sexe) Exemple de Hot Deck (Sex et Age) Problemes lies au Hot Deck Methodes de correction et d'mputation: principles generaux Compteurs de controle-redressement et marqueurs (flags)

15 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controles de validite et de coherence Les controles de validite servent a verifier si les valeurs de variables sont plausibles ou dans une plage acceptable Exemples: 0<=AGE<=110 SEXE= feminin ou SEXE=masculin Les controles de coherence visent a s'assurer de la coherence entre deux variables ou plus Exemples: La personne de reference du menage a AGE>=15 Un enfant doit etre plus jeune que la personne de referene du menage Une personne de AGE<15 ne doit pas etre mariee (depend des pays)

16 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Approche descendante vs multi- variables Approche descendante commence par controler et corriger les variables les plus prioritaires (pas necessairement les premieres sur le questionnaire) et continue sequentiellement par priorite decroissante Durant le processus de controle-correction, il ne faut pas revenir sur la valeur des variables deja traitees au risque d'introduire des erreurs Exemple: age de l'enfant redresse en premier sur la base de l'age de la mere. Plus tard, l'age de l'enfant re-impute sur la base du nombre d'annees d'ecoles, ce qui peut etre incoherent avec l'age de la mere Dans ce cas, il faudrait redresser l'age de l'enfant en tenant compte des deux Important d'eviter les redressements circulaires!

17 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Approche descendante vs multi- variables Approche Multi-variables utilise un ensemble de regles qui etablit les relations entre variables Chaque regle elementaire est testee sur les donnees Systeme garde trace des regles non verifiees Evaluation de la facon de redresser l'enregistrement (Quelles variables et comment) afin qu'il satisfasse toutes les regles Principe de Fellegi-Holt de changement minimum peut etre applique

18 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de controle-correction multi-variable Reference du menage et conjoint ont meme sexe PersonRelationshipSexChildren ever born Unedited data 1Head of householdMale3 2SpouseMaleBLANK Data after editing for sex 1Head of householdFemale3 2SpouseMaleBLANK

19 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de controle-correction multi-variable Reference du menage et conjoint ont meme sexe No. RuleRelationshipSexAgeMarital statusFertility 1Head of household should be 15 years or older 2Spouse should be 15 years or older 3A spouse should be married 4If spouse present, head of household and spouse should be opposite sex 11 5Person less than 15 years old should be never married 6Male should have no fertility11 7For female 15 years or older fertility entry should not be blank Totals12 1

20 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation Le processus d'imputation change une reponse (ou non- reponse) ou plus dans un enregistrement pour assurer la coherence interne a l'unite statistique Avant d'utiliser une methode d'imputation methode, la meilleure strategie et de commencer avec une etude manuelle des reponses Deux methodes d'imputation: Cold Deck et Hot Deck (parmi d'autres) Cold Deck: Utilise principalement pour les donnees manquantes (pas pour valeurs invalides/incoherentes) Les valeurs sont imputees sur une base proportionnelle a partir d'une distribution de reponses valides (ex. du prec. rec.)

21 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation Hot Deck ou imputation dynamique: Utilise aussi bien pour valeurs manquantes que incoherentes Utilise une variable ou plus pour estimer la response possible fondee sur les donnees observees pour des individus avec des caracteristiques similaires La matrice des donneurs (ou matrice d'imputation) change constamment : les imputations change dynamiquement au cours du processus de controle- redressement sur l'ensemble des enregistrements Le hot deck approche la distribution de la base de donneees Attn: si plusieurs variables d'un meme enregistrement sont manquantes, il vaut mieux redresser par le meme donneur

22 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Menage (Sexe seulement) ID numberRelationshipSexAgeDynamic Imputation Matrix 111391 222352 331131 439 1101 542402 64199*1 742132 859 299*2 951441 1052362 Missing Information: 9, 99 Relationship: 1=Head; 2=Spouse; 3=Child; 4=Other Relative; 5=Non-Relative Sex: 1=Male; 2=Female

23 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1)35 1240 Female (2)32 1237 Matrice d'imputation initiale pour l'age basee sur le Sexe et la Relation a la personne de reference du menage

24 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) ID numberRelationshipSexAge 11139 22235 33113 439 110 54240 64199 40 74213 859 299 37 95144 105236 Missing Information: 9, 99 Relationship: 1=Head; 2=Spouse; 3=Child; 4=Other Relative; 5=Non-Relative Sex: 1=Male; 2=Female

25 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) Matrice d'i mputation initiale Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1)35 1240 Female (2)32 1237 Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1)39*3513*4044* Female (2)3235*1213*36* Matrice d'imputation apres multiple changements

26 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck Tenir compte de l'homogeneite des personnes vivant dans la meme zone et dont les enregistrements sont proches dans le fichier Souvent, le plus simple est le meilleur: par exemple, pour une caracteristique de logement manquante, il est souvent preferable de redresser par la valeur observee dans le logement voisin, plutot que d'utiliser une matrice d'imputation complexe Avant de faire des imputations dynamique, il faut utiliser l'information disponible Par exemple, si le statut matrimonial est non declare pour un individu personne de reference et qu'il existe un conjoint marie de la personne de reference, alors on peut redresser par marie ». Autre exemple, langue parlee: utiliser l'information declaree par d'autres membres du menage. Il est recommende de commencer a traiter le sexe et l'age en premier car ces variables sont couramment utilisees dans les matrices d'imputation

27 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck La construction des matrices d'imputation doit etre basee sur des recherches a partir de sources administratives ou de recensements ou d'enquetes precedentes Des matrices d'imputation standard, (i.e., ayant des dimensions standard, comme l'age et le sexe) peut s'averer efficace comme elles peuvent etre testees et mises en oeuvre rapidement. Pafois il est prevu de conserver plusieurs valeurs par cellule de la matrice d'imputation afin d'eviter d'imputer la meme valeur plusieurs fois, par exemple pour imputer l'age des enfants dans un meme menage

28 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck matrices d'imputation avec trop de dimensions ne sont pas mises a jour matrices d'imputation trop petites (avec trop peu de dimensions) peuvent conduire a reprendre le meme donneur Certaines variables comme la profession et l'activite economique sont difficiles a imputer dynamiquement; parfois il est preferable de laisser a non indique

29 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation : Principes Generaux imputer le minimum de variables les enregistrements imputes doivent satisfaire tous les controles Toutes les valeurs imputees doivent etre identifiees et la methode et la sources d'imputation indiquees Les valeurs brutes et imputees doivent etre stockees pour permettre une evaluation du degre et des effets de l'imputation

30 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Compteurs d'anomalie et d'imputation Important de generer des compteurs de controles comptant les cas d'anomalies et de redressement Des compteurs de plusieurs types: nombre de cas de chaque type d'erreur taux de non-reponse pour chaque variable taux d'imputation pour chaque variable les drapeaux d'Imputation (flags) sont des variables binaires qui indiquent si la valeur de la variable a ete imputee ou non Meme si le flags prennent de la place dans le fichier, ils apportent une information essentielle, de revoir les seuils d'imputation ulterieurement...

31 Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 MERCI!


Télécharger ppt "Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données."

Présentations similaires


Annonces Google