Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controle-correction: Controles de structure et intra-unite statistique
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Partie I: contrôles de structure
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Presentation Partie I: controles de structure Que sont les controles de structure ? Controles de geographie Hierarchie des enregistrements Correspondance entre enregistrements logements et individus Controle des relations au sein du menage Noyau familial
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Que sont les controles de structure ? Controles de structure verifient la couverture et les relations entre differentes unites: personnes, menages, logements, zone de recensement, etc. Plus particulierement, ils verifient que: tous les menages et les institutions collectives presents dans une ZR sont presents dans le fichier et dans l'ordre; tous les logements occupes ont des personnes rattaches, mais que les logement vacants n'ont pas d'enregistrement individuel rattache; les menages ne doivent avoir ni enregistements individuels en double ni manquants; les ZR ne doivent avoir ni enregistrement en double de logement ni enregistrement de logement manquant.
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controles de geographie Chaque ZR doit avoir les bons codes geographiques (commune, province, region...) Chaque logement dans une ZR doit avoir le code de la ZR Le processus de saisie doit controler la geographie Si des erreurs persistent, il faut retrouver les bons code, par exemple en retournant aux documents de collecte
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements 1_ZR 2_Logement 4_Individu 2_Logement (vacant) 3_Collectivite 4_Individu 1_ZR
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements Type 1 (ZR) peut etre suivi d'un Type 1 (si la ZR est vide) ou d'un Type 2 (Logement) ou d'un Type 3 (Collectivite) Cas particulier des sans abri: creer un enregistrement logement fictif pour faciliter les controles de structure Type 2 (Logement) suivi par Type 1, 2 or 3 (si vacant) or Type 4 (si occupe) Type 3 (Collectivite) suivi par Type 4 (Individu) Si non occupe, collectivites vides permises? Type 4 (Individu) suivi par Type 4 (autre individu dans le meme logement ou la meme collectivite), ou Type 2 ou 3 (nouveau logement ou collectivite) ou Type 1 (nouvelle ZR)
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Correspondance entre les enregistrement de logements et d'individus Un logement occupe doit avoir au moins une personne et un logement vacant ne doit avoir personne: si Type 2 (logement) & categorie vacant suivi d'un enregistrement e Type 4 (individu) lors changer la categorie en occupe La variable nombre d'occupants recueillie dans le questionnaire logement doit avoir la meme valeur que le nombre d'enregistrement individus rattaches au logement. Si non, changer la valeur Les enregistrements individuels doivent etre numerotes en sequence Type 3 (Collectivite) & categorie (Hopital) suivi par des enregistrement inividuels Type 4 (individu) de categorie maison de retraite alors changer la categorie de la colletivite en consequence
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controler les relations au sein du menage Chaque individu a une relation a la premiere personne : 1ere personne (ou Chef de menage, ou personne de reference) Conjoint (marie ou non) Enfant Pere/mere Autre parent Ami Locataire...
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controler les relations au sein du menage Menage avec incoherences possibles dans les ages
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Noyau familial Pere : le sexe doit etre masculin et l'age > age minimum Mere le sexe doit etre feminin et l'age > age minimum Enfant Age < age maximum ?
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Partie II: controles intra unites statistiques
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Vue d'ensemble Controles de validite et de coherence Approche descendante vs approche multi-variable Exemple de controles multi-variable Methodes de correction et d'imputation Exemple de Hot Deck (Sexe) Exemple de Hot Deck (Sex et Age) Problemes lies au Hot Deck Methodes de correction et d'mputation: principles generaux Compteurs de controle-redressement et marqueurs (flags)
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controles de validite et de coherence Les controles de validite servent a verifier si les valeurs de variables sont plausibles ou dans une plage acceptable Exemples: 0<=AGE<=110 SEXE= feminin ou SEXE=masculin Les controles de coherence visent a s'assurer de la coherence entre deux variables ou plus Exemples: La personne de reference du menage a AGE>=15 Un enfant doit etre plus jeune que la personne de referene du menage Une personne de AGE<15 ne doit pas etre mariee (depend des pays)
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Approche descendante vs multi- variables Approche descendante commence par controler et corriger les variables les plus prioritaires (pas necessairement les premieres sur le questionnaire) et continue sequentiellement par priorite decroissante Durant le processus de controle-correction, il ne faut pas revenir sur la valeur des variables deja traitees au risque d'introduire des erreurs Exemple: age de l'enfant redresse en premier sur la base de l'age de la mere. Plus tard, l'age de l'enfant re-impute sur la base du nombre d'annees d'ecoles, ce qui peut etre incoherent avec l'age de la mere Dans ce cas, il faudrait redresser l'age de l'enfant en tenant compte des deux Important d'eviter les redressements circulaires!
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Approche descendante vs multi- variables Approche Multi-variables utilise un ensemble de regles qui etablit les relations entre variables Chaque regle elementaire est testee sur les donnees Systeme garde trace des regles non verifiees Evaluation de la facon de redresser l'enregistrement (Quelles variables et comment) afin qu'il satisfasse toutes les regles Principe de Fellegi-Holt de changement minimum peut etre applique
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de controle-correction multi-variable Reference du menage et conjoint ont meme sexe PersonRelationshipSexChildren ever born Unedited data 1Head of householdMale3 2SpouseMaleBLANK Data after editing for sex 1Head of householdFemale3 2SpouseMaleBLANK
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de controle-correction multi-variable Reference du menage et conjoint ont meme sexe No. RuleRelationshipSexAgeMarital statusFertility 1Head of household should be 15 years or older 2Spouse should be 15 years or older 3A spouse should be married 4If spouse present, head of household and spouse should be opposite sex 11 5Person less than 15 years old should be never married 6Male should have no fertility11 7For female 15 years or older fertility entry should not be blank Totals12 1
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation Le processus d'imputation change une reponse (ou non- reponse) ou plus dans un enregistrement pour assurer la coherence interne a l'unite statistique Avant d'utiliser une methode d'imputation methode, la meilleure strategie et de commencer avec une etude manuelle des reponses Deux methodes d'imputation: Cold Deck et Hot Deck (parmi d'autres) Cold Deck: Utilise principalement pour les donnees manquantes (pas pour valeurs invalides/incoherentes) Les valeurs sont imputees sur une base proportionnelle a partir d'une distribution de reponses valides (ex. du prec. rec.)
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation Hot Deck ou imputation dynamique: Utilise aussi bien pour valeurs manquantes que incoherentes Utilise une variable ou plus pour estimer la response possible fondee sur les donnees observees pour des individus avec des caracteristiques similaires La matrice des donneurs (ou matrice d'imputation) change constamment : les imputations change dynamiquement au cours du processus de controle- redressement sur l'ensemble des enregistrements Le hot deck approche la distribution de la base de donneees Attn: si plusieurs variables d'un meme enregistrement sont manquantes, il vaut mieux redresser par le meme donneur
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Menage (Sexe seulement) ID numberRelationshipSexAgeDynamic Imputation Matrix * * Missing Information: 9, 99 Relationship: 1=Head; 2=Spouse; 3=Child; 4=Other Relative; 5=Non-Relative Sex: 1=Male; 2=Female
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1) Female (2) Matrice d'imputation initiale pour l'age basee sur le Sexe et la Relation a la personne de reference du menage
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) ID numberRelationshipSexAge Missing Information: 9, 99 Relationship: 1=Head; 2=Spouse; 3=Child; 4=Other Relative; 5=Non-Relative Sex: 1=Male; 2=Female
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) Matrice d'i mputation initiale Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1) Female (2) Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1)39*3513*4044* Female (2)3235*1213*36* Matrice d'imputation apres multiple changements
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck Tenir compte de l'homogeneite des personnes vivant dans la meme zone et dont les enregistrements sont proches dans le fichier Souvent, le plus simple est le meilleur: par exemple, pour une caracteristique de logement manquante, il est souvent preferable de redresser par la valeur observee dans le logement voisin, plutot que d'utiliser une matrice d'imputation complexe Avant de faire des imputations dynamique, il faut utiliser l'information disponible Par exemple, si le statut matrimonial est non declare pour un individu personne de reference et qu'il existe un conjoint marie de la personne de reference, alors on peut redresser par marie ». Autre exemple, langue parlee: utiliser l'information declaree par d'autres membres du menage. Il est recommende de commencer a traiter le sexe et l'age en premier car ces variables sont couramment utilisees dans les matrices d'imputation
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck La construction des matrices d'imputation doit etre basee sur des recherches a partir de sources administratives ou de recensements ou d'enquetes precedentes Des matrices d'imputation standard, (i.e., ayant des dimensions standard, comme l'age et le sexe) peut s'averer efficace comme elles peuvent etre testees et mises en oeuvre rapidement. Pafois il est prevu de conserver plusieurs valeurs par cellule de la matrice d'imputation afin d'eviter d'imputer la meme valeur plusieurs fois, par exemple pour imputer l'age des enfants dans un meme menage
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck matrices d'imputation avec trop de dimensions ne sont pas mises a jour matrices d'imputation trop petites (avec trop peu de dimensions) peuvent conduire a reprendre le meme donneur Certaines variables comme la profession et l'activite economique sont difficiles a imputer dynamiquement; parfois il est preferable de laisser a non indique
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation : Principes Generaux imputer le minimum de variables les enregistrements imputes doivent satisfaire tous les controles Toutes les valeurs imputees doivent etre identifiees et la methode et la sources d'imputation indiquees Les valeurs brutes et imputees doivent etre stockees pour permettre une evaluation du degre et des effets de l'imputation
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Compteurs d'anomalie et d'imputation Important de generer des compteurs de controles comptant les cas d'anomalies et de redressement Des compteurs de plusieurs types: nombre de cas de chaque type d'erreur taux de non-reponse pour chaque variable taux d'imputation pour chaque variable les drapeaux d'Imputation (flags) sont des variables binaires qui indiquent si la valeur de la variable a ete imputee ou non Meme si le flags prennent de la place dans le fichier, ils apportent une information essentielle, de revoir les seuils d'imputation ulterieurement...
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 MERCI!