Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.

Slides:



Advertisements
Présentations similaires
Base de sondage et Plan de sondage Pres. 5
Advertisements

Regroupement (clustering)
Introduction aux outils de collecte de données de l'ISU et lignes directrices Atelier régional de renforcement des capacités nationales dans les domaines.
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, décembre 2009 Appariement Pres. 7.
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, décembre 2009 Méthodologies et procédures.
ENQUETE ANNUELLE DENTREPRISES DANS LE SECTEUR DU COMMERCE (EXERCICE 2004) ROYAUME DU MAROC HAUT COMMISSARIAT AU PLAN DIRECTION DE LA STATISTIQUE.
Diffusion des données Atelier régional pour les pays africains sur la mise en oeuvre des Recommandations internationales sur les statistiques du commerce.
RISCD Compilation des SCD dans les pays Africains Thierno Aliou BALDE Division de statistique des Nations unies Atelier régional pour les pays africains.
Atelier sur lanalyse approfondie des migrations à partir des données de recensement: Ouagadougou novembre 2011 Bonayi Hubert DABIRE, UO/ISSP
RISCD Vue densemble des principaux changements Alain GAUGRIS Division de statistique des Nations unies Atelier régional pour les pays africains.
“PDA”/Ordinateurs de poche/Internet pour la collecte des données de recensement Atelier régional des Nations Unies sur le traitement des données du recensement :
Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako,
Saisie des données de recensement: vue d’ensemble
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
Observatoire économique et statistique d’Afrique Subsaharienne
Système d’Information Géographique du Haut-Commissariat au Plan
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
- L'expérience de Madagascar -
Lotfi Hrizi Ingénieur statisticien Atelier régional sur lévaluation des recensements Tunis – Tunisie décembre 2009.
1 U.S. Census Bureau International Programs Center Microcomputer Processing of Census and Surveys (using the Census and Survey Processing.
Traitement des données du Recensement Général de la Population et de l’Habitation de 2006 du Burkina Faso.
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, 7-11 décembre 2009 Résultats du questionnaire.
Atelier régional des Nations Unies sur le traitement des données du recensement (3-7 novembre 2008, Bamako/Mali) Traitement des données du recensement.
POLITIQUES ET PROCEDURES DARCHIVAGE DES DONNEES AU BURUNDI.
Atelier régional des Nations Unies sur le traitement des données du recensement (3-7 novembre 2008, Bamako/Mali) BAKAYOKO Massoma, Démographe à lInstitut.
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, décembre 2009 Ajustement des résultats.
ATELIER REGIONAL DES NATIONS UNIES SUR LEVALUATION DES RECENSEMENTS ET DE ENQUETES POST – CENSITAIRE Tunis, 7-11 décembre 2009 MALI BASE DE SONDAGE, PLAN.
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, 7-11 décembre 2009 Vue densemble des méthodes.
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, décembre 2009 Traitement des données.
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, décembre 2009 Evaluation des erreurs.
Collecte de données F. Kohler.
Du recueil à lexploitation statistique des données.
Etude BVA FNAIM La location meublée à Paris
I. Des droits de nature différente 1) La coexistence de plusieurs droits 2) Tous égaux en droit.
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
Evaluation de la qualité des données sur l’âge et le sexe
Comprendre la variation dans les données: Notions de base
1 Fichier de microdonnées du recensement de Facteurs de changement 2. Scénarios : caractéristiques 3. Contenu analytique : ajouts et/ou pertes.
Théorie de l’échantillonnage (STT-6005)
Contribution de l’Alliance au Niger
Introduction: DEFINITION
Traitement des fichiers flux d’individus (mobilité) de L’INSEE à l’aide du portail SIDDT.
CHAPITRE IV MÉTHODES DE COLLECTE ET DE TRAITEMENT DES DONNÉES
Projet Early Life Présentation de la base de donnée de la population de Genève de 1816 à 1843.
La socialisation L'enfant sauvage F. Truffaut. La socialisation ● Définition ● La socialisation, pourquoi ? ● La socialisation, comment ?
Pretoria, Afrique du Sud, Mars 2014
Des femmes hébergées en institutions sociales :une identité parentale à (ré)inventernnn Nathalie Thiery Education familiale et interventions socio-éducatives.
Lotfi Hrizi Ingénieur statisticien Atelier régional sur l’évaluation des recensements Tunis – Tunisie décembre 2009.
Page 1 Pretoria, Afrique du Sud, Mars 2014 Séminaire régional des Nations Unies sur la Promotion et l'Utilisation des Résultats du Recensement et.
Pauvreté-précarité : concepts et situation en Franche-Comté
DOSSIER G10 – La base de données Relationnelle
Evolution des pratiques d’intervention sociale
CLUB UTILISATEUR TOURINSOMME Jeudi 5 février 2009 Salle de Réunion du CRT Picardie 14h à 17h30.
Exploration et nettoyage des données sur le logiciel STATA
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE DE LA POPULATION ET DES FAMILLES DE NOYAN Direction de santé publique.
Supplément de Loyer Solidarité 2015
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION ET DES FAMILLES DE LA COMMUNAUTÉ.
Thème: Essai d’analyse comportementale du consommateur Algérois par rapport au yaourt et produits similaires. Cas d’étude: Yaourt Soummam Réalisé par.
INTRODUCTIONMÉTHODESRÉSULTATSDISCUSSION D ÉTERMINATION DE L ’ EXPOSITION DE NOUVEAU - NÉS PAR IMPUTATION MULTIPLE DE DONNÉES MANQUANTES DANS UNE.
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
1 Initiation aux bases de données et à la programmation événementielle Cours N°8 : Gestion de la cohérence avec des zones de liste déroulantes. Souheib.
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE PROFIL DÉMOGRAPHIQUE ET SOCIOÉCONOMIQUE DE LA POPULATION ET DES FAMILLES DE SAINT-PATRICE-DE-SHERRINGTON.
Le travail non rémunéré dans une société de l‘information Marian Kika – Maria Uramova Katowice, 2013.
1 Ménages et familles : le recensement et les autres sources de données Laurent Toulemon Le recensement rénové de la population : résultats statistiques.
Jean-Luc LIPATZ INSEE DG Division « Etudes territoriales » Recensement et sources administratives et si on parlait géographie?
Enquête emploi ? Marché de l’emploi l’offre la demande
Remarques preliminaires
Transcription de la présentation:

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controle-correction: Controles de structure et intra-unite statistique

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Partie I: contrôles de structure

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Presentation Partie I: controles de structure Que sont les controles de structure ? Controles de geographie Hierarchie des enregistrements Correspondance entre enregistrements logements et individus Controle des relations au sein du menage Noyau familial

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Que sont les controles de structure ? Controles de structure verifient la couverture et les relations entre differentes unites: personnes, menages, logements, zone de recensement, etc. Plus particulierement, ils verifient que: tous les menages et les institutions collectives presents dans une ZR sont presents dans le fichier et dans l'ordre; tous les logements occupes ont des personnes rattaches, mais que les logement vacants n'ont pas d'enregistrement individuel rattache; les menages ne doivent avoir ni enregistements individuels en double ni manquants; les ZR ne doivent avoir ni enregistrement en double de logement ni enregistrement de logement manquant.

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controles de geographie Chaque ZR doit avoir les bons codes geographiques (commune, province, region...) Chaque logement dans une ZR doit avoir le code de la ZR Le processus de saisie doit controler la geographie Si des erreurs persistent, il faut retrouver les bons code, par exemple en retournant aux documents de collecte

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements 1_ZR 2_Logement 4_Individu 2_Logement (vacant) 3_Collectivite 4_Individu 1_ZR

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Hierarchie des enregistrements Type 1 (ZR) peut etre suivi d'un Type 1 (si la ZR est vide) ou d'un Type 2 (Logement) ou d'un Type 3 (Collectivite) Cas particulier des sans abri: creer un enregistrement logement fictif pour faciliter les controles de structure Type 2 (Logement) suivi par Type 1, 2 or 3 (si vacant) or Type 4 (si occupe) Type 3 (Collectivite) suivi par Type 4 (Individu) Si non occupe, collectivites vides permises? Type 4 (Individu) suivi par Type 4 (autre individu dans le meme logement ou la meme collectivite), ou Type 2 ou 3 (nouveau logement ou collectivite) ou Type 1 (nouvelle ZR)

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Correspondance entre les enregistrement de logements et d'individus Un logement occupe doit avoir au moins une personne et un logement vacant ne doit avoir personne: si Type 2 (logement) & categorie vacant suivi d'un enregistrement e Type 4 (individu) lors changer la categorie en occupe La variable nombre d'occupants recueillie dans le questionnaire logement doit avoir la meme valeur que le nombre d'enregistrement individus rattaches au logement. Si non, changer la valeur Les enregistrements individuels doivent etre numerotes en sequence Type 3 (Collectivite) & categorie (Hopital) suivi par des enregistrement inividuels Type 4 (individu) de categorie maison de retraite alors changer la categorie de la colletivite en consequence

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controler les relations au sein du menage Chaque individu a une relation a la premiere personne : 1ere personne (ou Chef de menage, ou personne de reference) Conjoint (marie ou non) Enfant Pere/mere Autre parent Ami Locataire...

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controler les relations au sein du menage Menage avec incoherences possibles dans les ages

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Noyau familial Pere : le sexe doit etre masculin et l'age > age minimum Mere le sexe doit etre feminin et l'age > age minimum Enfant Age < age maximum ?

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Partie II: controles intra unites statistiques

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Vue d'ensemble Controles de validite et de coherence Approche descendante vs approche multi-variable Exemple de controles multi-variable Methodes de correction et d'imputation Exemple de Hot Deck (Sexe) Exemple de Hot Deck (Sex et Age) Problemes lies au Hot Deck Methodes de correction et d'mputation: principles generaux Compteurs de controle-redressement et marqueurs (flags)

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Controles de validite et de coherence Les controles de validite servent a verifier si les valeurs de variables sont plausibles ou dans une plage acceptable Exemples: 0<=AGE<=110 SEXE= feminin ou SEXE=masculin Les controles de coherence visent a s'assurer de la coherence entre deux variables ou plus Exemples: La personne de reference du menage a AGE>=15 Un enfant doit etre plus jeune que la personne de referene du menage Une personne de AGE<15 ne doit pas etre mariee (depend des pays)

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Approche descendante vs multi- variables Approche descendante commence par controler et corriger les variables les plus prioritaires (pas necessairement les premieres sur le questionnaire) et continue sequentiellement par priorite decroissante Durant le processus de controle-correction, il ne faut pas revenir sur la valeur des variables deja traitees au risque d'introduire des erreurs Exemple: age de l'enfant redresse en premier sur la base de l'age de la mere. Plus tard, l'age de l'enfant re-impute sur la base du nombre d'annees d'ecoles, ce qui peut etre incoherent avec l'age de la mere Dans ce cas, il faudrait redresser l'age de l'enfant en tenant compte des deux Important d'eviter les redressements circulaires!

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Approche descendante vs multi- variables Approche Multi-variables utilise un ensemble de regles qui etablit les relations entre variables Chaque regle elementaire est testee sur les donnees Systeme garde trace des regles non verifiees Evaluation de la facon de redresser l'enregistrement (Quelles variables et comment) afin qu'il satisfasse toutes les regles Principe de Fellegi-Holt de changement minimum peut etre applique

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de controle-correction multi-variable Reference du menage et conjoint ont meme sexe PersonRelationshipSexChildren ever born Unedited data 1Head of householdMale3 2SpouseMaleBLANK Data after editing for sex 1Head of householdFemale3 2SpouseMaleBLANK

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de controle-correction multi-variable Reference du menage et conjoint ont meme sexe No. RuleRelationshipSexAgeMarital statusFertility 1Head of household should be 15 years or older 2Spouse should be 15 years or older 3A spouse should be married 4If spouse present, head of household and spouse should be opposite sex 11 5Person less than 15 years old should be never married 6Male should have no fertility11 7For female 15 years or older fertility entry should not be blank Totals12 1

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation Le processus d'imputation change une reponse (ou non- reponse) ou plus dans un enregistrement pour assurer la coherence interne a l'unite statistique Avant d'utiliser une methode d'imputation methode, la meilleure strategie et de commencer avec une etude manuelle des reponses Deux methodes d'imputation: Cold Deck et Hot Deck (parmi d'autres) Cold Deck: Utilise principalement pour les donnees manquantes (pas pour valeurs invalides/incoherentes) Les valeurs sont imputees sur une base proportionnelle a partir d'une distribution de reponses valides (ex. du prec. rec.)

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation Hot Deck ou imputation dynamique: Utilise aussi bien pour valeurs manquantes que incoherentes Utilise une variable ou plus pour estimer la response possible fondee sur les donnees observees pour des individus avec des caracteristiques similaires La matrice des donneurs (ou matrice d'imputation) change constamment : les imputations change dynamiquement au cours du processus de controle- redressement sur l'ensemble des enregistrements Le hot deck approche la distribution de la base de donneees Attn: si plusieurs variables d'un meme enregistrement sont manquantes, il vaut mieux redresser par le meme donneur

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Menage (Sexe seulement) ID numberRelationshipSexAgeDynamic Imputation Matrix * * Missing Information: 9, 99 Relationship: 1=Head; 2=Spouse; 3=Child; 4=Other Relative; 5=Non-Relative Sex: 1=Male; 2=Female

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1) Female (2) Matrice d'imputation initiale pour l'age basee sur le Sexe et la Relation a la personne de reference du menage

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) ID numberRelationshipSexAge Missing Information: 9, 99 Relationship: 1=Head; 2=Spouse; 3=Child; 4=Other Relative; 5=Non-Relative Sex: 1=Male; 2=Female

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Exemple de Hot Deck pour Age (Sexe et Relation) Matrice d'i mputation initiale Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1) Female (2) Relationship Head of Household (1)Spouse (2)Son/Daughter (3)Other Relative (4)Non-Relative (5) Male (1)39*3513*4044* Female (2)3235*1213*36* Matrice d'imputation apres multiple changements

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck Tenir compte de l'homogeneite des personnes vivant dans la meme zone et dont les enregistrements sont proches dans le fichier Souvent, le plus simple est le meilleur: par exemple, pour une caracteristique de logement manquante, il est souvent preferable de redresser par la valeur observee dans le logement voisin, plutot que d'utiliser une matrice d'imputation complexe Avant de faire des imputations dynamique, il faut utiliser l'information disponible Par exemple, si le statut matrimonial est non declare pour un individu personne de reference et qu'il existe un conjoint marie de la personne de reference, alors on peut redresser par marie ». Autre exemple, langue parlee: utiliser l'information declaree par d'autres membres du menage. Il est recommende de commencer a traiter le sexe et l'age en premier car ces variables sont couramment utilisees dans les matrices d'imputation

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck La construction des matrices d'imputation doit etre basee sur des recherches a partir de sources administratives ou de recensements ou d'enquetes precedentes Des matrices d'imputation standard, (i.e., ayant des dimensions standard, comme l'age et le sexe) peut s'averer efficace comme elles peuvent etre testees et mises en oeuvre rapidement. Pafois il est prevu de conserver plusieurs valeurs par cellule de la matrice d'imputation afin d'eviter d'imputer la meme valeur plusieurs fois, par exemple pour imputer l'age des enfants dans un meme menage

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Problemes lies au Hot Deck matrices d'imputation avec trop de dimensions ne sont pas mises a jour matrices d'imputation trop petites (avec trop peu de dimensions) peuvent conduire a reprendre le meme donneur Certaines variables comme la profession et l'activite economique sont difficiles a imputer dynamiquement; parfois il est preferable de laisser a non indique

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Methodes de correction et d'imputation : Principes Generaux imputer le minimum de variables les enregistrements imputes doivent satisfaire tous les controles Toutes les valeurs imputees doivent etre identifiees et la methode et la sources d'imputation indiquees Les valeurs brutes et imputees doivent etre stockees pour permettre une evaluation du degre et des effets de l'imputation

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 Compteurs d'anomalie et d'imputation Important de generer des compteurs de controles comptant les cas d'anomalies et de redressement Des compteurs de plusieurs types: nombre de cas de chaque type d'erreur taux de non-reponse pour chaque variable taux d'imputation pour chaque variable les drapeaux d'Imputation (flags) sont des variables binaires qui indiquent si la valeur de la variable a ete imputee ou non Meme si le flags prennent de la place dans le fichier, ils apportent une information essentielle, de revoir les seuils d'imputation ulterieurement...

Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3-7 novembre 2008 MERCI!