Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCornélie Delattre Modifié depuis plus de 11 années
1
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Controle-correction des donn é es: Introduction
2
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Objectifs de la session le correction-controle (editing) est la proc é dure pour d é tecter et corriger des erreurs dans les donn ées l'Imputation est la proc é dure qui consiste à assigner des valeurs à des données manquantes ou incohérentes l'objectif de la session est de pr é senter une vue d'ensemble des concepts et d é finitions, et d'en discuter l'application et les probl è mes
3
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Plan Types d'erreurs dans le processus de recensement Objectifs de la phase de controle-correction Comment et pourquoi corriger? exemples illustratifs Principes du controle-correction : comment mettre en oeuvre Types de controles Micro-controle vs Macro-controle Controle manuel vs automatique Impact du mode de saisie Risques du sur-controle-correction Autres considerations
4
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Types d'erreurs dans le processus de recensement Erreurs de couverture cartes des ZR Incompletes/imprecises enumeration Incomplete de toutes les unites doubles comptes Omission de personnes ne desirant pas etre recensees traitement errone des visiteurs ou des etrangers non-residents (speciallement en relation avec la methode de jure versus de facto) perte ou destruction d'enregistements apres enumeration ……
5
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Types d'erreurs dans le processus de recensement Erreurs de contenu Erreurs dans le questionnaire Erreurs de l'agent recenseur Erreurs des repondants Erreurs de codage Erreurs de saisie Erreurs dans les programmes de controle- correction Erreurs de tabulation
6
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Types d'erreurs dans le processus de recensement Deux types d'erreurs pendant l'exploitation : Celles qui bloquent la suite de l'exploitation Celles qui produisent des resultats invalides/ incoherents sans interrompre la suite de l'exploitation TOUTES les erreurs du premier type doivent etre corrigees et le plus possible d'erreurs du second type
7
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Objectifs des controles- corrections Objectifs (Granquist, 1984) Nettoyer les donnees pour faciliter l'analyse (creation du fichier complet) Identifier les types et les sources d'erreurs (pour l'analyse de la qualite des donnees) Ameliorer la qualite des donnees du recensement (pour l'actuel et lle futur) Important non seulement de detecter les erreurs mais aussi d'identifier les causes, afin de prendre les mesures correctives appropriees et ameliorer la qualite globale
8
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Comment corriger (redresser)? TABLEAU 1: Population par age et sexe, brut et corrige Donnees brutes Donneescorrigees Age groupTotalHommesFemmesSexe non declareTotalHommesFemmes Total4,1472,0332,09123 4,1472,0432,104 Moins de 15 ans1,63979982515 1,646809837 15 a 29 ans1,2566126431 1,260614646 30 a 44 ans7273563692 729358371 45 a 59 ans3601941660 362195167 60 a 74 ans11654593 1165561 75 ans et plus3412220 341222 Age Non declare15672
9
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Comment corriger (redresser)? TABLEAU 1: Population par age et sexe, brut et corrige Comment gerer les donnees non declarees? Distribuer les ages et sexes non declares dans les memes proportions que pour les valeurs correspondantes connues Par exemple, pour 23 sexe inconnus, distribuer (2033/4147)*23 = 12 en masculin (et les 11 restant en feminin par soustraction); Similairement, distribuer 15 ages inconnus dans les 6 groupes d'age en proportion des valeurs connues Cette methode peut donner des resultats biaises si le nombre de non-reponses est eleve et si la distribution des repondants et des non-repondants sont tres differentes Une strategie amelioree serait d'utiliser des distributions multivariees impliquant d'autres variables comme le relations entre membres du menage
10
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Pourquoi corriger? TABLEAU 2: Population par age avec valeurs non-declarees pour 2000 et 2010 Groupe d'ageNombres Pourcentages 2010200020102000 Total4,1473,319100 Moins de 15 ans1,6391,34839.540.6 15 a 29 ans1,25690230.327.2 30 a 44 ans72753817.516.2 45 a 59 ans3602008.76 60 a 74 ans116892.82.7 75 ans and over34250.8 Age Non declare152170.46.5
11
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Pourquoi corriger? TABLES 2 and 3: Population par age avec/sans ND pour 2000 et 2010 Un autre probleme est que les non-declares peuvent affecter l'analyse de tendances Dans le tableau 2, si les ND ne sont ps pris en compte, le pourcentage de personnes agees de 15-29 ans apparait en augmentation de 27.2% en 2000 a 30.3% en 2010 Redistribuer les ND peut changer cette evolution Dans le tableau 3, apres distribution de ND, il y seulement une augmentation de 28.7% en 2000 a 29.3% en 2010
12
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 TABLEAU 3: Population par age sans ND pour 2000 et 2010 Groupes d'ageNombresPourcentages 2010200020102000 Total4,1473,319100 Moins de 15 ans1,7431,4084242.4 15 a 29 ans1,21795229.328.7 30 a 44 ans69557816.817.4 45 a 59 ans3412308.26.9 60 a 74 ans1141092.73.3 75 ans ou plus37420.91.3
13
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Principes du controle-correction En general, le systeme de correction- controle doit etre: Minimaliste (ne changer que les erreurs evidentes et aussi peu que possible) Automatise (autant que possible, pour la detection et la correction) Systematique Coherent avec les autres enquetes de l'ONS En accord avec les standards internationaux de l'ONU ou d'autres organisations
14
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Types de controles Types de controles: Certains : identifient les erreurs avec certitude Douteux: identifient des erreur potentielles Les controles certains identifient les erreurs fatales, qui comprennent les entrees invalides ou manquantes de meme que les erreurs liees a des incoherences Les controles douteux identifient les valeurs hors de fourchettes subjectives, ou qui semblent trop elevees ou trop basses comparees avec d'autres donnees du meme questionnaire Les erreur fatales doivent etre resolues mais les erreurs douteuses sont plus difficiles a corriger, apportent moins de gains en qualite et compliquent le processus Pour les erreurs douteuses, des specialistes du domaine doivent investiguer les controles developpes pour le recensement pilote et ceux developpes pendant l'exploitation pour s'assurer de leur efficacite et efficience (ex., examiner les compteurs de redressement)
15
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Micro-controles vs Macro-controles Micro-controles : consistent a s'assurer de la validite et de la coherence de chaque enregristrement individuel et des relations entre les enregistrements d'un meme menage Macro-controles: portent sur des donnees agregees pour s'assurer de la vraisemblance globale Exemple, si les resultats du recensement montrent un fort pourcentage de personnes sans age declare, imputer les ages au niveau individuel produira un fichier de donnees complet MAIS il est encore plus important de s'assurer au niveau maro que l'imputation n'a pas biaise la distribution par age
16
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Impact du mode de saisie Types de mode de saisie typiquement utilises: manuel (dactylo), OMR, OCR/ICR, PDA, Internet Pour la saisie manuelle, PDA, Internet: quelque detection et correction d'erreurs limitees peuvent etre effectuees en temps reel Pas possible pour OMR ou OCR/ICR ; limite au controle batch apres coup
17
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 controle manuel vs automatique controles manuels peuvent etre faits a differentes etapes du processus – agent recenseur, superviseur, codeur, operateur de saisie, etc Inconvenients : couteux en ressources humaines et en temps faisable seulement si le fichier de donnees est petit controles automatiques reduisent le temps necessaire, limite l'introduction d'erreurs humaines, et sont reproductibles Au contraire de l'imputation manuelle, les controles automatiques permettent d'imputer les reponses sur la base d'autres informations du questionnaire ou selon d'autres enregistrements de la base de donnees
18
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Risques du sur-controle- correction Allonge les delais Accroit les couts Distortion potentielle de vraies valeurs Faux sentiment de securite
19
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Autres Considerations Determination de seuils de tolerance pour la detection d'erreurs il y a toujours un petit pourcentage de repondants qui ne donnent pas de reponses acceptables Toutes les incoherences ou erreurs ne sont pas susceptibles de fausser les resultats et ne doivent pas necessairement etre corrigees Il peut etre utile de faire un premier passage pour mesurer l'ampleur de certaines erreurs avant de decider d'une action corrective Important de faire intervenir dans la decision des specialistes du sujet Pour des variables de base comme l'age et le sexe, les taux de non reponse sont typiquement bas (1%-2%) tandis que pour des variables comme la literacie ou le handicap, les taux sont plus eleves (5%-10%) Dans certains cas, il peut etre necessaire de revenir aux enquetes, soit sur le terrain soit par telephone lecons du processus de controle-corrections Des iterations peuvent etre utiles pour ameliorer la qualite du recensement actuel et de futurs enquetes ou recensement Compteurs d'occurence, traces de controles-corrections, mesures de performance sont utiles pour le diagnostique
20
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 Autres considerations Cout de la phase de correction-controle Couts n'ont pas vraiment diminue au cours des 20 derniere annees, meme si les processus ont pu etre rationalises par une exploitation continue des evolutions technologiques En general, cette phase prend une part trop grande du temps d'exploitation relativement aux autres activites Peut peser sur les delais de diffusion des resultats du recensement Archivage Les deux fichiers : brut et redresse doivent etre archives pour analyses futures Documentation doit comprendre tous les elements pour pouvoir reconstruire le meme processes ulterieurement
21
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données - Bamako, Mali, 3- 7 novembre 2008 MERCI !
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.