La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat This presentation illustrate data capture steps from questionnaires.

Présentations similaires


Présentation au sujet: "Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat This presentation illustrate data capture steps from questionnaires."— Transcription de la présentation:

1 Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat
This presentation illustrate data capture steps from questionnaires of large scale surveys. We will present all steps involved in data capture and try to explain during Bouazza HASSAR Chef technique du Centre de Lecture Automatique de Documents 18/05/2008

2 Plan Les étapes du traitement des données
1. Réception des questionnaires 2. préparation des questionnaires 3. Numérisation 4. Traitement des images et OCR 5. Vidéo codage Normal 6. correction Inter documents 7. contrôle de qualité 8. Vidéo codage formules 9. Export data Le recensement général de la population et de l’habitat 2004 1. Test 2. Implémentation 3. Production 18/05/2008

3 1- Réception des questionnaires
La première étape est de recevoir les lots des questionnaires , ce qui génère un numéro d’identification unique pour chaque lot. Chaque lot contient environ 180 questionnaires. Le numéro du lot reçu ainsi que son contenu est associé à un bordereau de réception. Un bordereau de lot de traitement avec un code à barre est généré pour chaque lot. On large scale operations, the processing centre could receive thousands of questionnaires on daily basis. Keeping track of the flow of questionnaires from the reception up to the delivry needs to be computerized. 18/05/2008

4 1- Réception des lots L’opérateur prend une boîte d’archive, il saisit dans l’application le transport d’origine, le type de document et le numéro de district. Il ouvre la boîte pour vérifier le contenu et imprime immédiatement un bordereau de lot de traitement avec un code à barre. Ce bordereau est placé sur la pile de documents du lot. 18/05/2008

5 2- préparation des questionnaires
Les questionnaires composés de plusieurs pages sont massicotés. Les questionnaires composés de papiers A3 ou A4 peuvent être numérisés sans aucune intervention . 18/05/2008

6 Zone de séchage les lots de traitement sont placés dans une salle à atmosphère contrôlée (température et hydrométrie). 18/05/2008

7 Chargement des questionnaires
Il y a 3 zones de stockage : Chacune dispose d’une capacité de un jour. Les lots sont placés dans des bannettes. 18/05/2008

8 Chargement des questionnaires
Les chariots sont utilisés pour organiser le transport des questionnaires à la numérisation. Chaque chariot contient 30 lots d’environ 180 questionnaires chacun . 18/05/2008

9 3- La numérisation Les Lots sont identifiés par leur code à barre.
Les questionnaires sont numérisés avec les scanners Kodak ds Digital Science Scanner 3520 : - 40 à 85 pages par minute selon la résolution, l’orientation et la taille des documents. - Résolution 200 ou 300dpi. - Taille des documents acceptée : min: chèque , max: A3. - Capacité du scanner: 250 18/05/2008

10 IHM de configuration des scanners
18/05/2008

11 Les agents de numérisation
Outil de tackage: Aligne les lots de questionnaires A3 Les agents de numérisation identifient les lots par leurs code à barre. 18/05/2008

12 Scanner Kodak Ds Digital Science Scanner 3520, traite 52 questionnaires A3 par minute. Les agents de numérisation vérifient en temps réel la qualité des images scannées.. 18/05/2008

13 IHM de la numérisation L’IHM de la numérisation permette de vérifier la qualité des images scannées. 18/05/2008

14 4 –Traitement de l’image
Traitement automatique des images (Pour chaque questionnaire A3, 4 images sont produites) Reconnaissance des limites de l’ image Localisation des cellules Reconnaissance Intelligente des Caractères. Quelques images sont rejetées. Dans ce cas, Les agents concernés identifient les ancres de l’image et propose cette dernière à l’ICR. Si le problème persiste, l’image est renumérisée. 18/05/2008

15 Questionnaire des ménages et des logements A3
Ancres aux quatre coins du document Numéro de document 18/05/2008

16 Questionnaire de la population et de l’habitat
Chaque cellule a des coordonnées uniques par rapport aux ancres du document. 18/05/2008

17 Analyse manuelle L’application reconnaît la localisation des champs en se basant sur les ancres du document. Si l’application échoue dans cette opération, un agent exécute cette tâche via une interface dédiée. 18/05/2008

18 OCR A2iA FieldReader combine OCR, ICR, IWR pour la reconnaissance des données écrites / imprimées dans des documents structurés. Entrée: images de formats : tiff G4, bmp, Jpeg or Jpeg 2000 avec 200 DPI comme résolution minimale Sortie: Données associées à des taux de confiance 18/05/2008

19 Questionnaire de la population et de l’habitat
Les contours des cellules ne sont pas autorisés (Pour éliminer les bruits). Lors de la numérisation, le contraste est ajusté de manière à ce que les couleurs aveugles (i.e. bleu claire) des contours disparaissent de l’image. 18/05/2008

20 Les images scannées Les images scannées sont en noir et blanc.
Les champs à reconnaître sont complètement blanches sauf l’écriture qui apparaît en noir. 18/05/2008

21 Reconnaissance Optique des Caractères
La machine OCR reconnaît les caractères avec un taux de confiance donné. Ensuite, elle applique les tests de cohérences. Les cellules reconnues avec un faible taux de confiance sont présentées pour vérification par un opérateur de vidéo codage. 18/05/2008

22 5. Vidéo codage Normal (VCN)
L’opérateur de VCN, valide/corrige les propositions de l’OCR. Deux taux de confiance sont utilisés: - 95% pour les cellules non associées aux tests logiques - 85% pour les cellules associées aux tests logiques. Choisir 95 % comme taux de confiance pour l’ensemble des cellules augmente le nombre des cellules à passer par le VCN et par conséquent la coût de l’opération. 18/05/2008

23 L’IHM de VCN OCR suggère la valeur 8 alors que la vrai valeur est 2.
OCR propose 8 L’image montre 2 OCR suggère la valeur 8 alors que la vrai valeur est 2. 18/05/2008

24 L’IHM de VCN L’opérateur de VCN corrige la valeur 18/05/2008

25 VCN Codification des réponses ouvertes écrites en Arabe.
Questions sur la profession, L’activité économique, les diplômes, la migration. Les codes sont proposés par les opérateurs (professionnel dans le domaine) à travers une interface dédiée. Il utilisent les information sur les images des questionnaires ainsi que les dictionnaires intégrés. Les opérateurs ont l’option de visualiser d’autres variables de l’observation en cours de traitement. 18/05/2008

26 L’ IHM du VCN Pas de proposition de l’OCR 18/05/2008

27 L’ IHM du VCN L’opérateur de VCN cherche dans les dictionnaires (activité, diplôme..) en utilisant des mots clés et par la suite il valide la réponse choisie. 18/05/2008

28 Salle de Vidéo codage 18/05/2008

29 6. Contrôle et correction Inter documents (CID)
Se fait pour vérifier la coordination statistique entre l’ensemble des documents d’un même lot. 18/05/2008

30 7. Contrôle Qualité (CQ) Le CQ permet de produire des données avec des taux d’erreurs minimes contrôlés. Cette étape suit celle de la reconnaissance optique et du VCN. La norme Afnor NFX de October 1991, qui est en accord avec la norme internationale ISO , est appliquée. Pour les cellules remplies, Le seuil de qualité acceptable est 0.52% . 18/05/2008

31 La norme Afnor NFX06-022 de October 1991
Selon la norme Afnor (Niveau de contrôle II): pour les lots de à observations, 315 obs. sont triées en modes normal et renforcé. 18/05/2008

32 Contrôle Qualité avec la norme Afnor
La production est arrêtée. Le problème est investigué. Si 5 lots successifs sont rejetés Mode normal : - Contrôle 315 observations/lot - Rejette le lot si 5 erreurs existent Si 2 de 5 lots successifs sont rejetés Mode renforcé: - Rejette le lot si 3 erreurs existent Si 5 lots successifs sont acceptés Si 10 lots successifs sont acceptés Mode réduit: - Contrôle 125 observations/lot - Rejette le lot si 4 erreurs existent Si un lot est rejeté 18/05/2008

33 IHM de Contrôle Qualité (CQ)
L’opérateur de CQ vérifie que les valeurs du fichier de données sont identiques à celles des images. Valeur de l’image: 1 Valeur dans le fichier de données: 1 18/05/2008

34 Zone de stockage Les Questionnaires Sont stockés dans le centre de traitement jusqu’à ce qu’ils passent par l’étape du CQ. 18/05/2008

35 8- Vidéo codage de Formule (VCF)
Permet aux opérateurs qualifiés de corriger ce genre d’erreurs. L’IHM du Script des formules de cohérence . Les programmeurs expriment les règles de cohérences en utilisant un langage spécifique. 18/05/2008

36 IHM du Vidéo codage de formule
Exemple d’une erreur de logique: Alors que le logement est déclaré vide, le type de propriété est déclaré comme propriétaire. L’opérateur corrige cette inconsistance. Erreurs logiques 18/05/2008

37 9- Export Data La dernière étape du traitement des questionnaires est l’export des données vers des fichiers texte et l’export des images des documents traités. Le tout est gravé sur des DVDs et livré à l’exploitation statistique pour validation. 18/05/2008

38 Le fichier d’Export Data
Les données sont exportées vers un fichier texte, elles peuvent être exploitées ultérieurement via CSPro/IMPS… Record type 18/05/2008

39 Surveillance de l’espace disque
A ce stade, les images sont supprimées des serveurs afin de libérer l’espace pour les images qui viennent. 18/05/2008

40 IHM des statistiques Ce module offre les statistiques détaillés le long des différentes étapes de la production agrégés par traitement / date... 18/05/2008

41 Traitement du RGPH 2004 du MAROC
Objectif: Capture des données depuis les questionnaires en une courte période de temps. Le choix des stratégies : Capture manuelle des données (utilisée dans les recensements précédents) Reconnaissance optique des caractères (nouvelle technologie utilisée dans les pays développés). Partenariat avec le secteur privé pour développer une solution spécifique utilisant l’ OCR. 18/05/2008

42 Phase d’implémentation – 2 mois Phase de production– 18 mois
3 Phases Phase de test – 3 mois Phase d’implémentation – 2 mois Phase de production– 18 mois 18/05/2008

43 Phase de test Afin d’identifier les méthodes d’organisation à adopter et les ressources à mobiliser . L’objectif secondaire était de comparer les deux scénarios: OCR et saisie manuelle par clavier. 18/05/2008

44 Phase d’implémentation
Création d’un Centre de Lecture Automatique des documents Installation des équipements matériels et logiciels nécessaires (110 PCs, 5 scanners and 5 serveurs)… Recours à des ressources humaines adéquates (240 personnes: 50% était employé temporairement). 18/05/2008

45 Centre de Lecture Automatique des Documents
18/05/2008

46 Zone de Numérisation Scanners OCR Chariots à traiter Chariots traités
Stockage des Questionnaires non encore scannés Stockage des questionnaires scannés Réception 18/05/2008

47 Salles de Vidéo codage 18/05/2008

48 L’architecture logique du matériel installé selon 4 grappes et une grappe centrale
La production est organisée en 4 différentes grappes. Cette séparation réduit les risques des pannes et ruptures de toutes les grappes. 18/05/2008

49 R. hum R. Mat & Log 5 serveurs 297 125 PCs
Ressources humaine, matérielle et logicielle utilisées pour la capture des données des questionnaires du RGPH 2004 Etapes du traitement R. hum R. Mat & Log 1. Réception des questionnaires 3 3 PCs 2. Préparation des Questionnaires 20 Massico, 16 chariots 3. Numérisation 18 5 scanners (1 spare) 4. Traitement des images et OCR 4 16 PCs, 12 OCR dongles 5. VCN 120 60 PCs 6. Contrôle Inter-documents 8 16 PCs 7. CQ 24 12 PCs 8. VCF 32 9. Export Data 2 2 PCs R. Partagées (superviseurs) 5 serveurs Total 297 125 PCs 18/05/2008

50 Phase de production 3 périodes:
1- Questionnaires de la population urbaine et rurale traités en 1 mois. 2- (seulement les chiffres) traités en 6 mois. 3- Questionnaires A4 de la population et de l’habitat (chiffres et lettres arabes) traités en 12 mois. Cette séparation permet la diffusion les résultats obtenus aprés chaque étape. 18/05/2008

51 Questionnaires du RGPH 2004, types, volumes et le temps alloué pour la capture des données
Volumes: # des Questionnaires Type Champs /quest. Type des champs Temps* Population urbaine et rurale 38 000 A4 (21 pages R/V) 3051 Chiffres arabes 1 mois Population et Habitat A3 R/V 248 6 mois A4 R/V 12 54 Lettres arabes 12 mois Population comptée à part 12 500 260 1 jour Population nomade 40 000 245 2 jour Total pages A4 t0+ 19 mois *2 groupes par jour: de 7:30 am à 1:15 pm et de 1:30 pm à 7:30 pm 18/05/2008

52 Production mensuelle des questionnaires A3 de la Population et Habitat
Dec05 Jan05 Fev05 Mar05 Avr05 Mai05 Total Jours travaillés 23 20 19 10 115 Numérisation VCN CID CQ VCF Export Data en DVD 18/05/2008

53 Planning de la capture des données des questionnaires A3 de la Population et Habitat
Dec05 Jan05 Fev05 Mar05 Avr05 Mai05 Total Jours travaillés 23 20 19 17 150 Objectif (# districts) 3 393 7 191 7168 7619 7115 6635 37 323 Réalisé (# districts) 1 370 7 287 7 192 7626 7213 Pourcentage (%) 40% 101% 100% 18/05/2008

54 Production en Graphe, Décembre 2004
18/05/2008

55 Employés du mois Chef de grappe technique Mr. Majid MRANI
Chef de grappe fonctionnel Mlle. Zohra KARIM Réception M. Rachid BOUDERSA Numérisation Mme Meryem BENMOUSSA Mr. Abdelaziz EL FAKIR Numérisation Mme Saida MEKTOUM Mr. Ali AGOUZOUL CQ Mlle. Hanane ELHAIRECH VCN M. Naima TAOUFIK CID Mr. Mohamed AYAT VCF M. Driss ELKEDDARI 18/05/2008

56 Employé du mois 18/05/2008

57 Equipe du traitement des données– Mai 2005
18/05/2008

58 Merci   18/05/2008


Télécharger ppt "Lecture Automatique des Documents: Recensement Général de la Population et de l’habitat This presentation illustrate data capture steps from questionnaires."

Présentations similaires


Annonces Google