La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Www.hcp.ma 18/05/2008 1 Lecture Automatique des Documents: Recensement Général de la Population et de lhabitat Bouazza HASSAR Chef technique du Centre.

Présentations similaires


Présentation au sujet: "Www.hcp.ma 18/05/2008 1 Lecture Automatique des Documents: Recensement Général de la Population et de lhabitat Bouazza HASSAR Chef technique du Centre."— Transcription de la présentation:

1 18/05/ Lecture Automatique des Documents: Recensement Général de la Population et de lhabitat Bouazza HASSAR Chef technique du Centre de Lecture Automatique de Documents

2 18/05/ Plan Les étapes du traitement des données 1. Réception des questionnaires 2. préparation des questionnaires 3. Numérisation 4. Traitement des images et OCR 5. Vidéo codage Normal 6. correction Inter documents 7. contrôle de qualité 8. Vidéo codage formules 9. Export data Le recensement général de la population et de lhabitat Test 2. Implémentation 3. Production

3 18/05/ Réception des questionnaires La première étape est de recevoir les lots des questionnaires, ce qui génère un numéro didentification unique pour chaque lot. Chaque lot contient environ 180 questionnaires. Le numéro du lot reçu ainsi que son contenu est associé à un bordereau de réception. Un bordereau de lot de traitement avec un code à barre est généré pour chaque lot.

4 18/05/ Réception des lots Lopérateur prend une boîte darchive, il saisit dans lapplication le transport dorigine, le type de document et le numéro de district. Il ouvre la boîte pour vérifier le contenu et imprime immédiatement un bordereau de lot de traitement avec un code à barre. Ce bordereau est placé sur la pile de documents du lot.

5 18/05/ préparation des questionnaires Les questionnaires composés de plusieurs pages sont massicotés. Les questionnaires composés de papiers A3 ou A4 peuvent être numérisés sans aucune intervention.

6 18/05/ Zone de séchage les lots de traitement sont placés dans une salle à atmosphère contrôlée (température et hydrométrie).

7 18/05/ Il y a 3 zones de stockage : Chacune dispose dune capacité de un jour. Les lots sont placés dans des bannettes. Chargement des questionnaires

8 18/05/ Les chariots sont utilisés pour organiser le transport des questionnaires à la numérisation. Chaque chariot contient 30 lots denviron 180 questionnaires chacun. Chargement des questionnaires

9 18/05/ La numérisation Les Lots sont identifiés par leur code à barre. Les questionnaires sont numérisés avec les scanners Kodak ds Digital Science Scanner 3520 : - 40 à 85 pages par minute selon la résolution, lorientation et la taille des documents. - Résolution 200 ou 300dpi. - Taille des documents acceptée : min: chèque, max: A3. - Capacité du scanner: 250

10 18/05/ IHM de configuration des scanners

11 18/05/ Les agents de numérisation identifient les lots par leurs code à barre. Outil de tackage: Aligne les lots de questionnaires A3 Les agents de numérisation

12 18/05/ Kodak Ds Digital Science Scanner 3520, traite 52 questionnaires A3 par minute. Les agents de numérisation vérifient en temps réel la qualité des images scannées.. Scanner

13 18/05/ IHM de la numérisation LIHM de la numérisation permette de vérifier la qualité des images scannées.

14 18/05/ –Traitement de limage Traitement automatique des images (Pour chaque questionnaire A3, 4 images sont produites) Reconnaissance des limites de l image Localisation des cellules Reconnaissance Intelligente des Caractères. Quelques images sont rejetées. Dans ce cas, Les agents concernés identifient les ancres de limage et propose cette dernière à lICR. Si le problème persiste, limage est renumérisée.

15 18/05/ Questionnaire des ménages et des logements A3 Numéro de document Ancres aux quatre coins du document

16 18/05/ Questionnaire de la population et de lhabitat Chaque cellule a des coordonnées uniques par rapport aux ancres du document.

17 18/05/ Analyse manuelle Lapplication reconnaît la localisation des champs en se basant sur les ancres du document. Si lapplication échoue dans cette opération, un agent exécute cette tâche via une interface dédiée.

18 18/05/ OCR A2iA FieldReader combine OCR, ICR, IWR pour la reconnaissance des données écrites / imprimées dans des documents structurés. Entrée: images de formats : tiff G4, bmp, Jpeg or Jpeg 2000 avec 200 DPI comme résolution minimale Sortie: Données associées à des taux de confiance

19 18/05/ Questionnaire de la population et de lhabitat Les contours des cellules ne sont pas autorisés (Pour éliminer les bruits). Lors de la numérisation, le contraste est ajusté de manière à ce que les couleurs aveugles (i.e. bleu claire) des contours disparaissent de limage.

20 18/05/ Les images scannées Les images scannées sont en noir et blanc. Les champs à reconnaître sont complètement blanches sauf lécriture qui apparaît en noir.

21 18/05/ Reconnaissance Optique des Caractères La machine OCR reconnaît les caractères avec un taux de confiance donné. Ensuite, elle applique les tests de cohérences. Les cellules reconnues avec un faible taux de confiance sont présentées pour vérification par un opérateur de vidéo codage.

22 18/05/ Vidéo codage Normal (VCN) Lopérateur de VCN, valide/corrige les propositions de lOCR. Deux taux de confiance sont utilisés: - 95% pour les cellules non associées aux tests logiques - 85% pour les cellules associées aux tests logiques. Choisir 95 % comme taux de confiance pour lensemble des cellules augmente le nombre des cellules à passer par le VCN et par conséquent la coût de lopération.

23 18/05/ LIHM de VCN OCR suggère la valeur 8 alors que la vrai valeur est 2. OCR propose 8 Limage montre 2

24 18/05/ LIHM de VCN Lopérateur de VCN corrige la valeur

25 18/05/ VCN Codification des réponses ouvertes écrites en Arabe. Questions sur la profession, Lactivité économique, les diplômes, la migration. Les codes sont proposés par les opérateurs (professionnel dans le domaine) à travers une interface dédiée. Il utilisent les information sur les images des questionnaires ainsi que les dictionnaires intégrés. Les opérateurs ont loption de visualiser dautres variables de lobservation en cours de traitement.

26 18/05/ L IHM du VCN Pas de proposition de lOCR

27 18/05/ L IHM du VCN Lopérateur de VCN cherche dans les dictionnaires (activité, diplôme..) en utilisant des mots clés et par la suite il valide la réponse choisie.

28 18/05/ Salle de Vidéo codage

29 18/05/ Contrôle et correction Inter documents (CID) Se fait pour vérifier la coordination statistique entre lensemble des documents dun même lot.

30 18/05/ Contrôle Qualité (CQ) Le CQ permet de produire des données avec des taux derreurs minimes contrôlés. Cette étape suit celle de la reconnaissance optique et du VCN. La norme Afnor NFX de October 1991, qui est en accord avec la norme internationale ISO , est appliquée. Pour les cellules remplies, Le seuil de qualité acceptable est 0.52%.

31 18/05/ La norme Afnor NFX de October 1991 Selon la norme Afnor (Niveau de contrôle II): pour les lots de à observations, 315 obs. sont triées en modes normal et renforcé.

32 18/05/ Contrôle Qualité avec la norme Afnor La production est arrêtée. Le problème est investigué. Si 5 lots successifs sont rejetés Mode normal : - Contrôle 315 observations/lot - Rejette le lot si 5 erreurs existent Si 2 de 5 lots successifs sont rejetés Mode renforcé: - Contrôle 315 observations/lot - Rejette le lot si 3 erreurs existent Si 5 lots success ifs sont accept és Si 10 lots successifs sont acceptés Mode réduit: - Contrôle 125 observations/lot - Rejette le lot si 4 erreurs existent Si un lot est rejeté

33 18/05/ IHM de Contrôle Qualité (CQ) Valeur de limage: 1 Valeur dans le fichier de données: 1 Lopérateur de CQ vérifie que les valeurs du fichier de données sont identiques à celles des images.

34 18/05/ Zone de stockage Les Questionnaires Sont stockés dans le centre de traitement jusquà ce quils passent par létape du CQ.

35 18/05/ Vidéo codage de Formule (VCF) Permet aux opérateurs qualifiés de corriger ce genre derreurs. LIHM du Script des formules de cohérence. Les programmeurs expriment les règles de cohérences en utilisant un langage spécifique.

36 18/05/ IHM du Vidéo codage de formule Exemple dune erreur de logique: Alors que le logement est déclaré vide, le type de propriété est déclaré comme propriétaire. Lopérateur corrige cette inconsistance. Erreurs logiques

37 18/05/ Export Data La dernière étape du traitement des questionnaires est lexport des données vers des fichiers texte et lexport des images des documents traités. Le tout est gravé sur des DVDs et livré à lexploitation statistique pour validation.

38 18/05/ Le fichier dExport Data Les données sont exportées vers un fichier texte, elles peuvent être exploitées ultérieurement via CSPro/IMPS… Record type

39 18/05/ Surveillance de lespace disque A ce stade, les images sont supprimées des serveurs afin de libérer lespace pour les images qui viennent.

40 18/05/ IHM des statistiques Ce module offre les statistiques détaillés le long des différentes étapes de la production agrégés par traitement / date...

41 18/05/ Traitement du RGPH 2004 du MAROC Objectif: Capture des données depuis les questionnaires en une courte période de temps. Le choix des stratégies : Capture manuelle des données (utilisée dans les recensements précédents) Reconnaissance optique des caractères (nouvelle technologie utilisée dans les pays développés). Partenariat avec le secteur privé pour développer une solution spécifique utilisant l OCR.

42 18/05/ Phases Phase de test – 3 mois Phase dimplémentation – 2 mois Phase de production– 18 mois

43 18/05/ Phase de test Afin didentifier les méthodes dorganisation à adopter et les ressources à mobiliser. Lobjectif secondaire était de comparer les deux scénarios: OCR et saisie manuelle par clavier.

44 18/05/ Phase dimplémentation Création dun Centre de Lecture Automatique des documents Installation des équipements matériels et logiciels nécessaires (110 PCs, 5 scanners and 5 serveurs)… Recours à des ressources humaines adéquates (240 personnes: 50% était employé temporairement).

45 18/05/ Centre de Lecture Automatique des Documents

46 18/05/ Zone de Numérisation Réception Stockage des Questionnaires non encore scannés Chariots à traiter Scanners Chariots traités OCR Stockage des questionnaires scannés

47 18/05/ Salles de Vidéo codage

48 18/05/ Larchitecture logique du matériel installé selon 4 grappes et une grappe centrale La production est organisée en 4 différentes grappes. Cette séparation réduit les risques des pannes et ruptures de toutes les grappes.

49 18/05/ Ressources humaine, matérielle et logicielle utilisées pour la capture des données des questionnaires du RGPH 2004 Etapes du traitementR. hum R. Mat & Log 1. Réception des questionnaires 33 PCs 2. Préparation des Questionnaires 20Massico, 16 chariots 3. Numérisation 18 5 scanners (1 spare) 4. Traitement des images et OCR 4 16 PCs, 12 OCR dongles 5. VCN PCs 6. Contrôle Inter-documents 816 PCs 7. CQ 2412 PCs 8. VCF 3216 PCs 9. Export Data 22 PCs R. Partagées (superviseurs) 20 5 serveurs Total PCs

50 18/05/ Phase de production 3 périodes: 1- Questionnaires de la population urbaine et rurale traités en 1 mois. 2- (seulement les chiffres) traités en 6 mois. 3- Questionnaires A4 de la population et de lhabitat (chiffres et lettres arabes) traités en 12 mois. Cette séparation permet la diffusion les résultats obtenus aprés chaque étape.

51 18/05/ Questionnaires du RGPH 2004, types, volumes et le temps alloué pour la capture des données QuestionnaireVolumes: # des Questionnaires Type Champs /quest. Type des champs Temps* Population urbaine et rurale A4 ( 21 pages R/V) 3051Chiffres arabes1 mois Population et Habitat A3 R/V 248Chiffres arabes6 mois A4 R/V Chiffres arabes Lettres arabes 12 mois Population comptée à part A3 R/V 260Chiffres arabes1 jour Population nomade40 000A3 R/V 245Chiffres arabes1 jour A4 R/V Chiffres arabes Lettres arabes 2 jour Total pages A4t0+ 19 mois *2 groupes par jour: de 7:30 am à 1:15 pm et de 1:30 pm à 7:30 pm

52 18/05/ Production mensuelle des questionnaires A3 de la Population et Habitat Dec05Jan05Fev05Mar05Avr05Mai05Total Jours travaillés Numérisation VCN CID CQ VCF Export Data en DVD

53 18/05/ Planning de la capture des données des questionnaires A3 de la Population et Habitat Dec05Jan05Fev05Mar05Avr05Mai05Total Jours travaillés Objectif (# districts) Réalisé (# districts) Pourcentage (%)40%101%100% 101%100%

54 18/05/ Production en Graphe, Décembre 2004

55 18/05/ Employés du mois Numérisation Mme Meryem BENMOUSSA Mr. Abdelaziz EL FAKIR VCN M. Naima TAOUFIK VCF M. Driss ELKEDDARI CID Mr. Mohamed AYAT CQ Mlle. Hanane ELHAIRECH Chef de grappe technique Mr. Majid MRANI Chef de grappe fonctionnel Mlle. Zohra KARIM Réception M. Rachid BOUDERSA Numérisation Mme Saida MEKTOUM Mr. Ali AGOUZOUL

56 18/05/ Employé du mois

57 18/05/ Equipe du traitement des données– Mai 2005

58 18/05/ Merci


Télécharger ppt "Www.hcp.ma 18/05/2008 1 Lecture Automatique des Documents: Recensement Général de la Population et de lhabitat Bouazza HASSAR Chef technique du Centre."

Présentations similaires


Annonces Google