Saisie optique des données :

Slides:



Advertisements
Présentations similaires
Accueil du public Déficient visuel. Quel est sa déficience visuelle ? Quelles solutions techniques ? - Quel est son niveau en informatique ? - Quelles.
Advertisements

Comment généraliser la dématérialisation dans les cabinets ?
La démarche de projet La réalisation de A à Z d’un objet technique 1
Algorithmes et structures de données avancées Partie Conception de Sites Web dynamiques Cours 8 Patrick Reuter.
UNIVERSITE DE TECHNOLOGIE COMPIEGNE
La gestion électronique des documents
Le developpement web  Préparé par : ASSAL Lamiae JAMALI Zakarya
Atelier régional des Nations Unies sur lévaluation des recensements et les enquêtes post censitaires, Tunis, décembre 2009 Appariement Pres. 7.
RISCD Vue densemble des principaux changements Alain GAUGRIS Division de statistique des Nations unies Atelier régional pour les pays africains.
“PDA”/Ordinateurs de poche/Internet pour la collecte des données de recensement Atelier régional des Nations Unies sur le traitement des données du recensement :
Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako,
Saisie des données de recensement: vue d’ensemble
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
Observatoire économique et statistique d’Afrique Subsaharienne
Atelier régional des Nations Unies sur le traitement des données de recensement: les technologies modernes pour la saisie et la correction des données.
- L'expérience de Madagascar -
Atelier Recensement UNSD Jour 2 – Session 7 Optical Mark Reading (OMR) Michael Smethurst: Regional Manager, International, DRS DRS est le spécialiste mondial.
Atelier de recensement UNSD Jour 3 - Session 10 Saisie de Données: Stades du Processus Michael Smethurst: Regional Manager, International, DRS DRS est.
Atelier régional des Nations Unies sur le traitement des données du recensement (3-7 novembre 2008, Bamako/Mali) BAKAYOKO Massoma, Démographe à lInstitut.
Atelier régional des Nations Unies sur CensusInfo, Bamako, Mali, 30 Novembre-4 Décembre 2009 Le projet CensusInfo dans le contexte du Programme mondial.
Atelier de Recensement UNSD
Proposition de projet I4, ESIEE, Novembre 2012
Principe de défilement du document dans un traitement de texte
Brive mai 2008 APPORT DU NUMERIQUE DANS LA SAISIE DES RAPPORTS D'EXPERTISE.
Ordinateur et système d’exploitation
Fait par votre animateur Loïc Mercier1 Pour tous renseignement écrire Tel TELECHARGER DES FICHIERS.
La technologie au collège et le B2i
Vue générale de Sharpdesk
L'information et ses concepts associés
Se poser de bonnes questions quant à lutilisation des PowerPoints Prof. B. Mérenne Faculté des Sciences 19 novembre Prof. B. Mérenne CDS
Par: Madison et Quinten
Evaluation de la qualité des documents anciens
La BAD et la BERD Afrique du Nord et Conférence Régionale SEMED sur les Marchés Publics Avril 2013, Marrakech, Maroc Loi type de la CNUDCI: les nouveaux.
© Nuance Communications, Inc. Tous droits réservés. Page 1 OmniPage Ultimate mai 2013.
La numérisation de documents.
2/11/2005 Utilisation des TIC en maternelle dans le REP de Noyon Utilisation des TIC en maternelle- REP de Noyon - 17/11/2005.
Module 2 : Préparation de l'analyse des performances du serveur
Les feuilles de sécurité sociale
Jonathan Montois Cyrille Kriegel
Les feuilles de style CSS
La veille numérique : un outil pour s'informer intelligemment &
Design du site Les sondages Les formulaires Le mailing
Les aides technologiques René Bélanger et Sylvie Desrosiers Décembre 2011 Commission scolaire de la Rivière-du-Nord.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Internet WEB.
Présenté par : Jabli Mohamed Amine Brahim Raddaoui
Management des Systèmes d’Information (MSI)
CHAPITRE IV MÉTHODES DE COLLECTE ET DE TRAITEMENT DES DONNÉES
Yonel GRUSSON1 Installation d'une imprimante sous Windows 200x Server.
Images Matrice de points (pixels) Caractérisée par : Poids en octets
Algorithmes Branch & Bound
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
LA RECHERCHE DOCUMENTAIRE
Formalisation de la politique qualité
L’ergonomie des IHM : pourquoi, comment ?
Méthodes et techniques
Management de la qualité
Reconnaissance de chiffres manuscrits
I Je manipule les fichiers 1) Un fichier est identifié par un nom, une extension, une date de création ou de modification, et sa taille en octet. Windows.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Html et css.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
L’information commerciale, ressource stratégique.
DreamWeaver Séance 2 HMIDA Ahmed A2008. Plan 1.Calques 2.CSS 3.Modèles 4.Formulaires 5.Comportements 6.Mise en ligne.
PRESENTATION DU PROJET SHINE – OXFAM MALI AU CLUSTER SECURITE ALIMENTAIRE BAMAKO 25 JUIN, 2015 Présenté par: Ir. Cheikhou DIAGANA Emergency Food Security.
Dreamweaver 2 Feuilles de Style CSS Formulaires Calques Comportements
TECHNOLOGIE – Avril 2008 Projet de programme 4 e : Thème : Confort et domotique Equipement intérieur Equipement extérieur Electroménager Vidéo, photo Son.
BTS AGPME, journée académique de formation du 12 janvier 2009 M. DESSERTENNE Présentation d’une situation de formation Animanutrix 2 Gérer les documents.
Application Xerox ® Mobile Link Exemples d'utilisation.
Transcription de la présentation:

Saisie optique des données : Reconnaissance optique de caractères (OCR) Reconnaissance intelligente de caractères (ICR) Reconnaissance intelligente (IR) Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Sommaire: Concepts/Définitions Conception des formulaires Scanners & Logiciels Stockage Précision OCR/ICR: Avantages et Inconvénients Reconnaissance Intelligente (IR) Fournisseurs commerciaux Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Définition de l’OCR Le procedé OCR fournit aux systèmes d'imagerie et de numérisation la capacité de transformer les images de caractères imprimés à la machine en caractères lisibles par la machine. Images des caractères imprimés à la machine sont extraites du « bitmap » de l’image scannée La reconnaissance optique de caractères (ROC) désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte. Elle réalise beaucoup moins que l'être humain qui, lui, exécute, en plus de la reconnaissance, la compréhension du message, sa mémorisation, voire son analyse critique dans un seul temps. Un ordinateur réclame pour l'exécution de cette tâche un logiciel de reconnaissance optique de caractères, ROC ou OCR (abréviation du terme anglais optical character recognition), Celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou du moins, sur un support sûr et exploitable par un système informatique. Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Définition de l’ICR Le procedé ICR fournit aux systèmes d'imagerie et de numérisation la capacité de transformer les images de caractères écrits à la main en caractères lisibles par la machine. Images des caractères écrits à la main sont extraites du « bitmap » de l’image scannée La reconnaissance intelligent de caractères connue sous l'acronyme ICR est une technologie proche de l'OCR (reconnaissance optique de caractères). Il s'agit à partir d'une image issue par exemple de la numérisation d'une page via un scanner, d'extraire le contenu textuel. Cependant, par rapport à l'OCR, l'ICR ajoute la technologie de reconnaissance de caractères manuscrits et intègre également un mécanisme d'apprentissage de nouveaux caractères qui permet au moteur d'ICR d'améliorer les performances lors des reconnaissances qui suivent. Autrement dit, si un caractère manuscrit qui représente un caractère "A" est identifié difficilement, il sera possible d'apprendre au moteur ICR qu'il s'agit d'un "A". Lorsque de nouveau une matrice représentant potentiellement un "A" se présentera, le système utilisera sa base de caractères enrichie par apprentissage pour en déduire que la matrice correspond au caractère "A". L'ICR est également associé à des règles permettant au moteur de prendre des décisions en cas de doute. Les technologies d'ICR sont utilisées dans des solutions de LAD. Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Différences entre OCR et ICR L’OCR est moins précis que l’OMR, mais plus précis que l’ICR L’ICR exige la correction pour atteindre un niveau élevé de confiance semblable à celui de l’OCR Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Formulaires OCR/ICR La conception du formulaire OCR/ICR est moins stricte par comparison à l’OMR: Pas de repères de piste, mais des marques d’enegistrement L’image peut flotter sur la page L’ICR exige que les cases cochées à la main soient remplis par un seul caractère alphanumérique par case Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Formulaires OCR/ICR (suite) Le recours à des couleurs invisibles réduit la taille du produit de sortie du scanner et améliore la précision la technologie ICR / OCR fait souvent appel à des marques de calage sur les quatre coins d'un document pour la reconnaissance d'une image Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

OCR/ICR: Scanners et logiciel Les formulaires peuvent être numérisés par le biais d'un scanner et puis le moteur de reconnaissance OCR / ICR interprète les images et transforme les images de caractères manuscrits ou imprimés en données ASCII (caractères lisibles à la machine) Les utilisateurs peuvent numériser sans faire de l'OCR Gamme de vitesses: 85-160 feuilles / min (selon le moteur de reconnaissance) Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

OCR/ICR: Caractéristiques du stockage Stockage/ récupération Les images sont scannées, stockées et conservées par voie électronique Il n'est pas nécessaire de stocker les formulaires papier aussi longtemps que sont sauvegardés les fichiers électroniques Avec OCR / ICR technologies, les images peuvent être scannées, indexées et stockées sur supports optiques Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Seuil de précision idéal pour OCR/ICR Précision atteinte par la saisie au clavier des données par des agents (~ 99,5%) est environ égal à OCR / ICR en parfait réglage (~ 99,5%) Elle peut atteindre jusqu’a 99.9% de précision avec correction (comme pour l’OMR) Le moteur de reconnaissance doit être réglé, testé et validé très soigneusement Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

OCR/ICR: Avantages Les moteurs de reconnaissance utilisés avec la technique d'imagerie peut saisir des ensembles de données hautement spécialisés OCR/ICR reconnaît les caractères imprimés à la machine ou écrits à la main La numérisation et la reconnaissance permettent une gestion efficace et une meilleure planification pour le reste de la charge de travail Récupération rapide pour la correction et le redressement Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

OCR/ICR: Inconvénients Technologie coûteuse Peut exiger une intervention manuelle Charge de travail supplémentaire pour les collecteurs de données-l’ICR a de sérieuses limites quand il s'agit de l’écriture humaine Les caractères doivent être écrits à la main/imprimés à la machine, séparement dans les cases Inefficace lorsqu'il s'agit de caractères cursifs Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Comparaison: OMR-OCR/ICR Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

OCR/ICR: Problèmes/Défis A des problèmes similaires avec ceux de l’OMR Développement d'algorithmes laborieux (préparation de la mémoire du dictionnaire) Délai de traitement à considérer en raison du moteur de reconnaissance Coût de développement onéreux Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Reconnaissance intelligente (IR) Etat de l'art de la technologie de reconnaissance: Donne la numérisation et les systèmes d'imagerie la capacité de transformer les images de caractères cursifs écrits à la main en caractères lisibles par la machine Les images de caractères cursifs écrits à la main sont extraites d'un fichier bitmap de l'image numérisée La capacité de saisie des caractèrers cursifs fait que cette méthode soit unique Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Quelques concepts de l’IR Huit éléments composent les trajectoires de toutes les lettres cursives (fig. 1) Exemple (fig. 2) Photo: Parascript LLC Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Concepts (suite) Reconnaissance intelligente utilise le contexte de facon dynamique Le contexte est utilisé pendant le processus de reconnaissance, amélioriant la précision des résultats Le contexte contribue à identifier les lettres où le symbole de segmentation d'une image est ambiguë Photo: Parascript LLC Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Evolution de la technologie FORM TYPES TEXT STYLES No special form design No constraining boxes or combs Condensed strings Cursive Dirty & Noisy forms Bad quality paper Legacy Forms Bad quality machine print Unconstrained Handprint Specially designed for automatic recognition Constrained Handprint Constraining boxes or combs Drop out ink for preprinted text & boxes Machine Print Intelligent Recognition OCR ICR TECHNOLOGY EVOLUTION Illustration: Conference on Technology Options for 2011 Census Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Fournisseurs commerciaux majeurs Top Image Systems (TIS) (http://www.topimagesystems.com) ReadSoft (http://www.readsoft.com) Teleform (http://www.intelliscan.com/TeleForm1.htm) Scanner Suppliers Fujitsu, Canon, Bell & Howell, Kodak - - FUJITSU, constructeur japonais et leader mondial, s'appuie sur plus de 20 années d'expérience dans la Recherche et le Développement. FUJITSU est reconnu pour être un fabricant précurseur et novateur dans le domaine des scanners de documents et se positionne avec des prix très compétitifs. Les scanners FUJITSU sont dotés d'une grande fiabilité, de nombreuses fonctionnalités et possèdent une très bonne ergonomie. - CANON est un fabricant japonais qui, fort de son expérience, a développé une gamme de scanners de bureau professionnels, compacts et polyvalents, pour numériser des lots de documents hétérogènes avec des vitesses de 10 à 128 pages/minutes. Les scanners CANON sont reconnus sur le marché pour leur qualité d'image, leur fiabilité, leur facilité d'utilisation et leur ergonomie. Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008

Merci! Atelier régional des Nations Unies sur le traitement des données du recensement : les technologies modernes pour la saisie et correction des données Bamako, Mali, 3-7 Novembre 2008