Evaluation de la qualité des documents anciens

Slides:



Advertisements
Présentations similaires
Reconstitution de l’état d’un micro drone par fusion de données
Advertisements

Démarches de modélisation
Une approche informationnelle de la restauration d’images
Construire une communauté avec SharePoint Server 2007 Blogs, Wikis, et flux RSS.
GEF 435 Principes des systèmes d’exploitation
Diagram-Based Techniques
Application de réseaux bayésiens à la détection de fumées polluantes
A Pyramid Approach to Subpixel Registration Based on Intensity
Image Registration methods : a survey
Piecewise Affine Registration of Biological Images
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Proposition de projet I4, ESIEE, Novembre 2012
Analyse et traitement de données de grande taille en imagerie médicale Cybèle Ciofolo-Veit Philips Research Paris - Medisys Conférence Mathématiques.
Identification des personnes par l’iris
Sélection automatique d’index et de vues matérialisées
SPIGAO Trouvez Chiffrez Répondez Le groupe EDISYS La solution SPIGAO
Le portail personnel pour les professionnels du chiffre
Décomposition des manuscrits anciens en traits Construction des codes book basée sur la coloration de graphes Hani DAHER – LIRIS Veronique EGLIN-LIRIS.
Vue générale de Sharpdesk
Application des algorithmes génétiques
Restauration des Images de Documents Anciens A
Chapitre 6 : Restauration d’images
Classification Multi Source En Intégrant La Texture
Éclairage Structuré et vision active pour le contrôle qualité de surfaces métalliques réfléchissantes Olivier Morel*, Ralph Seulin, Christophe Stolz, Patrick.
Réalisateur : PHAM TRONG TÔN Tuteur : Dr. NGUYEN DINH THUC
Approche statistique semi-paramétrique du recalage iconique d’images
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Outils « bureautique » 1. Traitement de texte 2. Tableur.
Google, un moteur de recherche comme les autres ?
Les instruments d’optique
Documents approved. Comment le mettre en vert Sur libertagia, pour que Documents status passent au vert, il faudra scanner : - pour justifier votre nom.
Transformation linéaires
Définir des caractéristiques chercher de linformation? sur un support électronique? Élaborer un cadre théorique pour comprendre les enjeux et proposer.
Etude de la normalité du maxillo- facial à partir dimages 3D CT.
IGL301 - Spécification et vérification des exgiences 1 Chapitre 2 Le processus dingénierie des exigences (ref : Bray chapitre 2)
Mémoire expérimental PARTIE I: (quelques chapitres) PARTIE II:
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
Le forage de données ou data mining
FVS Système de vision globale pour robots footballeurs Projet de fin détudes Par Félix Duchesneau.
Page 1 / Titre / Auteur / Date / Confidentiel D? LA DEMARCHE COLLEGES METIER.
Chapitre 2 Les ondes mécaniques
Etude activation sociale Groupe de travail activation 8/2/11.
Reconnaissance d’empreintes digitales
Reconnaissance d’empreintes digitales
Serrure biométrique Reconnaissance dempreintes digitales Raphaël FROMONT – Pascal GRIMAUD – Nicolas MUNOZ Tuteur : M. Patrick ISOARDI.
Projet de Master première année 2007 / 2008
Caractérisation inverse de sources pour l'interaction du champ électromagnétique avec l'environnement Azeddine GATI Y. ADANE, M.F. Wong, J. Wiart, V. Fouad.
Coarse to Fine : Vers un système d’acquisition intelligent
UFD 62. EC2 : cours n° 3 Gestion Electronique des Documents Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche KIWI – LORIA
Présenté par : Jabli Mohamed Amine Brahim Raddaoui
Lancement de Microsoft Word
Chapitre 4C Mécanique Cinématique du solide
Images Matrice de points (pixels) Caractérisée par : Poids en octets
Bien présenter des documents longs…
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Laboratoire PSI – FT-R&D Delalandre Mathieu 3 septembre 2001
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
EXPLOITATION DES IMAGES
Knowledge discovery in Databases (KDD)
Plateforme Opérationnelle pour le Livre Numérique
Problématique de SIG/D2S2 dans les SSTA Le(s) système(s) d’information dans les SSTA Omniprésent(s) Transparent(s) pour l’utilisateur Multi-utilisateurs.
Suivi d’Horizons Sismiques
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Partie II : Segmentation
Présentation Projet 24 H BIARDEAU Mickael CHERREAU François FI2 AII Contrôle de la cuisson d'une crème alimentaire 1.
Structure (Plan) d’un mémoire
Formation.
Simulation numérique d’un procédé de mise en forme par faible contact d’une virole acier J. Raujol-Veillé, F. Toussaint, L. Tabourot, M. Vautrot, P. Balland.
François Léonard Modélisation de la distribution multidimensionnelle des erreurs : Les nuages de données bruitées sont creux Février 2016.
Transcription de la présentation:

Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Plan Cas d’utilisations et besoins clients. Les outils pour répondre aux besoins. La qualité des documents La transparence Modélisation Identification des pixels par recalage Mesure de la transparence Prédiction de l’OCR Travaux actuels

Cas d’utilisation et besoins clients

Classification de document Factures Carte identité Roman

Indexation des documents Recherche Base de données Images Métadonnées

Les outils pour répondre aux besoins

Les outils Descripteurs images Mise en page du document Texte Structure logique (Table des matières, Chapitres, Sections) => OCR (Optical Character Recognition) Extraction de la mise en page Bloc de texte, image, formule mathématique, .. Transcription du texte

Problèmes des OCRs Liés au document : Liés à l’image : Fontes Complexité de la mise en page Liés à l’image : Défauts de l’image Binarisation

La qualité des documents

Les défauts des documents anciens

Algorithmes de restauration Problème : - Les temps de calculs Solution : - Détecter les images bruitées.

Evaluation de la qualité L’objectif est de répondre à la question : Quel sera le taux d’erreur d’un algorithme (OCR) sur une image donnée ?

La transparence Modélisation

Transparence

Transparence (Modélisation par la lumière)

Transparence (Modélisation par diffusion)

Identification des pixels par recalage La transparence Identification des pixels par recalage

Recalage Recto-Verso

Recalage Recto-Verso

Recalage Recto-Verso

Recalage Recto-Verso

Recalage Recto-Verso Problème : Méthodes existantes : Le recto et le verso ne sont pas scanné en même temps. Pas le même repère. Méthodes existantes : Temps de calcul très important. Échoue quand la transparence est faible. Nouvel algorithme : Rapide Précis Averti l’utilisateur, en cas d’échec.

Recalage Recto-Verso

Recalage Recto-Verso Profils

Recalage Recto-Verso Recalage des profils Horizontaux et Verticaux Utilisation d’un « dynamic time warping » Rotation : Redressement Décalage x et y : DTW.

Recalage Recto-Verso Erreur résultante après DTW. Garantir la précision : 500 images 50 sans transparence Seuil à 0.19

Recalage Recto-Verso Résultats : 50 fois plus rapide (12s vs 598s) Erreur max de l’état de l’art Rotation : 18 Translation horizontal : 38 Translation vertical : 39 Erreur max de notre algorithme Rotation : 0.25 Translation horizontal : 1 Translation vertical : 11

Identification des pixels de transparence

La transparence Mesures

Mesure de la transparence Intensité : Distance à l’encre. Distance au fond.

Mesure de la transparence

Mesure de la transparence Composantes ajoutées. Composantes modifiées. A quelle point sont-elle modifiées ?

La transparence Prédiction de l’OCR

Utilisation des mesures Prédiction du taux d’erreur de 2 OCRs : Abbyy Fine Reader OCRopus Taux d’erreur calculé grâce à la distance d’édition.

Utilisation des mesures Besoins : Mesurer la transparence et pas les autres défauts, Avoir une vérité terrain pour l’OCR. Génération de documents synthétiques : fonds, fontes, niveau de transparence, mise en page, 200 images de documents générées (90% pour le modèle, 10% pour sa validation).

Extrait du corpus de document

Précision du modèle statistique Régression linéaire. Modèle OCROpus : R2 = 0.99, ABBYY : R2 = 0.97, Validation OCROpus : R2 = 0.99, Coefficient : 0.99 ABBYY : R2 = 0.97, Coefficient : 1.006.

Résultats encourageants Modèle de prédiction très précis. Chacune des mesures a son rôle à jouer. Problèmes : Données synthétiques. Beaucoup d’autres défauts. Besoin d’une vérité terrain des défauts.

Travaux actuels

Travaux actuels Création d’une plateforme collaborative de création de vérité terrain: Orienté qualité (défauts) 3 niveaux de vérité terrain : Synthétique. Utilisateur. Expert. Accessible par web services.

Documents Synthétiques

Niveau utilisateur

Niveau expert

Perspectives Finir la base d’images annotées. Développer des mesures pour les autres défauts : Taches Déformations des caractères Prédiction de la qualité d’un document perçu par un être humain.

Merci !