Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI
Plan Cas d’utilisations et besoins clients. Les outils pour répondre aux besoins. La qualité des documents La transparence Modélisation Identification des pixels par recalage Mesure de la transparence Prédiction de l’OCR Travaux actuels
Cas d’utilisation et besoins clients
Classification de document Factures Carte identité Roman
Indexation des documents Recherche Base de données Images Métadonnées
Les outils pour répondre aux besoins
Les outils Descripteurs images Mise en page du document Texte Structure logique (Table des matières, Chapitres, Sections) => OCR (Optical Character Recognition) Extraction de la mise en page Bloc de texte, image, formule mathématique, .. Transcription du texte
Problèmes des OCRs Liés au document : Liés à l’image : Fontes Complexité de la mise en page Liés à l’image : Défauts de l’image Binarisation
La qualité des documents
Les défauts des documents anciens
Algorithmes de restauration Problème : - Les temps de calculs Solution : - Détecter les images bruitées.
Evaluation de la qualité L’objectif est de répondre à la question : Quel sera le taux d’erreur d’un algorithme (OCR) sur une image donnée ?
La transparence Modélisation
Transparence
Transparence (Modélisation par la lumière)
Transparence (Modélisation par diffusion)
Identification des pixels par recalage La transparence Identification des pixels par recalage
Recalage Recto-Verso
Recalage Recto-Verso
Recalage Recto-Verso
Recalage Recto-Verso
Recalage Recto-Verso Problème : Méthodes existantes : Le recto et le verso ne sont pas scanné en même temps. Pas le même repère. Méthodes existantes : Temps de calcul très important. Échoue quand la transparence est faible. Nouvel algorithme : Rapide Précis Averti l’utilisateur, en cas d’échec.
Recalage Recto-Verso
Recalage Recto-Verso Profils
Recalage Recto-Verso Recalage des profils Horizontaux et Verticaux Utilisation d’un « dynamic time warping » Rotation : Redressement Décalage x et y : DTW.
Recalage Recto-Verso Erreur résultante après DTW. Garantir la précision : 500 images 50 sans transparence Seuil à 0.19
Recalage Recto-Verso Résultats : 50 fois plus rapide (12s vs 598s) Erreur max de l’état de l’art Rotation : 18 Translation horizontal : 38 Translation vertical : 39 Erreur max de notre algorithme Rotation : 0.25 Translation horizontal : 1 Translation vertical : 11
Identification des pixels de transparence
La transparence Mesures
Mesure de la transparence Intensité : Distance à l’encre. Distance au fond.
Mesure de la transparence
Mesure de la transparence Composantes ajoutées. Composantes modifiées. A quelle point sont-elle modifiées ?
La transparence Prédiction de l’OCR
Utilisation des mesures Prédiction du taux d’erreur de 2 OCRs : Abbyy Fine Reader OCRopus Taux d’erreur calculé grâce à la distance d’édition.
Utilisation des mesures Besoins : Mesurer la transparence et pas les autres défauts, Avoir une vérité terrain pour l’OCR. Génération de documents synthétiques : fonds, fontes, niveau de transparence, mise en page, 200 images de documents générées (90% pour le modèle, 10% pour sa validation).
Extrait du corpus de document
Précision du modèle statistique Régression linéaire. Modèle OCROpus : R2 = 0.99, ABBYY : R2 = 0.97, Validation OCROpus : R2 = 0.99, Coefficient : 0.99 ABBYY : R2 = 0.97, Coefficient : 1.006.
Résultats encourageants Modèle de prédiction très précis. Chacune des mesures a son rôle à jouer. Problèmes : Données synthétiques. Beaucoup d’autres défauts. Besoin d’une vérité terrain des défauts.
Travaux actuels
Travaux actuels Création d’une plateforme collaborative de création de vérité terrain: Orienté qualité (défauts) 3 niveaux de vérité terrain : Synthétique. Utilisateur. Expert. Accessible par web services.
Documents Synthétiques
Niveau utilisateur
Niveau expert
Perspectives Finir la base d’images annotées. Développer des mesures pour les autres défauts : Taches Déformations des caractères Prédiction de la qualité d’un document perçu par un être humain.
Merci !