La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Evaluation de la qualité des documents anciens

Présentations similaires


Présentation au sujet: "Evaluation de la qualité des documents anciens"— Transcription de la présentation:

1 Evaluation de la qualité des documents anciens
Vincent Rabeux LaBRI

2 Plan Cas d’utilisations et besoins clients.
Les outils pour répondre aux besoins. La qualité des documents La transparence Modélisation Identification des pixels par recalage Mesure de la transparence Prédiction de l’OCR Travaux actuels

3 Cas d’utilisation et besoins clients

4 Classification de document
Factures Carte identité Roman

5 Indexation des documents
Recherche Base de données Images Métadonnées

6 Les outils pour répondre aux besoins

7 Les outils Descripteurs images Mise en page du document Texte
Structure logique (Table des matières, Chapitres, Sections) => OCR (Optical Character Recognition) Extraction de la mise en page Bloc de texte, image, formule mathématique, .. Transcription du texte

8 Problèmes des OCRs Liés au document : Liés à l’image : Fontes
Complexité de la mise en page Liés à l’image : Défauts de l’image Binarisation

9 La qualité des documents

10 Les défauts des documents anciens

11 Algorithmes de restauration
Problème : - Les temps de calculs Solution : - Détecter les images bruitées.

12 Evaluation de la qualité
L’objectif est de répondre à la question : Quel sera le taux d’erreur d’un algorithme (OCR) sur une image donnée ?

13 La transparence Modélisation

14 Transparence

15 Transparence (Modélisation par la lumière)

16 Transparence (Modélisation par diffusion)

17 Identification des pixels par recalage
La transparence Identification des pixels par recalage

18 Recalage Recto-Verso

19 Recalage Recto-Verso

20 Recalage Recto-Verso

21 Recalage Recto-Verso

22 Recalage Recto-Verso Problème : Méthodes existantes :
Le recto et le verso ne sont pas scanné en même temps. Pas le même repère. Méthodes existantes : Temps de calcul très important. Échoue quand la transparence est faible. Nouvel algorithme : Rapide Précis Averti l’utilisateur, en cas d’échec.

23 Recalage Recto-Verso

24 Recalage Recto-Verso Profils

25 Recalage Recto-Verso Recalage des profils Horizontaux et Verticaux
Utilisation d’un « dynamic time warping » Rotation : Redressement Décalage x et y : DTW.

26 Recalage Recto-Verso Erreur résultante après DTW.
Garantir la précision : 500 images 50 sans transparence Seuil à 0.19

27 Recalage Recto-Verso Résultats : 50 fois plus rapide (12s vs 598s)
Erreur max de l’état de l’art Rotation : 18 Translation horizontal : 38 Translation vertical : 39 Erreur max de notre algorithme Rotation : 0.25 Translation horizontal : 1 Translation vertical : 11

28 Identification des pixels de transparence

29 La transparence Mesures

30 Mesure de la transparence
Intensité : Distance à l’encre. Distance au fond.

31 Mesure de la transparence

32 Mesure de la transparence
Composantes ajoutées. Composantes modifiées. A quelle point sont-elle modifiées ?

33 La transparence Prédiction de l’OCR

34 Utilisation des mesures
Prédiction du taux d’erreur de 2 OCRs : Abbyy Fine Reader OCRopus Taux d’erreur calculé grâce à la distance d’édition.

35 Utilisation des mesures
Besoins : Mesurer la transparence et pas les autres défauts, Avoir une vérité terrain pour l’OCR. Génération de documents synthétiques : fonds, fontes, niveau de transparence, mise en page, 200 images de documents générées (90% pour le modèle, 10% pour sa validation).

36 Extrait du corpus de document

37 Précision du modèle statistique
Régression linéaire. Modèle OCROpus : R2 = 0.99, ABBYY : R2 = 0.97, Validation OCROpus : R2 = 0.99, Coefficient : 0.99 ABBYY : R2 = 0.97, Coefficient :

38 Résultats encourageants
Modèle de prédiction très précis. Chacune des mesures a son rôle à jouer. Problèmes : Données synthétiques. Beaucoup d’autres défauts. Besoin d’une vérité terrain des défauts.

39 Travaux actuels

40 Travaux actuels Création d’une plateforme collaborative de création de vérité terrain: Orienté qualité (défauts) 3 niveaux de vérité terrain : Synthétique. Utilisateur. Expert. Accessible par web services.

41 Documents Synthétiques

42 Niveau utilisateur

43 Niveau expert

44 Perspectives Finir la base d’images annotées.
Développer des mesures pour les autres défauts : Taches Déformations des caractères Prédiction de la qualité d’un document perçu par un être humain.

45 Merci !


Télécharger ppt "Evaluation de la qualité des documents anciens"

Présentations similaires


Annonces Google