La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI.

Présentations similaires


Présentation au sujet: "Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI."— Transcription de la présentation:

1 Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

2 Plan Cas dutilisations et besoins clients. Les outils pour répondre aux besoins. La qualité des documents La transparence – Modélisation – Identification des pixels par recalage – Mesure de la transparence – Prédiction de lOCR Travaux actuels

3 Cas dutilisation et besoins clients

4 Classification de document Factures Carte identité Roman

5 Indexation des documents Base de données -Images -Métadonnées Recherche

6 Les outils pour répondre aux besoins

7 Les outils Descripteurs images Mise en page du document Texte Structure logique (Table des matières, Chapitres, Sections) => OCR (Optical Character Recognition) – Extraction de la mise en page – Bloc de texte, image, formule mathématique,.. – Transcription du texte

8 Problèmes des OCRs Liés au document : – Fontes – Complexité de la mise en page Liés à limage : – Défauts de limage – Binarisation

9 La qualité des documents

10 Les défauts des documents anciens

11 Algorithmes de restauration Problème : - Les temps de calculs Solution : - Détecter les images bruitées.

12 Evaluation de la qualité Lobjectif est de répondre à la question : – Quel sera le taux derreur dun algorithme (OCR) sur une image donnée ?

13 La transparence Modélisation

14 Transparence

15 Transparence (Modélisation par la lumière)

16 Transparence (Modélisation par diffusion)

17 La transparence Identification des pixels par recalage

18 Recalage Recto-Verso

19

20

21

22 Problème : – Le recto et le verso ne sont pas scanné en même temps. – Pas le même repère. Méthodes existantes : – Temps de calcul très important. – Échoue quand la transparence est faible. Nouvel algorithme : – Rapide – Précis – Averti lutilisateur, en cas déchec.

23 Recalage Recto-Verso

24 Profils

25 Recalage Recto-Verso Recalage des profils Horizontaux et Verticaux Utilisation dun « dynamic time warping » Rotation : Redressement Décalage x et y : DTW.

26 Recalage Recto-Verso Erreur résultante après DTW. Garantir la précision : – 500 images – 50 sans transparence – Seuil à 0.19

27 Recalage Recto-Verso Résultats : – 50 fois plus rapide (12s vs 598s) – Erreur max de létat de lart Rotation : 18 Translation horizontal : 38 Translation vertical : 39 – Erreur max de notre algorithme Rotation : 0.25 Translation horizontal : 1 Translation vertical : 11

28 Identification des pixels de transparence

29 La transparence Mesures

30 Mesure de la transparence Intensité : – Distance à lencre. – Distance au fond.

31 Mesure de la transparence

32 Composantes ajoutées. Composantes modifiées. A quelle point sont-elle modifiées ?

33 La transparence Prédiction de lOCR

34 Utilisation des mesures Prédiction du taux derreur de 2 OCRs : – Abbyy Fine Reader – OCRopus Taux derreur calculé grâce à la distance dédition.

35 Utilisation des mesures Besoins : – Mesurer la transparence et pas les autres défauts, – Avoir une vérité terrain pour lOCR. Génération de documents synthétiques : – fonds, – fontes, – niveau de transparence, – mise en page, 200 images de documents générées (90% pour le modèle, 10% pour sa validation).

36 Extrait du corpus de document

37 Précision du modèle statistique Régression linéaire. Modèle – OCROpus : R 2 = 0.99, – ABBYY : R 2 = 0.97, Validation – OCROpus : R 2 = 0.99, Coefficient : 0.99 – ABBYY : R 2 = 0.97, Coefficient :

38 Résultats encourageants Modèle de prédiction très précis. Chacune des mesures a son rôle à jouer. Problèmes : – Données synthétiques. – Beaucoup dautres défauts. – Besoin dune vérité terrain des défauts.

39 Travaux actuels

40 Création dune plateforme collaborative de création de vérité terrain: – Orienté qualité (défauts) – 3 niveaux de vérité terrain : Synthétique. Utilisateur. Expert. Accessible par web services.

41 Documents Synthétiques

42 Niveau utilisateur

43 Niveau expert

44 Perspectives Finir la base dimages annotées. Développer des mesures pour les autres défauts : – Taches – Déformations des caractères Prédiction de la qualité dun document perçu par un être humain.

45 Merci !


Télécharger ppt "Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI."

Présentations similaires


Annonces Google