La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine.

Présentations similaires


Présentation au sujet: "Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine."— Transcription de la présentation:

1 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine Mathieu Delalandre et Jean-Marc Ogier L3i, Université de La Rochelle, France

2 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Introduction - Documents patrimoniaux - Indexation de lettrine - Notre problématique

3 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Introduction Documents patrimoniaux (1/2) Documents patrimoniaux  manuscrits, cartes, registres, …  livres anciens imprimés (XV° et XVI° siècle) Bibliothèques numériques, en bref Alciati (1551) Bartolomeo (1534) Alciati (1511) Laurens (1621) - Documents patrimoniaux - Indexation de lettrine - Notre problématique Premiers états de l’art [Lesk’97] Prototypes opérationnels « stockage, restauration » [Kalldremxhiu’00] Numérisation de masse (Google print, Million Book,..) Indexation au coeur [Baird’03] [Nagy ’06] Emergence des bibliothèques numériques [Cleveland’98]

4 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Introduction Documents patrimoniaux (2/2) Quelle proportion ?  46 livres/1385 pages/4755 illustrations 3.4 illustrations/page  Pixels formes [Jounet’05] 63% (texte) 37% (illustrations) mais aussi des bandeaux, portraits, armoiries, fleurons, marques … figure lettrine encadrement Les illustrations - Documents patrimoniaux - Indexation de lettrine - Notre problématique Des lettrines …  4755 illustrations dont 41% de lettrine

5 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Introduction Indexation de lettrine (1/2) - Documents patrimoniaux - Indexation de lettrine - Notre problématique lettre (c)thème (végétal) motif (croix) critère de recherche Base d’images Image requête ExtractionComparaison Index Indexation Recherche Index manuel expression des requêtes interprétation et complexité Texte (#69) Image (??) 9000 ko6 koTaille page A4 Image (300 pp) Texte (police 11) Problématiques de l’indexation de lettrine

6 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Introduction Indexation de lettrine (2/2) - Documents patrimoniaux - Indexation de lettrine - Notre problématique 1 [99-107] 2 [ ] Rang des pattern Fréquence Pareti’05 Uttama’05 Baudrier’05 Bigun’96 Quelques systèmes

7 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Introduction Notre problématique (1/3) Contexte  Projet MAsse de DOnnées issues de la Numérisation du patrimoiNE (MADONNE)  Bibliothèques Virtuelles Humanistes (BVH) du Centre d’Etudes Supérieures de la Renaissance (CESR) Classe 1 Classe2 Classe 3 empreinte (ou estampe) tampon (bois gravé) « taille d'épargne » Vascosan 1555Marnef Documents patrimoniaux - Indexation de lettrine - Notre problématique Application « suivi du bois » imprimerie tampon échange copie

8 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Introduction Notre problématique (2/3) Problématiques d’indexation  Propres aux lettrines (+) pas de variation à l’orientation et à la taille (-) bruit « impression, vieillissement, numérisation » (-) segmentation (offset) (-) richesse graphique - Documents patrimoniaux - Indexation des lettrines - Notre problématique tâche contraste (-) précision  Propres à l’indexation (-) variation nombre de classe « scalability » (-) complexité (taille base) A1

9 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Introduction Notre problématique (3/3) Choix de l’approche Vers l’image [Gesu’99]  Template matching, distance de Hausdorff  non invariantes à l’échelle et l’orientation  complexes  globales (scène) image scalaire approches optimale locale complexe globale Image requête Compression Recalage et Comparaison R1 R2 R3 Sélection Base d’image Adaptée pour bruit, richesse graphique, précision et scalability Non adaptée pour l’offset et la complexité - Documents patrimoniaux - Indexation des lettrines - Notre problématique Vers le scalaire [Loncaric’98]  Hough, Radon, Zernike, Hu, Fourrier, …  invariantes à l’échelle et l’orientation  optimales  locales (caractère ou symbole)

10 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Notre approche Compression Recalage et Comparaison Sélection

11 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Notre approche sélection (1/2) Problèmes de numérisation [Lawrence’00] [Minerva’04]  Origines des problèmes Diversité des prestataires Evolution des matériels et modes de numérisation Erreurs de numérisation Diversité des outils de post-traitement …  Types de problème Technique format, modèle, mode compression Sémantique résolution, qualité compression  QUEID « QUery Engine on Image Database » Fichier Image Fichier Image Fichier Image Fichier Image Fichier Image Fichier Image Fichier Image Fichier Image Fichier Image Fichier Image Fichiers image hétérogènes Fichiers image homogènes GraphiqueParamètre (P) Analyse -Modèle -Format -Résolution -Compression -Taille Sélection -Modèle [C1, C2, … ] -Format [F1, F2, …] -Résolution [C1, C2, … ] -Compression [C1, C2, … ] -Taille [T1-T2] -Noms QUEID Système Base P Sélection Diagnostic Base Expertis e QUEID requête graphique analyse correction Compression Recalage et Comparaison Sélection

12 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Notre approche sélection (2/2) Expérimentations OLDB (Ornamental Letters Database)  diagnostic sans, packbits, Jpeg sans perteCompression ?; de 72 à 450 ppRésolutions Jpeg et TiffFormats gris et couleurModèles MpTaille 2803Fichiers échange d’images, évolution matériel  200 +/- pp et 400 +/- pp post-traitement  NG vers RGB outil visualisation  300 pp vers 72 pp images retaillées  300 pp vers ? erreur numérisation  sans compression évolution protocole  Tiff vers Jpeg  sélection Fichiers2038 Taille279.7 Mp Modèlesgris FormatsJpeg CompressionJpeg sans perte Résolutions250 à 350 Compression Recalage et Comparaison Sélection

13 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Notre approche compression (1/2) Etat de l’art  Compression (fichier vs algorithme) niveau fichier  gain de mémoire niveau algorithme  gain de temps  Travaux antérieurs plage détection contours [Kim’88] code contour morphologie [Vliet’98] composante connexe parcours [Biancardi’96] Représentation Traitement Travaux  Définition plage (run)  Application des plages introduite par [Pavlidis’78] reconnaissance et extraction [Wenyin’98]  Encodage en longueur de plage Compression Recalage et Comparaison Sélection

14 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Notre approche compression (2/2) Compression à base de plages  Taux de compression et compacité Taux de compression Compacité en plage  Types d’encodage image simple mixte Expérimentations OLDB Binarisation seuil fixe (128) Encodage mixte horizontal Compression Recalage et Comparaison Sélection

15 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Recalage  Segmentation (offset)  Histogrammes de projection des pixels formes Notre approche comparaison (1/4) Compression Recalage et Comparaison Sélection  Comparaison d’histogrammes distance pondérée [Brunelli’99] Indexation EncodageHistogrammes Base de lettrine Image requête Recherche Recalage Comparaison Fichier Index Fichier Index Fichier Index Fichier Index Fichier Index

16 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Notre approche comparaison (2/4) Comparaison  Distance pixel à pixel « à partir des plages »  Algorithme Compression Recalage et Comparaison Sélection x2x2 x2x2 x2x2 x1x1 x1x1 x1x1 x2x2 x2x2 x1x1 ligne (y) de l’image 1 ligne (y+d y ) de l’image 2 x accumulateur pointeur tant que x 2  x 1 parcourir image 2 tant que x 1  x 2 parcourir image 1  Temps de comparaison images de la base image requête Expérimentations OLDB  Comparaison par plage et pixel Max Moy Min Temps s Taille k.pixel requêtes Max Moy Min Temps s Taille k.plage requêtes

17 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Notre approche comparaison (3/4) Compression Recalage et Comparaison Sélection En cours …  Bilan Accélération de 7 à 8 Requête ordre de la minute Insuffisant pour le web  Indexation deux niveaux image requête 1 er Niveau 2 e Niveau  Signature à base de plages distribution spatiale des plages formes interpolation et comparaison

18 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Notre approche comparaison (4/4) Compression Recalage et Comparaison Sélection Exemple de résultat requête Même tampon Tampon suivant Requête En cours  Evaluation de performances Problèmes d’étiquetage manuel des bases - Distribution des images  biaise les résultats - Proportion des tampons dupliqués  Noie l’évaluation de la précision - Etude de la « scalability »  impossible - Tailles des bases  difficultés de l’étiquetage Production supervisée de benchmark - choix des classes, du nombre d’échantillon Base IHM Moteur contrôle visualisation recherche Etiquettes étiquetage supervisé Bench1Bench2 production

19 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Conclusions et perspectives

20 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Conclusions et perspectives Conclusions  Indexation de lettrines, application « suivi du bois »  Solution pour les problèmes de numérisation (QUEID)  Méthode rapide de comparaison d’image Accélération de 7 à 8  Illustration de résultats de requête Encourageant Perspectives  Trop complexe pour un moteur web Indexation deux niveaux, signature à base de plages  Evaluation des résultats de recherche Production de benchmark, évaluation de la « scalability » et précision

21 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Bibliographie

22 Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Bibliographie 1. H. Baird. Digital libraries and document image analysis. In International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 2-14, WEB. E. Baudrier. Comparaison d'images binaires reposant sur une mesure locale des dissimilarités Application à la classification. PhD thesis, Université de Reims, A. Biancardi and A. Mérigot. Connected component support for image analysis programs. In International Conference on Pattern Recognition (ICPR), volume 4, pages , J. Bigun, S. Bhattacharjee, and S. Michel. Orientation radiograms for image retrieval: An alternative to segmentation. In International Conference on Pattern Recognition (ICPR), volume 3, pages , R. Brunelli and O. Mich. On the use of histograms for image retrieval. In International Conference on Multimedia Computing and Systems (ICMC), pages , G. Cleveland. Digital libraries: Definitions, issues, and challenges. International Federation of Library Associations and Institutions (IFLA), Universal Dataflow and Telecommunications Core Program (UDT), Occasional Paper 8, V. D. Gesu and V. Starovoitov. Distance based function for image comparison. Pattern Recognition Letters (PRL), 20(2): , N. Journet, R. Mullot, J. Ramel, and V. Eglin. Ancient printed documents indexation: a new approach. In International Conference on Advances in Pattern Recognition (ICAPR), volume 3686 of Lectures Notes in Computer Science (LNCS), pages , E. Kalldrëmxhiu. Les logiciels de numerisation des livres anciens. Technical report, Ecole Nationale Supérieure des Sciences de l'Information et des Bibliothèques (ENSSIB), Villeurbanne, France, S. Kim, J. Lee, and J. Kim. A new chain-coding algorithm for binary images using run-length codes. Computer Graphics and Image Processing (CGIP), 41: , M. Lesk. Practical Digital Libraries: Books, Bytes, Bucks. Morgan Kaufmann Editor, S. Loncaric. A survey of shape analysis techniques. Pattern Recognition (PR), 31(8): , G. Nagy and D. Lopresti. Interactive document processing and digital libraries. In Worshop on Document Image Analysis for Libraries (DIAL), pages 2-11, R. Pareti and N. Vincent. Global discrimination of graphics styles. In Workshop on Graphics Recognition (GREC), pages , S. Uttama, M. Hammoud, C. Garrido, P. Franco, and J. Ogier. Ancient graphic documents characterization. In Workshop on Graphics Recognition (GREC), pages , L. van Vliet and B. Verwer. A contour processing method for fast binary neighbourhood operations. Pattern Recognition Letters (PRL), 7(1):27-36, 1998.


Télécharger ppt "Colloque International Francophone sur l’Ecrit et le Document Jeudi 21 Septembre 2006, Fribourg Un système pour l’indexation rapide d’image de lettrine."

Présentations similaires


Annonces Google