Décomposition des manuscrits anciens en traits Construction des codes book basée sur la coloration de graphes Hani DAHER – LIRIS Veronique EGLIN-LIRIS Nicole VINCENT-LIPADE Stephane Bres-LIRIS Djamel GACEB-LIRIS
Plan Contexte Caractérisation: Squelettisation Extraction et Sélection des Descripteurs Classification en tables de similarités « codebooks » Résultats et application Conclusion
Projet Graphem contexte Projet Graphem: « Graphem based Retrieval and Analysis for PaleograpHic Expertise of Middle Age manuscripts ». Projet pluridisciplinaire: IRHT, École des Chartes, LIFO Orléans, LIPADE Paris V, LIRIS Objectifs: Faire progresser la compréhension de l’évolution des formes de l’écriture pour la Paléographie Créer des méthodes efficaces d’accès au contenu des manuscrits (Word- Spotting, Word-Retrievial).
Type de manuscrits Contexte Epoque Gothique 13ème siècle 15ème siècle Epoque Mérovingienne Renaissance 751 10ème siècle Epoque Carolingienne
qualité des manuscrits Contexte Vieillissement de l’encre et papier Enchevêtrement des lignes Ecriture à la marge et/ou entre les lignes
Ordre des traits & densité de l’encre Contexte De gauche à droite Le premier trait est situé à gauche et puis les autre traits le suivent Recherche de l’ordre des traits à partir de la densité de l’encre Détermination des poser et lever de calames: Au début du trait la densité d'encre est importante au cours du tracé la densité devient moins importante à la fin du trait la densité d'encre la plus élevée
Relation: épaisseur et décomposition des traits Contexte Relation: épaisseur et décomposition des traits Traits noires: Entre -135° et 60° Obéissent à la règle générale Traits pointillés Frontière entre les traits obéissent et non obéissent à la règle. Traits rouges (Région hachuré): Traits qui n’obéissent pas à la règle générale Possibilité de déterminer la direction des traits. difficulté de connaître la position de la plume au cours de la formation du tracé. possibilité de connaître la position du bout de la plume sur le support
Objectifs et contributions Contexte Aide des paléographes au: Classement des manuscrits en familles de style. Reconnaissance des manuscrits Développement des méthodes de recherche d’occurrence de mots « word spotting » Notre contribution: Décomposition des manuscrits en traits Sélection des descripteurs compréhensibles pour les deux domaines informatiques et paléographiques. Constructions des tables de similarités « code-book » à partir des traits Calcul de la Similarité entre les code-books pour la classification Utilisation des code-books pour la recherche des occurrences des mots dans les manuscrits
Plan Contexte Caractérisation: Squelettisation Extraction et Sélection des Descripteurs Classification en tables de similarités « codebooks » Résultats et application Conclusion
Suivi du tracé et détection de l’axe médian Caractérisation: Squelettisation Suivi du tracé et détection de l’axe médian (b) (a) Méthode: S’appliquer directement sur l’image en niveaux de gris Offrir une robustesse aux dégradations On a aussi constaté : Des ressemblances morphologiques entre vaisseaux sanguins et traits manuscrits
Suivi du tracé et détection de l’axe médian Caractérisation: Squelettisation Suivi du tracé et détection de l’axe médian Etape 2: Carte de distance Diffusion Etape 3: Extraction de l’axe médian (Xu). Rayon: carte des distances. Diffusion: meilleure représentation des traits Etape 1: Mise en évidence du tracé Lissage Image Fusion de diffusion et T.D
Etape 1: Approche de séparation fond-forme Caractérisation: Squelettisation Etape 1: Approche de séparation fond-forme Application de la méthode de (Frangi,1998): Directement sur l’image en niveau de gris I(x) pour mettre en évidence le tracé par rapport au fond. La nouvelle image subit un lissage gaussien pour enlever les discontinuités, trous, bruits et déformations.
Etape 2: Squelettisation par diffusion Caractérisation: Squelettisation Etape 2: Squelettisation par diffusion Application de la transformé en distance sur F pour: Déterminer automatiquement le rayon « distance par rapport au point contour le plus proche) de chaque point du tracé. Bonne adaptation au changement d’épaisseur des traits. Squelettisation par régularisation du gradient et diffusion ( LeBourgeois,2007)
Etape 3: Détection de l’axe médian Caractérisation: Squelettisation Etape 3: Détection de l’axe médian Principe de suivi du tracé. Détection automatique des points de départ. Points rouges au début de chaque trait. Ces points représentent le départ pour les suivi des traits.
Etape 3: Détection de l’axe médian Caractérisation: Squelettisation Etape 3: Détection de l’axe médian Extraction de l'axe médian par : Notre méthode, La méthode de (Zhang et Suen, 1984) ( Amincissement morphologique) Rapide et simple. adopté pour générer une topologie suffisamment complexe, Inconvénients: Binarisation indispensable, peu robuste aux dégradations des traits, problèmes d’artéfacts (branches parasites), ne peut pas suivre le trait jusqu’aux extrémités. Notre méthode Zhang
Découpage du manuscrit en graphèmes Caractérisation: Décomposition des manuscrits en graphèmes Découpage du manuscrit en graphèmes Les trois points particuliers de découpage: Minimum local dans l’épaisseur du segment Croisement de segments « Voie sans issue »
Illustration: Minimum local Caractérisation: Décomposition des manuscrits en graphèmes Illustration: Minimum local
Illustration: croisements et cas d’erreur Caractérisation: Décomposition des manuscrits en graphèmes Illustration: croisements et cas d’erreur
Plan Contexte Caractérisation: Squelettisation Extraction et Sélection des Descripteurs Classification en tables de similarités « codebooks » Résultats et application Conclusion
Extraction des caractéristiques Extraction et Sélection des Descripteurs Extraction des caractéristiques Descripteurs Intérêt Hauteur Connaitre les style d’écriture et la plume utilisée Largeur Inclinaison Connaitre l’inclinaison du graphème et la formation du trait Excentricité Connaitre La forme du graphème Densité globale (Surface) Connaitre La place que le graphème occupe dans le manuscrit Périmètre la longueur de la ligne qui délimite le contour d’un objet. Rapport: longueur/largeur rapport entre la mesure de longueur du graphème et la mesure de hauteur, Compacité : périmètre / Surface invariable par rapport à la taille de l’objet. Il est minimum dans le cas d’un disque
Extraction des caractéristiques Extraction et Sélection des Descripteurs Extraction des caractéristiques Descripteurs Intérêt Les 9 densités Division de l’image en 9 Régions, et calcul de la surface pour chacune d’eux Les 8 orientations Les 8 orientation préférentielles calculées à partir du gradient. 25 Moments de Zernike Invariants à la rotation et à l’échelle, après normalisation du graphème binaire par le moment du premier ordre (surface du graphème)
construction du codebook Extraction et Sélection des Descripteurs construction du codebook Par coloration de graphes(Gaceb et Eglin,2008) appliquée aux graphèmes caractérisés 3 Couleurs = 3 classes de graphèmes 1 7 3 5 4 2 6 Image de manuscrit a) Découpage en graphèmes b) Modélisation en graphe (graphème = sommet) c) Coloration de graphe d) Construction de code book Application optimisation d’un seuil de similarité Descripteurs Sélectionnés Seuil Descripteurs Sélectionnés Seuil
Comparaison des codebooks Extraction et Sélection des Descripteurs Comparaison des codebooks Reconnaissance du style des manuscrits à partir des code books:
Plan Contexte Caractérisation: Squelettisation Extraction et Sélection des Descripteurs Classification en tables de similarités « codebooks » Résultats et application Conclusion
Extraits de la base de test Résultats et application Extraits de la base de test 10000 traits à partir de 20 pages de manuscrits du Moyen-âge (IRHT), 300 images à ce jour.
Comparaison des codebooks Résultats et application Comparaison des codebooks Extrait: distances d entre les 12 pages Evaluation avec vérité de terrain sur une base de données de 300 manuscrits.(en cours 10000 images) La vérité terrain est établie par l’expertise des paléographes <<<<Bouton>>>> d=0.127 Page 7 Page 1 d=0.206 Page 2 Page 10
Plan Contexte Caractérisation: Squelettisation Extraction et Sélection des Descripteurs Classification en tables de similarités « codebooks » Résultats et application Conclusion
Conclusion Nouvelle méthode de découpage de manuscrits en graphèmes. Construction d’un code book robuste en utilisant la coloration de graphes. Création d’un prototype expérimental à l’usage des experts paléographes du projet GRAPHEM. Word spotting (en cours)
Merci de votre attention