Soutenance de Thèse Mardi 13 Décembre 2005 Analyse des documents graphiques, une approche par reconstruction d’objets Mathieu Delalandre Mardi 13 Décembre 2005 Université de Rouen
2 Soutenance de Thèse Mardi 13 Décembre 2005 Introduction Notion de document (1/2) -Notion de document -Analyse des documents -Des documents graphiques documents « textuels » symbole logoentête journal manuel vidéos et photographies Quelques exemples : sons
3 Soutenance de Thèse Mardi 13 Décembre 2005 Introduction Documents (2/2) -Documents -Analyse des documents -Des documents graphiques Quelques caractéristiques : sens, support physique, format, contenu, … tiff, jpeg, gif … Bitmap Sémantique CGM, RDF, XML, OpenDoc, … symbole math carré de v1v1 v2v2 Π/2 v3v3 Structuré SVG, LaTeX, HTML, … \sqsub Types de contenu FormatsExemple
4 Soutenance de Thèse Mardi 13 Décembre 2005 Introduction Analyse des documents -Documents -Analyse des documents -Des documents graphiques Reconstruction de plus haut niveau du contenu du document Analyse Analyse : segmentation, reconnaissance, indexation, navigation, rétroconversion, interprétation, … Image has too many desirable properties, document images and structured documents will increasingly co-exist in the future [Breuel’04]
5 Soutenance de Thèse Mardi 13 Décembre 2005 Introduction Des documents graphiques (1/3) -Documents -Analyse des documents -Des documents graphiques Quelques exemples : Parties symbole linéaire texte et textuellegraphiques plan technique symbolelogocaractère script lettrine Images dessin CAD ClipArt Graphiques vectoriels
6 Soutenance de Thèse Mardi 13 Décembre 2005 Les graphiques sont connectés Leurs traitements sont basés sur les méthodes structurelles 1.Extraction de caractéristiques bas-niveau (primitives graphiques) et organisation dans des structures de plus haut-niveau (graphes) 2.Exploitation (appariement/parcours) des graphes et primitives extraits symbole connecté dans un plan un symbole et sa structure ligne point de connexion jonction T ligne caractéristiques bas-niveau primitives graphiques structure haut-niveau graphe arc de connexion ligne arc T exploitation appariement/parcours Introduction Des documents graphiques (2/3) -Documents -Analyse des documents -Des documents graphiques et structurés
7 Soutenance de Thèse Mardi 13 Décembre 2005 Introduction Des documents graphiques (3/3) Extraction de primitives graphiques squelettisation [Hilaire’04], détection de contours [Ramel’00], … Exploitation Appariement de graphes [Bunke’00], Transformation de graphes [Blostein’05], … Architecture des systèmes d’analyse des documents graphiques -Documents -Analyse des documents -Des documents graphiques Exploitation résultats Modèles Extraction de primitives graphiques documents graphe de primitives graphiques
8 Soutenance de Thèse Mardi 13 Décembre 2005 Analyse des documents graphiques, une approche par reconstruction d’objets Introduction Extraction de primitives Reconstruction d’objets Cas d’usage Conclusion et perspectives -Introduction -Connaissances graphiques -Interopérabilité & MR
9 Soutenance de Thèse Mardi 13 Décembre 2005 Extraction de primitives Introduction (1/2) -Introduction -Connaissances graphiques -Interopérabilité & MR Détection de contours Squelet- tisation À base de plages Parcours des formes À base de régions À base de mailles
10 Soutenance de Thèse Mardi 13 Décembre 2005 Extraction de primitives Introduction (2/2) -Introduction -Connaissances graphiques -Interopérabilité & MR Méthodes JLRoCRéIMS Contours Squelette Parcours +++1 --++ Plages Mailles ++-<<0.5 -++ Composantes Comparaison des méthodes ( ) nul, (-) faible, (+)bon, (++) excellent Complémentarité des méthodes, intérêt de leur combinaison Comment partager les connaissances graphiques au sein ou entre systèmes ? Comment échanger les primitives graphiques entre opérateurs ? Précision des (L)ignes (J)onctions (M)orphologie(I)nvariance échelle et orientation(R)obustesse aux bruits (A)utres …
11 Soutenance de Thèse Mardi 13 Décembre 2005 Formalisme Extraction de primitives Connaissances Graphiques (1/3) Connaissances, quelques définitions Connaissances : Schéma mental de la réalité Représentation : Façon dont les connaissances sont transposées au sein des systèmes informatiques Formalisme : Série de symboles définis utilisés pour encoder des données représentant les connaissances au sein des systèmes informatiques Modèle : Représentation des connaissances réalisée dans un but donné et suivant un formalisme donné Données : classiquement manipulées dans les systèmes informatiques Connaissances -Introduction -Connaissances graphiques -Interopérabilité & MR Données Modèle instance de organise Transcription : Plonger les connaissances dans un langage formel ou opérationnel de représentation Interprétation : Mettre en correspondance les données afin de faire émerger du sens Homme Machine On parle de connaissances du point de vue du concepteur du système On parle de connaissances du point de vue du système
12 Soutenance de Thèse Mardi 13 Décembre 2005 Niveaux de représentation image sémantique abstraction formalisme primitives graphiques objets intermédiaires basées pixelsbasées vecteurs structures de primitives C’est une porte Extraction de primitives Connaissances Graphiques (2/3) -Introduction -Connaissances graphiques -Interopérabilité & MR primitives modèles graphe, réseau sémantique, langage O.O, graphe relationnel attribué (ARG), … Connaissances graphiques : forme de connaissances relatives aux graphiques Fortes relations de composition et de spécialisation
13 Soutenance de Thèse Mardi 13 Décembre 2005 Extraction de primitives Connaissances Graphiques (3/3) -Introduction -Connaissances graphiques -Interopérabilité & MR vecteurs, symboles composantes et plages liste de points, vecteurs Références [Joseph 92] [Pasternak 93] [Seong 93] [Wu 93] [Han 94] [Burge 95] [Messmer 95] [Kiyko 95] [Yu 97] [Huang 97] [Lee 98] [Burge 98] [Ahmed 00] [Ramel 00] [Coüasnon 01] [Lladós 01] [Badawy 02] [Popel 02] [Song 02b] [Leplumey 02] [Barbu 04] [Weindorf 02] [Fonseca 04] [Hilaire 04] [Yan 04a] [Ah-Soon 01] Références Prim lp v v c h c Str s c arg oo arg g Mod s s r s c r s s s r s s s Prim lp h c c v v Str arg c g oo arg g Mod c s r r r s s r r r r s s hybride ARG O.O opérationnel quadrilatère relation L relation T vecteur connexion adjacence [Han 94] [Ramel 00] Références [Joseph 92] [Pasternak 93] [Seong 93] [Wu 93] [Han 94] [Burge 95] [Messmer 95] [Kiyko 95] [Yu 97] [Huang 97] [Lee 98] [Burge 98] [Ahmed 00] [Ramel 00] [Coüasnon 01] [Lladós 01] [Badawy 02] [Popel 02] [Song 02b] [Leplumey 02] [Barbu 04] [Weindorf 02] [Fonseca 04] [Hilaire 04] [Yan 04a] [Ah-Soon 01] Références Mod s s r s c r s s s r s s s c s r r r s s r r r r s s région contour squelette composante occlusion voisinage inclusion quadrilatère lien ligne lien jonction extrémité jonction ligne arc
14 Soutenance de Thèse Mardi 13 Décembre 2005 Extraction de primitives Interopérabilité & MR (1/2) -Introduction -Connaissances graphiques -Interopérabilité & MR 1.Similitude des représentations en terme de primitives et structures 2.Similitude en terme de familles de modèles 3.Spécificité de chacun des modèles Emergence de la problématique de la multi-représentation Partage des connaissances graphiques égale interopérabilité sur les modèles Multi-représentation Définition : Variation des représentations des connaissances (formalismes et/ou modèles) pour la description d’une même forme. Les représentations sont obtenues via les algorithmes, deux relations (1) (2) : extremity junction line arc jonction ligne extrémité jonction arc ligne (1) 1 algorithme - n représentations(2) n algorithmes - n représentations quadrilatère recouvrement Similitude des connaissances graphiques :
15 Soutenance de Thèse Mardi 13 Décembre 2005 Extraction de primitives Interopérabilité & MR (2/2) -Introduction -Connaissances graphiques -Interopérabilité & MR Op 1 Op 2 Op 3 Op n R1R1 R2R2 R3R3 RnRn En conclusion ? Comment partager les connaissances graphiques au sein des systèmes ? Approche à base de multi-représentation et d’identification des représentations ! Fortes relations de composition et de spécialisation des connaissances graphiques ! Approche par reconstruction d’objets Définition : Système à base de multi- représentation exploitant un mécanisme d’identification des représentations Interopérabilité sur les modèles ? Système à base de multi-représentation RnRn représentation par formalisme pivot R1R1 R2R2 RnRn R3R3 Op 1 Op 2 Op n opérateur Définition : Système capable de faire varier des représentations des connaissances (reposant sur un formalisme pivot) ainsi qu’à les évaluer et à les sélectionner de façon à les adapter au mieux à ses besoins Système interopérable sélection identification Complémentarité des méthodes d’extraction ! Intérêt de la combinaison d’opérateurs ! Comment échanger les primitives graphiques entre opérateurs ? Comparaison des représentations des connaissances graphiques employées ? Similitudes en matière de primitives et de structures employées !
16 Soutenance de Thèse Mardi 13 Décembre 2005 Analyse des documents graphiques, une approche par reconstruction d’objets Introduction Extraction de primitives Reconstruction d’objets Cas d’usage Conclusion et perspectives -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système
17 Soutenance de Thèse Mardi 13 Décembre 2005 Reconstruction d’objets Introduction reconstruction d’objets -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système processus d’évolution des représentations contenu implicite propriétés de spécialisation et composition extrémité jonction axe médian bitmap composante inclusion marquage appariement de contours reconstruction jonction quadrilatère côte à côte adjacence opérateursreprésentationscontraintesobjets bitmapscomposantes quadrilatères adjacents Opérateur base d’objets graphiques multi-représentation et interopérabilité sur les modèles combinaison d’opérateurs
18 Soutenance de Thèse Mardi 13 Décembre 2005 Reconstruction d’objets Opérateurs d’extraction (1/2) Extraction par approche contour -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système Marquage de composantes et détection de contours Affinage Suivi de contours Extraction robuste par détection et affinage préliminaires forme contour marqué sans détection/affinage avec détection/affinage Marquage par propagation surépaisseur 4-connexe N cc = 1 surépaisseur 4-connexe + N c = 1 Nombre de croisements forme contour affiné
19 Soutenance de Thèse Mardi 13 Décembre 2005 Reconstruction d’objets Opérateurs d’extraction (2/2) -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système Inclusion Voisinage Distance Marquage de composantes et extraction d’occlusions Extraction par approche région point de test label composante composante occlusion inclusion (connexe) InclusionVoisinageDistance d1d1 d2d2 d3d3 d1d1 d2d2 Marquage composante Marquage occlusion Extension des contours Carte des frontières Exemple de combinaison point de test voisinage inclusion Filtrage des relations de voisinage distante
20 Soutenance de Thèse Mardi 13 Décembre 2005 Reconstruction d’objets Formalisme et contraintes (1/3) -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système se specialise classe association Liste l comprend 0.* Graphe g comprend 0.* Graphique Og Point Ligne BitmapAutre ligne angle carré connexion Formalisme objet de multi-représentation Carrés liés point vecteur jonction Modèles à base de liste Modèle à base de grapheModèle hiérarchique
21 Soutenance de Thèse Mardi 13 Décembre 2005 base d’objets graphiques Opérateur Reconstruction d’objets Formalisme et contraintes (2/3) -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système Représentation niveau procédural Représentation niveau déclaratif Formalisme objet de multi-représentation Extraction Spécifications de contraintes Extraction/Substitution Composition : composé, strictement composé Type : bitmap, composante, occlusion, point, ligne, liste, graphe, … Logique : ou, et, non, ou exclusif Contraintes objet à traiter autre objet composition Parcours modèle hiérarchique Extraire le bitmap, le substituer par une liste de composantes. Marquage de composantes SpécificationsOpérateurs Extraire le bitmap ou les composantes, les substituer par leur squelette. Squelettisation squelettisation marquage et squelettisation marquage, voisinage et squelettisation Substitution
22 Soutenance de Thèse Mardi 13 Décembre 2005 arc simple arc double 9 nœuds (opérateurs) 47 arcs (définis des contraintes) Reconstruction d’objets Formalisme et contraintes (3/3) -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système Extracteur statistique Kppv Appariement graphe Polygonisation Appariement arc Appariement contours Spécifications de contraintes + 6 opérateurs + 25 arcs Graphe d’opérateurs 15 opérateurs, 72 arcs combinaisons larges combinaisons par antériorité marquage occlusions voisinage image
23 Soutenance de Thèse Mardi 13 Décembre 2005 Reconstruction d’objets Stratégies et système (1/4) -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système spécialisation [Tombre’00] simplification [Ramel’03] composition [Hartog’96] comparaison [Lam’95] heuristique [Okazaki’88] Objet Spécialisation Partie de Stratégies de reconstruction s Opérateur Vers Typologie des stratégies graphe (biparti) de reconstruction Formalisation des stratégies I I ETET L S A EAEA S I (I)mage (E T )xtraction trait Exemple de stratégie par simplification [Song’02] (A)rcs (L)ignes (S)implification (E A )xtraction arc traitarc
24 Soutenance de Thèse Mardi 13 Décembre 2005 Reconstruction d’objets Stratégies et système (2/4) Niveaux de représentation Objets N0N0 N1N1 N2N2 N3N3 occlusion inclusion polyligne arccomposante voisinage racine s 4 s 5 s 6 s 2 s 3 s1s1 o1o1 o2o2 o3o3 o5o5 o4o4 s2s2 s3s3 o6o6 o7o7 s4s4 s5s5 s6s6 o8o8 o9o9 s5s5 s6s6 -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système jonction/extrémité connexion Objets Niveaux de représentation Objet(s) Modèle Spécialisation Stratégies de reconstruction Taxinomie de représentations Exploitation des représentations communes afin de guider la reconstruction
25 Soutenance de Thèse Mardi 13 Décembre 2005 Reconstruction d’objets Stratégies et système (3/4) -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système Moteur de Contrôle Opérateurs base de règles Règles Objets, et Règles Objets, Paramètres, et Règles Système de reconstruction d’objets Exemple de règle opérateur objet paramètre règle Exécuter opérateur adaptation sur objet image avec paramètre 0.3 si fait adapter Architecture générale
26 Soutenance de Thèse Mardi 13 Décembre 2005 Règles Fait Reconstruction d’objets Stratégies et système (4/4) -Introduction -Opérateurs d’extraction -Formalisme et contraintes -Stratégies et système Opérateur de contrôle stratégie Graphe de reconstruction implicite explicite reconstruction Système de reconstruction d’objets événement contrôle graphe implicite de la base graphe explicite Structuration du graphe de reconstruction Exploitation des règles
27 Soutenance de Thèse Mardi 13 Décembre 2005 Analyse des documents graphiques, une approche par reconstruction d’objets Introduction Extraction de primitives Reconstruction d’objets Cas d’usage Conclusion et perspectives -Plan d’itinéraire FT -Concours GREC 2003
28 Soutenance de Thèse Mardi 13 Décembre 2005 Cas d’usage Plan d’itinéraire FT (1/2) Symbole proche -Plan d’itinéraire FT -Concours GREC 2003 chambre PC1 PC2 Caractères Symboles Parties linéaires Plan d’itinéraire
29 Soutenance de Thèse Mardi 13 Décembre 2005 Cas d’usage Plan d’itinéraire FT (2/2) -Plan d’itinéraire FT -Concours GREC 2003 Stratégie de reconstruction par simplification chambrePC
30 Soutenance de Thèse Mardi 13 Décembre 2005 Cas d’usage Concours GREC 2003 (1/5) Base de test 20 symboles électriques et architecturaux segmentés 9 séries de tests de 100 images dégradées -Plan d’itinéraire FT -Concours GREC 2003
31 Soutenance de Thèse Mardi 13 Décembre 2005 Prétraitement Opérateurs d’évaluation: bruit impulsionnel et bruit morphologique Opérateurs de filtrage: restauration, filtrage morphologique, restitution, filtrage de composantes, segmentation 10 règles Exemples Bruit impulsionnelBruit morphologique Etape 1 Etape 2 Cas d’usage Concours GREC 2003 (2/5) -Plan d’itinéraire FT -Concours GREC 2003 bruit impulsionnelbruit impulsionnel & morphologique
32 Soutenance de Thèse Mardi 13 Décembre 2005 Cas d’usage Concours GREC 2003 (3/5) -Plan d’itinéraire FT -Concours GREC 2003 Représentation employée
33 Soutenance de Thèse Mardi 13 Décembre 2005 (1) (4) (2) (3) (4) (1) graphe hybride (2) caractéristiques géométriques (3) classification statistique (4) classification structurelle Cas d’usage Concours GREC 2003 (4/5) -Plan d’itinéraire FT -Concours GREC 2003 Stratégie taxinomique
34 Soutenance de Thèse Mardi 13 Décembre 2005 Cas d’usage Concours GREC 2003 (5/5) -Plan d’itinéraire FT -Concours GREC 2003
35 Soutenance de Thèse Mardi 13 Décembre 2005 Analyse des documents graphiques, une approche par reconstruction d’objets Introduction Extraction de primitives Reconstruction d’objets Cas d’usage Conclusion et perspectives
36 Soutenance de Thèse Mardi 13 Décembre 2005 Conclusion et perspectives Conclusion Analyse des documents graphiques Extraction de primitives graphiques Intérêt de la combinaison des méthodes Problème d’échange des connaissances graphiques Approche par reconstruction d’objets Multi-représentation et contraintes pour l’interopérabilité Opérateurs, formalisme et système de reconstruction Cas d’usage
37 Soutenance de Thèse Mardi 13 Décembre 2005 Conclusion et perspectives Perspectives Opérateurs d’extraction Traitement d’autres catégories de documents graphiques vectoriels, documents du patrimoine Apprentissage des stratégies de reconstruction planification automatique & sélection de modèles
38 Soutenance de Thèse Mardi 13 Décembre 2005 Merci