Laboratoire PSI – FT-R&D Delalandre Mathieu 3 septembre 2001 Contribution au problème Scan To XML Reconnaissance structurelle de symboles par modélisation XML Laboratoire PSI – FT-R&D Delalandre Mathieu 3 septembre 2001
Laboratoire PSI et FT R&D Présentation du stage DEA-PTI et DESS-GIE Avril-Septembre 2001 Laboratoire PSI et FT R&D Perception Systèmes Information : Encadrement : Éric Trupin et Jean Marc Ogier Collaboration : Pierre Héroux France Télécom – Recherche & Développement : Encadrement : Joël Gardes Collaboration : Sébastien Adam
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Introduction Analyse de document Définition du document Support vecteur d’informations Texte, graphique Papier, électronique Différentes natures (technique, administratif, etc… ) Analyse de document Rétro-conversion des documents
Introduction Analyse de document Rétro-conversion en 6 étapes : 1-Scanner le document Dimensions Formats 2-Pré-traiter l’image Amélioration Adaptation
Introduction Analyse de document 3-Extraire des modèles des formes Approche région et structure Vecteur Rapport angulaire Modèle de type région Modèle de type structure
Introduction Analyse de document 4-Reconnaissance de Formes Statistique (région) Structurelle (structure) 5-Interprétation Reconstruction sémantique du document 6-Modélisation électronique du document Format propriétaire Format standard (XML, DXF, etc… )
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Introduction Reconnaissance de symboles Document Texte et graphique Symbole : Élément graphique particulier Largement présent sur les documents techniques Forme structurée
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Introduction XML et l’analyse de document Présentation : eXtensible Markup Language Langage de description de données Meta-langage : SVG (Scalable Vector Graphics) Règles de transformations XSLT XML en analyse de document : Description : modèles, formes, documents Contrôle des instances de représentation
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Introduction Présentation du sujet Reconnaissance structurelle de symboles par modélisation XML Mise en place d’une chaîne d’analyse de document suivant 5 contraintes : Images binaires pré-traitées par filtrage Reconnaissance de symboles Chaîne générique Reconnaissance structurelle Modélisation en XML
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Notre système de reconnaissance de symboles Présentation de la chaîne Chaîne de TI et EM Chaîne RDF RDF Structurelle Traitement d’Images EM approche Structure XML XML EM approche Région RDF Statistique L’utilisation d’XML permet : Un interfaçage universel Le contrôle des instances de représentation
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Traitement d’images Extraction de modèles extraction d’occlusions calcul d’attributs : Invariants de FM Sondes circulaires Moments de Zernike filtrage masses connexes détection de contours Approximation mathématique Et calcul d’attributs squelettisation structuration du squelette
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Traitement d’images Extraction de modèles extraction d’occlusions calcul d’attributs : Invariants de FM Sondes circulaires Moments de Zernike filtrage masses connexes détection de contours Approximation mathématique Et calcul d’attributs squelettisation structuration du squelette
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Extraction occlusions et filtrage masses connexes Existant [LA3I-92] [Adam-98] [Adam-01] Marquage Masses Connexes (MC) Image des MC filtrées Imagette par occlusion Contribution Image des occlusions Combinaison des outils Extraction occlusions filtrage MC grandes tailles
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Extraction occlusions et filtrage masses connexes Contribution Réduction d’images Occlusions Occlusions réduites à 80%
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Traitement d’images Extraction de modèles extraction d’occlusions calcul d’attributs : Invariants de FM Sondes circulaires Moments de Zernike filtrage masses connexes détection de contours Approximation mathématique Et calcul d’attributs squelettisation structuration du squelette
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Calcul d’attributs Invariants de Fourier Mellin, sondes circulaires, et moments de Zernike Existant [Adam-01] EM approche région Transformées mathématiques, calcul de moments Invariant : orientation, échelle et translation Mise en œuvre Utilisation en boîte noire
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Traitement d’images Extraction de modèles extraction d’occlusions calcul d’attributs : Invariants de FM Sondes circulaires Moments de Zernike filtrage masses connexes détection de contours Approximation mathématique Et calcul d’attributs squelettisation structuration du squelette
Notre système de reconnaissance de symboles Notre chaîne de TI et EM détection de contours Existant [Adam-98] Suivi de contours 8-connexe sur chaque imagette de masse connexe Contribution Suivi de contours sur l’image
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Traitement d’images Extraction de modèles extraction d’occlusions calcul d’attributs : Invariants de FM Sondes circulaires Moments de Zernike filtrage masses connexes détection de contours Approximation mathématique Et calcul d’attributs squelettisation structuration du squelette
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Squelettisation Existant [LA3I-92] [Lassaulzais-97] [Adam-98] Degré d’intériorité et amincissements successifs Ebarbulage : Longueur, différence des degrés d’intériorité Mise en oeuvre
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Traitement d’images Extraction de modèles extraction d’occlusions calcul d’attributs : Invariants de FM Sondes circulaires Moments de Zernike filtrage masses connexes détection de contours Approximation mathématique Et calcul d’attributs squelettisation structuration du squelette
Étude bibliographique Notre système de reconnaissance de symboles Notre chaîne de TI et EM structuration du squelette Étude bibliographique Structuration d’un suivi de trait [Ogier-94] Run Length [Adam-98] Existant [Lassaulzais-97] [Adam-98] Extraction linéaire des segments Suivi dit par oscillations Maximisation de la longueur Pas de détection nœuds, pas de structuration du squelette
Visualisation graphique Notre système de reconnaissance de symboles Notre chaîne de TI et EM Structuration du squelette Contribution Structuration élémentaire par bouclage <polygon style="fill:none; stroke:red; stroke-width:1" points="361,46 361,138 538,137 537,46 " /> Extrait du fichier SVG reconstruit Image bitmap Visualisation graphique du fichier SVG
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Squelettisation et structuration Contribution Proposition d’algorithme Suppression des nœuds par test de 3-connexité Reconstruction des nœuds par calcul de proximité Structuration en graphe (nœuds et segments)
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Traitement d’images Extraction de modèles extraction d’occlusions calcul d’attributs : Invariants de FM Sondes circulaires Moments de Zernike filtrage masses connexes détection de contours Approximation mathématique Et calcul d’attributs squelettisation structuration du squelette
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Approximation mathématique et calcul d’attributs Existant [LA3I-92][Adam-98] Approximation mathématique : polygonisation Algorithme de la corde Split & Merge
Notre système de reconnaissance de symboles Notre chaîne de TI et EM Approximation mathématique et calcul d’attributs Contribution Calcul de 24 attributs Sur l’ensemble des listes de segments, et sur chaque liste Avant et après la polygonisation Type d’attributs Statistique (moyenne, variance) Topologique (rectangle englobant, centre de gravité, etc…) Géométrique (périmètre, surface, total des angles, etc..) Modèles de type région et structure
angles et orientations configuration topologique Notre système de reconnaissance de symboles Notre chaîne de TI et EM Approximation mathématique et calcul d’attributs angles et orientations A1 : angle interne A2 : angle externe Cadran de configuration topologique des vecteurs A1(2,3)=180-abs(O2)+abs(O1) A1(3,1)=abs(O2)+abs(O1)-180
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Notre système de reconnaissance de symboles Notre chaîne de RDF d’extraction de modèles Chaîne de RDF IFM MZ SC XML classifieur statistique XML Construction graphe MC Approximation mathématique et calcul d’attributs classifieur structurel
Notre système de reconnaissance de symboles Notre chaîne de RDF d’extraction de modèles Chaîne de RDF IFM MZ SC XML classifieur statistique XML Construction graphe MC Approximation mathématique et calcul d’attributs classifieur structurel
Notre système de reconnaissance de symboles Notre chaîne de RDF Classifieur statistique Existant [Adam-01] Classification kppv Mise en œuvre Symboles géométriques élémentaires 4 Primitives géométriques (translation, échelle) 30 formes, 6 classes (une image dans 5 orientations)
Notre système de reconnaissance de symboles Notre chaîne de RDF Classifieur statistique Visualisation SVG Images bitmap
Notre système de reconnaissance de symboles Notre chaîne de RDF Classifieur statistique Occlusions symboles FT environ 60 occlusions, 5 classes MZ : 97.77% IFM : 86.66% SC : 86.66% Géométrique : 92.3% (5 pixels) à 72.21% (1 pixel)
de la reconnaissance par MZ Notre système de reconnaissance de symboles Notre chaîne de RDF Classifieur statistique Image bitmap Visualisation SVG de la reconnaissance par MZ
Notre système de reconnaissance de symboles Notre chaîne de RDF d’extraction de modèles Chaîne de RDF IFM MZ SC XML classifieur statistique XML Construction graphe MC Approximation mathématique et calcul d’attributs classifieur structurel
Notre système de reconnaissance de symboles Notre chaîne de RDF Construction graphe de masses connexes Contribution Construction de graphes de MC sous contraintes Contraintes Distance Connexions maximums par étiquette Algorithme Construction des connexions Construction du graphe par parcours des MC, et des connexions SVG
Notre système de reconnaissance de symboles Notre chaîne de RDF Construction graphe de masses connexes Visualisation SVG
Notre système de reconnaissance de symboles Notre chaîne de RDF d’extraction de modèles Chaîne de RDF IFM MZ SC XML classifieur statistique XML Construction graphe MC Approximation mathématique et calcul d’attributs classifieur structurel
Étude bibliographique Notre système de reconnaissance de symboles Notre chaîne de RDF Construction graphe de masses connexes Étude bibliographique Plan architecturaux [Ah-Soon-98] Algorithme d’isomorphisme de sous-graphes Réseau de recherche (Mesmer) Langage de description (Pasternak) Existant [Héroux-01] Bibliothèque de graphes Typage des arcs et des nœuds du graphe Isomorphisme (pas de sous-graphes) Calcul de distance
Notre système de reconnaissance de symboles Notre chaîne de RDF Construction graphe de masses connexes Contribution Extension du calcul de distance Clonage de graphe Structure Type Égalité stricte Distance sur les arcs Un graphe et ses 9 clones
Caractéristiques, Conclusions, Perspectives Plan de l’oral Introduction Analyse de document Reconnaissance de symboles XML et l’analyse de document Présentation du sujet Système de reconnaissance de symboles Présentation de la chaîne Chaîne de Traitement d’Images (TI) et d’Extraction de Modèles (EM) Chaîne de Reconnaissance De Formes (RDF) Caractéristiques, Conclusions, Perspectives
Caractéristiques, Conclusions, Perspectives Caractéristiques logicielles de la plate-forme Langages C/C++ 90% Java 08% XSLT 02% 3 librairies en C/C++, JNI Parser-Processeur XML Parser DOM XERES et Processeur XSLT XALAN (java) Outils de développement 2 compilateurs C/C++ 1 compilateur java 1 exécuteur XSLT
Caractéristiques, Conclusions, Perspectives Chaîne de TI et EM Points faibles Squelette non structuré Contours et occlusions non structurées Type de primitives (vecteurs) Points forts 4 approches région et 2 approches structure Contrôle des instances des modèles (XML)
Caractéristiques, Conclusions, Perspectives Chaîne de RDF Points faibles Pas d’isomorphisme de sous-graphes Pas de réseau de recherche (Mesmer) Pas de langage de description Points forts Approche statistique et structurelle, combinaison parallèle et séquentielle des classifieurs Reconstruction d’un modèle de haut niveau sous contraintes Typage du graphe
Caractéristiques, Conclusions, Perspectives Compléter la chaîne EM et RDF structurelle Structuration du squelette Structuration contours masse et contours occlusions Isomorphisme de sous-graphes Mise en place d’un système d’interprétation Combinaison des chaînes de RDF Reconstruction du document