thèse encadrée par Jean-Marc OGIER et Karell BERTET Analyse et indexation d’images de documents par le contenu Mickaël COUSTATY L3i – Université de La Rochelle thèse encadrée par Jean-Marc OGIER et Karell BERTET
Plan Contexte / objectifs Introduction : extraction puis d’indexation Extraction de caractéristiques Différents types de signatures A partir de points d’intérêts Premières expérimentations Indexation
Contexte : NaviDoMass Intérêt croissant pour la préservation et l’accès libre au patrimoine Nombreuses sources : bibliothèques, musées, archives, … Origines très variées, documents hétérogènes et non structurés Pas de connaissance a priori Grandes masses de documents Mickaël Coustaty Université de La Rochelle - Laboratoire d'Informatique, Images et Interactions 3
Objectif Permettre l’accès de tous, à toute l’information, depuis n’importe où Toute information / Quel que soit le lieu / Quel que soit le moment / Quelle que soit la personne / Rapidement et efficacement 4
Un processus en 2 étapes Extraction de signatures Indexation à partir de ces signatures a1 a2 a3 …. an Système d’indexation a1 a2 a3 … an
Calcul de signatures : état de l’art - indexation et recherche d’images Trois types d’approches développées en indexation Approche globale : Considère l’image dans son ensemble Caractérise l’image en utilisant des statistiques calculées sur l’image entière. Ces techniques décrivent l’image globalement. Une description moins fine de l’image notamment de recherche des objets. Approche locales et semi-locales: Détection de points d’intérêt et calculs éventuels d’invariants autour de ces points d’intérêt Approche spatiale: Considère l’image comme composée d’un ensemble d’objets. Description de l’image est portée par l’ensemble des descriptions des éléments la composant mais aussi par les relations existantes entre eux.
Calcul de signatures : état de l’art - indexation et recherche d’images Approche globale la démarche d’une recherche par l’exemple :
Calcul de signatures : état de l’art - indexation et recherche d’images Approche spatiale la démarche d’une recherche par l’exemple :
Calcul de signatures : Orientations Semi-locales Autour de points d’intérêts Plusieurs signatures de dimension réduite Chaque signature = un élément (caractéristique) de l’image Signatures a fort pouvoir discriminant Intégration du spatial Mickaël Coustaty
{ { { ….. Les signatures Recherche de points d’intérêts Utilisation de différentes couches d’informations [KAU99] Étude des relations « intra-couche » Étude des relations « inter-couches » Utilisation de multi échelle? Attributs Formes Attributs Contours Attributs textures ….. etc { { { Mickaël Coustaty 10
Premiers développements Points d’intérêts (zones d’intérêts) SIFT [LOW04] Harris [Harris] FAST [ROS06] Texture : Critère uniformité (texture [ROS99]) Auto corrélation (texture) Contours Filtre canny derich [CAN86] (Détection de contours)
Points d’intérêts a1 a2 a3 … an a1 a2 a3 … an a1 a2 a3 … an Calcul de signatures a1 a2 a3 … an a1 a2 a3 … an a1 a2 a3 … an Combinaison de ces signatures?
Couche texture Extraction de points d’intérêts FAST SIFT 5354 PI
Contours : Filtre de Canny
Un processus en 2 étapes Extraction de signatures Indexation à partir de ces signatures a1 a2 a3 …. an Système d’indexation a1 a2 a3 … an
Indexation et Classification Méthode numériques ou symboliques Plusieurs méthodes symboliques Treillis [GUI07,ENG93] Arbres [Rakatomalala97] Associations Générateurs minimaux [TEK04]? Choix d’une méthode symbolique Générateurs minimaux associés : Au treillis Aux associations
Clef d’index Clé dans la table d’index = caractéristiques sélectionnées dans les signatures Sélection globale de caractéristiques : Après discrétisation (seules les caractéristiques dominantes sont conservées) Grâce aux concepts du treillis : possibilité de séparer chaque classe en paquets Sélection locale : Les générateurs minimaux = ensemble min. de caractéristiques pour un paquet Générateur minimal = nombre différent et min. de caractéristiques / classe Générateurs minimaux = clés dans la table d’index Nécessité de séparation de classes Permet de choisir (intervention de l’utilisateur) Ce que l’on veut décrire Ce dont on a besoin Ce que l’on a
{ { { ….. Attributs Formes Attributs couleur Attributs textures etc Toutes les signatures => discrimination par combinaison
Treillis : créateur de cluster Chaque concept réuni les images ayant des attributs identiques Treillis = vision double du problème (images / attributs) Générateur minimal = chemin condensé vers ce concept Générateur minimal = un index vers les images aux propriétés identiques (décrits par les mêmes attributs) Nécessité de séparation de classes Permet de choisir (intervention de l’utilisateur) Ce que l’on veut décrire Ce dont on a besoin Ce que l’on a
Exemple avec un treillis Forme / Couleur / Texture Calcul du treillis . . . . . . . . . Couleur Forme Texture Jusqu’à séparation de classes = 1 concept / classe Extraction des générateurs minimaux -> clés de la table d’indexation
Perspective de développement pour l’indexation Calcul des générateurs minimaux Intégration de règle d’associations?
Bibliographie [CAN86] Canny, J., A Computational Approach To Edge Detection, IEEE Trans. Pattern Analysis and Machine Intelligence, 8:679-714, 1986. [LOW04] Lowe, D., Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, 2004. [ROS06] Rosten, E., High performance rigid body tracking, Phd Thesis, 2006. [ROS99] Rosenberger, C, Mise en Œuvre d’un Système Adaptatif pour la Ségmentation d’Images, PhD Thesis, 1999 [KAU99] Kauniskangas, H., Document Image Retrievel With Improvements in Database Quality, PhD Thesis, 1999 [ENG03] Engelbert, M. N., Une nouvelle approche basée sur le treillis de Galois pour l'apprentissage des concepts, n°124 msh, 1993 [TEK04] Tekaya, S. Ben, Algorithme de construction d’un treillis des concepts formels et de détermination des générateurs minimaux, numéro spécial CARI 2004 [GUI07] Guillas, S., Reconnaissance d'Objets Graphiques Déteriorés : Approche Fondée sur un Treillis de Galois, PhD Thesis, 2007