Sabrina Tollari, Hervé Glotin, Jacques Le Maitre

Slides:



Advertisements
Présentations similaires
Le rôle des mesures de similarité dans l'algorithme de Google
Advertisements

Traitement d’images : concepts avancés
Apprentissage spectral
Une approche informationnelle de la restauration d’images
Marine Campedel mars 2005 INDEXATION des IMAGES Marine Campedel mars 2005.
Évaluation de la qualité d'une clusterisation
Application de réseaux bayésiens à la détection de fumées polluantes
1. Représentation du mouvement dans le plan - image
4. Descripteurs du contenu
A Pyramid Approach to Subpixel Registration Based on Intensity
Xialong Dai, Siamak Khorram
Indexation textuelle : Systèmes de recherche d’informations
Traitement d’images : briques de base S. Le Hégarat
Traitements d'images et Vision par ordinateur
Chapitre 5 : Image couleur
Détection de « tâches dobjets artificialisés » D.Réchal IRD, ESPACE Dev 18/02/2011 – Montpellier (France)
Traitement de texte ++.
RECONNAISSANCE DE FORMES
Classification Multi Source En Intégrant La Texture
Applications du perceptron multicouche
Mathieu De Craene Défense publique – 24 octobre 2005 Jury
Reconnaissance de visages
Rehaussement de la classification textuelle d’une base de données photographiques par son contenu visuel Sabrina Tollari Sous la direction de Hervé Glotin.
Rehaussement de la classification textuelle d’images par leurs contenus visuels pour un système de recherche d’images Sabrina Tollari, Hervé Glotin, Jacques.
FRE 2645 CIDED04 : 22 Juin 2004 Système de reconnaissance structurelle de symboles, basé sur une multi représentation en graphes de régions, et exploitant.
Méthode des k plus proches voisins
Mise en correspondance et Reconnaissance
Construction de modèles visuels
La segmentation
Traitements à base d’histogrammes Cours 6
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Design dun système de vision embarqué. Application:
TRAITEMENT D’IMAGE SIF-1033.
Sabrina TOLLARI Paris, le 4 octobre 2007
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
Sélection des dimensions
Interprétation automatique
Application d’algorithmes d’extraction de la couleur et des textures à partir d’images aériennes dans le contexte de l’extraction de bâtiments pour supporter.
Introduction à la reconnaissance:
Classification automatique
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Evaluation des incertitudes dans le recalage non rigide de formes Application à la segmentation avec ensemble apprentissage Maxime TARON Nikos PARAGIOS.
Etude et test des algorithmes d'estimation de mouvement en MPEG
Synthèse de textures par rééchantillonnage de patchs Vincent MICHEL Aurélien BOFFY Janvier 2007.
Classification : objectifs
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
1 Sélection adaptative des descripteurs visuels et dérivation de métadescripteurs contextuels dépendant du mot-clé pour l'indexation automatique d'images.
Sériation et traitement de données archéologiques
Présentation RFIA janvier 2002
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
Introduction au Traitement d’image
TNS et Analyse Spectrale
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Les réseaux de neurones à réservoir en traitement d’images
SUJETS SPÉCIAUX EN INFORMATIQUE I
Synthèse d’images et Rendu Réaliste Compression Progressive de Modèles 3D DOMENGET Bruno DUMAS Benjamin EISTI.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
1 Sélection adaptative des descripteurs visuels et dérivation de métadescripteurs contextuels dépendant du mot-clé pour l'indexation automatique d'images.
Sélection adaptative des descripteurs visuels dépendant du mot-clé pour un moteur de recherche d’images Sabrina Tollari, Hervé Glotin Laboratoire LSIS.
Suivi d’Horizons Sismiques
Interfaces perceptuelles Interaction avec une caméra.
Traitement d’images 420-D78-SW A15 Semaine 02.
Analyse des semis de point
Localisation collaborative dans les réseaux de capteurs
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
Reconnaissance d’objets 3D –point de vue complètement différent –pas d’invariant 3D Difficultés :
Compilation & Apprentissage dans les Réseaux de Contraintes Hervé Cros Directeurs :Frédéric Koriche Joël Quinqueton.
Transcription de la présentation:

Rehaussement de la classification textuelle d’images par leur contenu visuel Sabrina Tollari, Hervé Glotin, Jacques Le Maitre Laboratoire SIS - Équipe Informatique Université du Sud Toulon-Var RFIA 2004 Toulouse, le 30 janvier 2004

Plan Problématique Protocole du système visuo-textuel Expérimentations Discussion Conclusion et perspectives Cette approche multi-niveaux a pour but de permettre de faire le lien entre le signal et la sémantique au niveau le plus approprié suivant le média considéré ou la technique d’analyse utilisée et de permettre simultanément une interaction entre les différentes analyses afin d’améliorer la précision et la robustesse de chacune d’entre elles. Étudier la faisabilité d’un système visuo-textuel.

Comment raffiner une requête textuelle d’images ? Comparaison à la base de référence

Problématique Paysage Cameroun Agriculture Cohérence ? Indices textuels Paysage Cameroun Agriculture Indices visuels Perspectives WEB Cohérence ?

Nature des indices Indices textuels : Indices visuels : Indexation manuelle : mot-clés, metadata, annotation… Indexation automatique : mots clés de la légende, du texte entourant l’image… Indices visuels : Couleur : espaces RGB, HSV, Lab… Forme : contour, surface, transformée en ondelettes, transformée de Fourrier… Texture : grossièreté, contraste, directionnalité… Localisation, segmentation en zones d’intérêt… Indices=descripteurs= décrit quoi ? Subjectivité

Corpus (1/2) 600 photos de presse Indexées textuellement par une iconographe à partir des mot-clés extraits d’un thésaurus Stockées dans des fiches XML suivant la DTD de MPEG-7 Picture researcher=icongraphe=documentaliste The annotated descriptions are stored as MPEG-7 descriptions in an XML file. Automatique, Simple Les histogrammes sont en fait des vecteurs numériques

Corpus (2/2) Indexées visuellement par les histogrammes rouge, vert, bleu, luminance et direction (« low level features »)

Base indexée (classes textuelles) Protocole Corpus d’images Base indexée (classes textuelles) Classer les images à partir des indices textuelles Étape A Base de test Base de références Étape B Diviser aléatoirement en deux bases 50% Étape C Reclasser les images de la base de test par rapport aux indices textuels, aux indices visuels et par fusion des classifications visuelle et textuelle

Étape A Construction de la base indexée par classification ascendante hiérarchique (CAH) des indices textuelles Lance et Williams, 1967 Principe : regrouper ensemble des images proches Intérêt : cette méthode peut être mise en œuvre sur des images n’ayant pas de lien sémantique apparent Objectif : obtenir des classes sémantiquement et numériquement significatives cette méthode peut être mis en œuvre sur des images n’ayant pas de lien sémantique directe??????? On aurait pu utiliser d’autres méthodes tels que l’algo de Kohonen, mais méthode classique a déjà fait ses preuves, Simple à mettre en œuvre.

Caractéristiques de la réalisation de la CAH Étape A Caractéristiques de la réalisation de la CAH L’ensemble des mots clés de chaque image est représenté par un vecteur (modèle vectoriel, Salton 1971) La mesure de similarité entre deux vecteurs textuels est le cosinus. La mesure de similarité entre deux classes est le critère classique du plus lointain voisin que l’on contraint. Critère d’arrêt de la CAH : quand la distance entre deux classes dépasse une certaine valeur.

Résultat de la classification obtenue par CAH 24 classes contenant de 8 à 98 images sémantiquement homogènes Classe Fréquence 1 Fréquence 2 Fréquence 3 1 Femme Ouvriers Industrie 2 Cameroun Agriculture Paysage 3 Constructeurs Transport Automobile 4 Contemporaine Portrait Rhône 5 Société Famille Enfant

Résultats de la CAH C1 C2 Base de références Paysage, agriculture, Cameroun C1 Femme, Ouvrier, Industrie C2

Base indexée (classes textuelles) Étape B Protocole Corpus d’images Base indexée (classes textuelles) Classer les images à partir des indices textuelles Étape A Base de test Base de références Étape B Diviser aléatoirement en deux bases 50%

Classer une image de la base de test Étape C Classer une image de la base de test Base de références Paysage, agriculture, Cameroun C1 Femme, Ouvrier, Industrie C2 Classe estimée Ce (obtenue par distance minimale) Image de la base de test (classe d’origine Co) Textuels seuls, Visuels seuls Fusion tardive visuel et textuel Si Co¹Ce alors erreur

Les classifications Étape C Classification textuelle pure Classification visuelle pure Classification par fusion des classifieurs visuels et textuels

Distance de Kullback-Leibler(1951) Étape C Distance de Kullback-Leibler(1951) Soit x et y deux distributions de probabilités Divergence de Kullback-Leibler : Distance de Kullback-Leibler : Tout d’abord, nous allons définir une distance entre 2 images qui travaille aussi bien sur les vecteurs d’indices textuels et les vecteurs d’indices visuels. Entropie relative, symétrie distance

1. Classification textuelle pure Étape C 1. Classification textuelle pure Vecteur moyen normalisé pour chaque classe Classe textuelle de l’image IT: Résultats Textuelle avec thésaurus Textuelle sans thésaurus Taux d’erreur 1.17 % 13.72 %

2. Classification visuelle pure Étape C 2. Classification visuelle pure IT Image de la base de test Distance DKL N=2 I1 I2 I3 I4 Classe Ck de la base de références 0.2 0.6 0.3 0.8 Moyenne des N premières distances minimales Avantage : elle diminue les fausses alertes dVA(IT,Ck)=0.25 Pour le visuel, plusieurs caractéristiques de l’image sont possibles, donc nous allons définir une fusion précoce qui permet d’améliorer les résultats.

2. Résultats de la classification visuelle pure Étape C 2. Résultats de la classification visuelle pure N 1 2 3 4 Rouge* 75.68 74.50 71.76 Vert* 79.60 78.03 76.86 76.07 Bleu* 77.64 77.25 Luminance* 79.21 Direction* 84.70 * Taux d’erreur en % Taux d’erreur théorique : 91.6%

3. Classification visuo-textuelle par « Fusion tardive » Étape C 3. Classification visuo-textuelle par « Fusion tardive » Probabilité d’appartenance de l’image IT à la classe Ck par fusion des probabilités textuelles et visuelles : Distorsion Les coefficient de pondérations devraient être calculée à partir des performances moyennes des classifieurs. Idéalement, ils auraient dû être calculer à partir d’une base de développement et les appliquer sur la base. On note V1,V2,V3,V4,V5 les 5 attributs visuels et V6 l’attribut textuel.

Étape C 3. Définitions des probabilités d’appartenance d’une image à une classe Bien combiner VA Î {Rouge, Vert, Bleu, Luminance, Direction}

3. Définitions des pondérations Étape C 3. Définitions des pondérations Soit TE(j) le taux d’erreur du classifieur utilisant les attributs Vj Élévation à la puissance p pour contraster les poids

Étape C 3. Classification par fusion des classifieurs visuels et textuels : Influence du paramètre p Valeur de p Rappel : taux d’erreur visuel 71 %

Résultat final : rehaussement visuo-textuel Étape C Résultat final : rehaussement visuo-textuel Résultats Textuelle sans thésaurus Fusion visuo-textuelle Gain Taux d’erreur 13.72% 6.27% +54.3%

Discussion Ces résultats doivent être affinés sur une base de données plus grande La méthode de pondération doit être comparée à d’autres (entropie des distributions…) Les poids devraient être optimisés sur une base de développement

Conclusion Il existe une cohérence entre l’indexation textuelle et visuelle Cette cohérence permet le rehaussement d’une recherche par mot-clés d’images par leur contenu Méthode simple et automatique, donc utilisable sur le web Ce système peut être utilisé avec n’importe qu’elle type d’indices visuels

Perspectives Application : recherche textuelle « classique » sous Google, puis filtrage visuel des images par rapport à la distribution des distances Distribution des distances pour chaqu’une des images de Google. Cette distribution est bimodale, ce qui permet de considérer que les images du premier mode (distances < 0.04) sont adéquates à la requête, les autres non.

Merci

Corpus : segmentation en région d’intérêt Segmentation en 4 régions d’intérêts pour éliminer le bruit de fond de l’image Chaque région d’intérêt possède les 5 mêmes types d’histogrammes que les images entières