Rehaussement de la classification textuelle d’images par leurs contenus visuels pour un système de recherche d’images Sabrina Tollari, Hervé Glotin, Jacques.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Introduction à l’analyse
Le Marché Publicitaire de la Presse Professionnelle
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
INSTITUT DE VEILLE SANITAIRE
Les numéros 70 –
1. Les caractéristiques de dispersion. 11. Utilité.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
ETALONNAGE D’UN CAPTEUR
Révision (p. 130, texte) Nombres (1-100).
Identification des personnes par l’iris
Améliorer les performances du chiffrage à flot SYND
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
La méthodologie………………………………………………………….. p3 Les résultats
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Vue générale de Sharpdesk
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Rehaussement de la classification textuelle d’une base de données photographiques par son contenu visuel Sabrina Tollari Sous la direction de Hervé Glotin.
Méthode des k plus proches voisins
Titre : Implémentation des éléments finis sous Matlab
Construction de modèles visuels
Traitements à base d’histogrammes Cours 6
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
INDUSTRIE sa Tel : 0033(0) Fax : Projet: SKIP CAPSULES – v.1 Client: CARDIVAL HEALTH.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Les Pourcentages.
Les chiffres & les nombres
Calculs et écritures fractionnaires
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
La Distribution des Données
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Web sémantique : Web de demain
Sabrina TOLLARI Paris, le 4 octobre 2007
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Mise en forme en Mathématiques
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
CALENDRIER-PLAYBOY 2020.
Caractérisation texturale des surfaces boisées dans une image Ikonos de la région de Montréal Pierre Bugnet Langis.
Les Chiffres Prêts?
Elles avaient envahi le jardin, mais derrière... 1.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Partie II: Temps et évolution Energie et mouvements des particules
1 Sélection adaptative des descripteurs visuels et dérivation de métadescripteurs contextuels dépendant du mot-clé pour l'indexation automatique d'images.
Présentation RFIA janvier 2002
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
1 Sélection adaptative des descripteurs visuels et dérivation de métadescripteurs contextuels dépendant du mot-clé pour l'indexation automatique d'images.
Sélection adaptative des descripteurs visuels dépendant du mot-clé pour un moteur de recherche d’images Sabrina Tollari, Hervé Glotin Laboratoire LSIS.
Transcription de la présentation:

Rehaussement de la classification textuelle d’images par leurs contenus visuels pour un système de recherche d’images Sabrina Tollari, Hervé Glotin, Jacques Le Maitre Laboratoire SIS - Équipe Informatique Université du Sud Toulon-Var AS Données multimédia Rennes, 22 janvier 2004

Plan Problématique Protocole du système visuo-textuel Expérimentations sur 2 corpus différents Discussion Conclusion et perspectives Cette approche multi-niveaux a pour but de permettre de faire le lien entre le signal et la sémantique au niveau le plus approprié suivant le média considéré ou la technique d’analyse utilisée et de permettre simultanément une interaction entre les différentes analyses afin d’améliorer la précision et la robustesse de chacune d’entre elles. Étudier la faisabilité d’un système visuo-textuel.

Comment raffiner une requête textuelle d’images ? Comparaison à la base de référence

Problématique Paysage Cameroun Agriculture Cohérence ? Indices textuels Paysage Cameroun Agriculture Indices visuels Perspectives WEB Cohérence ?

Nature des indices Indices textuels : Indices visuels : Indexation manuelle : mot-clés, metadata, annotation… Indexation automatique : mots clés de la légende, du texte entourant l’image… Indices visuels : Couleur : espaces RGB, HSV, Lab… Forme : contour, surface, transformée en ondelettes, transformée de Fourrier… Texture : grossièreté, contraste, directionnalité… Localisation, segmentation en zones d’intérêt… Indices=descripteurs= décrit quoi ? Subjectivité

Systèmes de recherche d’images Indices textuels seuls visuels seuls textuels et visuels Google Moteurs de recherche d’images sur le web Virage(1996) NeTra(1997) SurfImage(INRIA,1998) IKONA(INRIA,2001) Chabot(Berkeley,1995) QBIC(IBM,1995) ImageSeeker5.2(INRIA,LTU) D’après Marinette Bouet, Ali Khenchaf, Traitement de l’information multimédia : recherche du média image, Ingénierie des systèmes d'information (RSTI série ISI-NIS), 7(5-6) : 65-90, 2002.

Méthodes d’indexation automatique textuelle à partir du visuelle « Matching Words and Pictures » , par Kobus Barnard, Pinar Duygulu, Nando de Freitas, David Forsyth, David Blei, and Michael I. Jordan, Journal of Machine Learning Research, Vol 3, pp 1107-1135. Jia Li, James Z. Wang, « Automatic linguistic indexing of pictures by a statistical modeling approach », IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 25, no. 10, 14 pp., 2003. James Z. Wang, Jia Li, « Learning-based linguistic indexing of pictures with 2-D MHMMs », Proc. ACM Multimedia, pp. 436-445, Juan Les Pins, France, ACM, December 2002.

Notre objectif … … à court terme … à long terme Se donner un protocole qui nous permette de comparer différentes méthodes de classifications, de fusions… … à long terme Construire un système de recherche d’images qui fusionne efficacement l’information textuelle et visuelle

Base indexée (classes textuelles) Protocole Corpus d’images Base indexée (classes textuelles) Classer les images à partir des indices textuelles Étape A Base de test Base de références Étape B Diviser aléatoirement en deux bases 50% Étape C Reclasser les images de la base de test par rapport aux indices textuels, aux indices visuels et par fusion des classifications visuelle et textuelle

Étape A Construction de la base indexée par classification ascendante hiérarchique (CAH) des indices textuelles Lance et Williams, 1967 Principe : regrouper ensemble des images proches Intérêt : cette méthode peut être mise en œuvre sur des images n’ayant pas de lien sémantique apparent Objectif : obtenir des classes sémantiquement et numériquement significatives cette méthode peut être mis en œuvre sur des images n’ayant pas de lien sémantique directe??????? On aurait pu utiliser d’autres méthodes tels que l’algo de Kohonen, mais méthode classique a déjà fait ses preuves, Simple à mettre en œuvre.

Algorithme de la CAH Étape A Données : Sortie : Début : E : un ensemble de n éléments à classer dist : un tableau n x n de distances entre éléments D : une distance entre deux classes S : la valeur de la distance minimale que l’on souhaite entre deux classes Sortie : C : un ensemble de classes sémantiques Début : Pour chaque élément e de E Ajouter Classe(e) à C Tant qu’il existe une distance entre deux classes inférieures à S Fusionner les deux classes les plus proches

Représentation textuelle des images : le modèle vectoriel Étape A Représentation textuelle des images : le modèle vectoriel Salton, 1971 Une image est représentée par un vecteur des mot-clés Exemple : Soit une image I telle que Terme(I)={Radio} Vecteur(I)=(0,1,0) Vecteur_etendu(I)=(1,1,0) Média(1) Radio(2) Télévision(3) Thésaurus

Mesure de la similarité entre deux images Étape A Mesure de la similarité entre deux images La distance entre deux images X et Y est : dist(X,Y) = 1-

Mesure de la similarité entre deux classes Étape A Mesure de la similarité entre deux classes Critères classiques Plus proche voisin Trop de différence numérique Plus lointain voisin Trop de différence sémantique Notre critère d’agrégation contraint Classe B Un élément de la classe A CT Critère de Ward Les classifications obtenues sur notre corpus par ces critères n’étaient pas significatives

Résultats de la CAH C1 C2 Base de références Paysage, agriculture, Cameroun C1 Femme, Ouvrier, Industrie C2

Base indexée (classes textuelles) Étape B Protocole Corpus d’images Base indexée (classes textuelles) Classer les images à partir des indices textuelles Étape A Base de test Base de références Étape B Diviser aléatoirement en deux bases 50%

Classer une image de la base de test Étape C Classer une image de la base de test Base de références Paysage, agriculture, Cameroun C1 Femme, Ouvrier, Industrie C2 Classe estimée Ce (obtenue par distance minimale) Image de la base de test (classe d’origine Co) Textuels seuls, Visuels seuls Fusion tardive visuel et textuel Si Co¹Ce alors erreur

Les classifications Étape C Classification textuelle pure Classification visuelle pure Classification par fusion des classifieurs visuels et textuels

Distance de Kullback-Leibler(1951) Étape C Distance de Kullback-Leibler(1951) Soit x et y deux distributions de probabilités Divergence de Kullback-Leibler : Distance de Kullback-Leibler : Tout d’abord, nous allons définir une distance entre 2 images qui travaille aussi bien sur les vecteurs d’indices textuels et les vecteurs d’indices visuels. Entropie relative, symétrie distance

Classification textuelle pure Étape C Classification textuelle pure Vecteur moyen normalisé pour chaque classe Classe textuelle de l’image IT: Classification visuelle pure avec d définie ci-après.

Étape C 2. « Fusion précoce » des indices visuels : calcule de la distance d(IT,Ck) IT Image de la base de test distance N=2 I1 I2 I3 I4 Classe Ck de la base de références 0.2 0.6 0.3 0.8 Moyenne des N premières distances minimales Avantage : elle diminue les fausses alertes d(IT,Ck)=0.25 Pour le visuel, plusieurs caractéristiques de l’image sont possibles, donc nous allons définir une fusion précoce qui permet d’améliorer les résultats.

3. « Fusion tardive » visuo-textuelle Étape C 3. « Fusion tardive » visuo-textuelle Probabilité d’appartenance de l’image IT à la classe Ck par fusion des probabilités textuelles et visuelles : Distorsion Les coefficient de pondérations devraient être calculée à partir des performances moyennes des classifieurs. Idéalement, ils auraient dû être calculer à partir d’une base de développement et les appliquer sur la base. On note A1,A2,A3,A4,A5 les 5 attributs visuels et A6 l’attribut textuel.

Étape C 3. Définitions des probabilités d’appartenance d’une image à une classe Bien combiner A Î {Rouge, Vert, Bleu, Luminance, Direction}

3. Définitions des pondérations Étape C 3. Définitions des pondérations Soit TE(j) le taux d’erreur du classifieur utilisant les attributs Aj Élévation à la puissance p pour contraster les poids

Expérimentations

Corpus 1 (1/3) Corpus 1 600 photos de presse Indexées textuellement par une iconographe à partir des mot-clés extraits d’un thésaurus Stockées dans des fiches XML suivant la DTD de MPEG-7 Picture researcher=icongraphe=documentaliste The annotated descriptions are stored as MPEG-7 descriptions in an XML file. Automatique, Simple Les histogrammes sont en fait des vecteurs numériques

Corpus 1 Corpus 1 (2/3) Indexées visuellement par les histogrammes rouge, vert, bleu, luminance et direction (« low level features »)

Corpus 1 Corpus 1 (3/3) Segmentation en 4 régions d’intérêts pour éliminer le bruit de fond de l’image Chaque région d’intérêt possède les 5 mêmes types d’histogrammes que les images entières

Résultat de la classification obtenue par CAH Corpus 1 Résultat de la classification obtenue par CAH 24 classes contenant de 8 à 98 images sémantiquement homogènes Classe Fréquence 1 Fréquence 2 Fréquence 3 1 Femme Ouvriers Industrie 2 Cameroun Agriculture Paysage 3 Constructeurs Transport Automobile 4 Contemporaine Portrait Rhône 5 Société Famille Enfant

1. Résultats de la classification textuelle pure Corpus 1 1. Résultats de la classification textuelle pure Résultats Textuelle avec thésaurus (vecteur étendu) Textuelle sans thésaurus (vecteur non-étendu) Taux d’erreur 1.17 % 13.72 % Le thésaurus construit manuellement par une spécialiste apporte une information qui améliore la classification

2. Résultats de la classification visuelle pure Corpus 1 2. Résultats de la classification visuelle pure N 1 2 3 4 Rouge* 75.68 74.50 71.76 Vert* 79.60 78.03 76.86 76.07 Bleu* 77.64 77.25 Luminance* 79.21 Direction* 84.70 * Taux d’erreur en % Taux d’erreur théorique : 91.6%

Corpus 1 3. Classification par fusion des classifieurs visuels et textuels : Influence du paramètre p Valeur de p Rappel : taux d’erreur visuel 71 %

Résultat final : rehaussement visuo-textuel Corpus 1 Résultat final : rehaussement visuo-textuel Résultats Textuelle sans thésaurus Fusion visuo-textuelle Gain Taux d’erreur 13.72% 6.27% +54.3%

Corpus 2 (1/2) Corpus 2 Base d’images de COREL 2100 images 270 mot-clés différents en anglais Chaque image possède : De 1 à 5 mot-clés choisis manuellement De 2 à 10 bulles ou « blobs » , les segments de l’image Chaque blob de l’image possède un vecteur visuel de 40 composantes extrait par Kobus Barnard (aire, RGB, RGS, LAB, 12 coefficients de texture (filtres gaussiens),…) http://vision.cs.arizona.edu/kobus/research/data/jmlr_2003/index.html

Corpus 2 Le corpus 2 (2/2) Exemples de segmentation par « normalized cuts » Adaptation du corpus : Ajout d’un thésaurus construit à partir de WordNet Normalisation par estimation MLE de distributions Gamma des vecteurs visuels pour la génération de distributions de probabilités

Quelques résultats Corpus 2 Textuelle avec thésaurus Textuelle sans thésaurus Visuelle seule Système aléatoire Taux d’erreur 18.42 % 19.93 % 83 % 98 % Les taux d’erreurs sont plus importants qu’avec le corpus 1. Qualité du thésaurus ?

Discussion Application : recherche textuelle « classique » sous Google, puis filtrage visuel des images par rapport à la distribution des distances Distribution des distances pour chaqu’une des images de Google. Cette distribution est bimodale, ce qui permet de considérer que les images du premier mode (distances < 0.04) sont adéquates à la requête, les autres non.

Discussion Les résultats dépendent fortement de la qualité du thésaurus. Actuellement pas de thésaurus : adapté à décrire le contenu des images Exemple : ciel adapté à décrire le sens du contenu des images Exemple : couché du soleil Le choix des indices visuelles reste un problème ouvert. La mise en place d’un système de recherche utilisant ces méthodes posent des problèmes de stockage et d’accès à l’information, notamment par rapport à la segmentation visuelle des images.

Conclusion Il existe une cohérence entre l’indexation textuelle et visuelle Cette cohérence permet le rehaussement d’une recherche par mot-clés d’images par leur contenu Méthode simple et automatique, donc utilisable sur le web Ce système peut être utilisé avec n’importe qu’elle type d’indices visuels

Perspectives Le système inverse pourrait être testé : créer des classes visuelles pour corriger une mauvaise indexation textuelle Indexation automatic :  économique revenu famille personnes ?