La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Sélection des traits visuels en fonction du concept recherché à partir dimages mal annotées.

Présentations similaires


Présentation au sujet: "1 Sélection des traits visuels en fonction du concept recherché à partir dimages mal annotées."— Transcription de la présentation:

1 1 Sélection des traits visuels en fonction du concept recherché à partir dimages mal annotées

2 2 Problématique Quels traits visuels doit-on utiliser pour bien discriminer un certain concept (mot) ? Etant donnés : le problème de la malédiction de la dimension et lexistence de traits visuels non-informatifs Sélection des dimensions La couleur rouge est discriminante pour une tomate mûre, mais pas pour une fleur.

3 3 La malédiction de la dimension Les espaces de grande dimension possèdent des propriétés particulières qui font que les intuitions géométriques peuvent se révéler fausses Plus la dimension de lespace est grande (Beyer et al., 1999) (Weber et al., 1998) : Plus les vecteurs sont équidistants entre eux Plus le partitionnement de lespace devient exponentiel Plus lespace est creux Plus la taille des bases de données augmente de façon exponentielle… Lapprentissage et la recherche par similarité sont donc plus difficiles sur des espaces de grande dimension Sélection des dimensions

4 4 Proposition Utiliser la méthode classique de lAnalyse Linéaire Discriminante (LDA) ? Difficulté : Les bases dimages réelles (ex : Web, COREL) ne sont pas étiquetées par régions dimage Proposition : Approximer la LDA (ALDA) water boat harbor building ? Par contre, les régions autour du « building » seront très changeantes… Sélection des dimensions

5 5 Rappel : LDA versus ACP LACP recherche laxe qui représente le mieux les données La LDA recherche laxe qui sépare le mieux les classes Sélection des dimensions

6 6 Approximation des variances inter-/intra- classes pour estimer le pouvoir discriminant (LDA) Pour déterminer les traits visuels les plus discriminants en fonction du mot w i considéré à partir de la base dapprentissage Séparation des images (et pas des régions) en 2 classes : Celles qui sont annotées par ce mot Celles qui ne sont pas annotées par ce mot Calcul des variances interclasse (B) et intraclasse (W) Pour chaque trait visuel v j et pour chaque mot w i, on calcule le pouvoir discriminant F: Nous montrons théoriquement que lordre des meilleurs F estimés par ALDA est le même que par LDA. Sélection des dimensions

7 7 Principe de démonstration de lALDA Images annotées par le mot « horse » Images non annotées par le mot « horse » Proposition : Le pouvoir discriminant sur les ensembles T et G peut être exprimé linéairement en fonction du pouvoir discriminant sur les ensembles S et G Sélection des dimensions avec n G >> n T

8 8 Exemple : approximation de la LDA (ALDA) B de RGB B de LAB stdA de LAB stdG de RGS Texture 15 Pour le mot SNOW Sélection des dimensions

9 9 B de RGB B de LAB stdA de LAB stdG de RGS Texture 15 Pour le mot SNOW Sélection des dimensions Exemple : approximation de la LDA (ALDA)

10 10 Détermination du nombre de traits visuels à prendre en compte pour bien discriminer un mot Nous proposons de prendre les N dimensions visuelles qui cumulent % de la somme des pouvoirs discriminants de tous les traits. Soient les traits visuels v j ordonnés dans lordre décroissant des pouvoirs discriminants, nous choisissons N tel que : =1 Sélection des dimensions

11 11 Exemples de clusters visuels dans lespace usuel à 40 dimensions avec ou sans sélection par ALDA Sans sélection Avec sélection Écarts-types rouge de RVB, vert de rvS et a de Lab Rouge de RVb, rouge de rvS et a de Lab Sélection des dimensions

12 12 Scores moyens des classifications de 52 mots en fonction du nombre moyen de dimensions Expériences avec les traits visuels usuels (U) Sélection des dimensions

13 13 Scores moyens des classifications de 52 mots en fonction du nombre moyen de dimensions Expériences avec les traits visuels usuels (U) Sélection des dimensions

14 14 Scores de classification de chaque mot sans/avec sélection de traits visuels Sélection des dimensions

15 15 Résumé des résultats 40DIMULabU avec sélection ACP U 1.0_ Nombre moyen de dimensions (-85%) 3.1 (-92%) 8 (-80%) NS Moyen Classification (+29%) (+43%) (+11%) Nous montrons expérimentalement que dautres descripteurs visuels, appelé hétérogénéité (Martinet et al., 2005) dérivés très rapidement des traits visuels U, apportent une information complémentaire que lon peut utiliser pour améliorer les scores (fusion tardive jusquà +69%). Nous obtenons expérimentalement des résultats similaires avec un autre critère de sélection : lApproximation de la Diversité Marginale Maximale (AMMD). Sélection des dimensions

16 16 Perspectives Vers un moteur de recherche dimages sur le Web Les deux grands défis du multimédia sur le Web : Permettre le passage à léchelle utiliser des techniques qui savent gérer un grand nombre de données et les adapter au multimédia Réduire le fossé sémantique Combiner plusieurs sources dinformations (texte, audio, visuel, structure des documents…)

17 17 Applications et perspectives Vers un moteur de recherche dimages sur le Web Requête textuelle et/ou visuelle traitement représentation de la requête représentation des images similarité images résultats Images mal annotées

18 18 Applications et perspectives Vers un moteur de recherche dimages sur le Web Requête textuelle et/ou visuelle Images mal annotées traitementapprentissage représentation de la requête représentation des images mieux annotées similarité images résultats auto-annotation, filtrage… sélection des dimensions visuelles en fonction du mot de la requête

19 19 Résumé de la tâche 2 de la campagne dévaluation ImagEVAL

20 20 Description de la tâche 2 dImagEVAL Corpus : 700 urls 700 pages Web images Web 25 requêtes : chaque requête est composée de mots-clés et dimages But : trouver parmi les images celles qui sont pertinentes pour chaque requête Pour le test officiel : 300 images doivent être rendus Les MAP (Mean Average Precision) sont calculés par le logiciel standard treceval Les images pertinentes sont inconnues (entre 10 et 100 par requête)

21 21 Exemples de requêtes « Poplar tree » + « Picasso Guernica » +

22 22 Notre proposition Extraction de descripteurs visuels et calcul de la distance D v entre les images de la base et les images requêtes Utilisation de tfidf pour le texte et normalisation Modèle « naif » de fusion du texte et de limage D(Q,,t) = t x D T (Q, ) + (1 – t) x D V (Q, ) Utilisation de lAnalyse Linéaire Discriminante (LDA) pour déterminer les dimensions visuelles les plus discriminantes Pour chaque requête, les mots clés sont utilisés sur un moteur de recherche Web pour retrouver des images pertinentes par rapport au texte Ces images « mal annotées » servent de base dapprentissage pour la LDA

23 23 Scores MAP en fonction du taux t de texte dans la fusion

24 24 Scores MAP en fonction du nombre de dimensions sélectionnées et de lensemble dapprentissage choisi

25 25 Temps de calcul de la distance en fonction du nombre de dimensions de lespace

26 26 Merci de votre attention

27 27 Extension des traits visuels : lhétérogénéité (H) Inspiré des travaux en psychovision Le cerveau humain interprète en contexte La valeur de lhétérogénéité pour le trait visuel p de limage d est lentropie : J. Martinet, Y. Chiramella, P. Mulhem, « A model for weighting image objects in home photographes », ACM CIKM, pages , 2005 J. Martinet, « Un modèle vectoriel relationnel de recherche dinformations adapté aux images », Thèse de doctorat, Université Joseph Fourier, Grenoble, 2004 Caractéristiques visuelles dun mot

28 28 40DIMU versus 40DIMH Caractéristiques visuelles dun mot

29 29 Scores moyens des classifications de 52 mots en fonction du nombre moyen de dimensions Expériences avec les traits dhétérogénéité (H)

30 30 Scores moyens des classifications de 52 mots en fonction du nombre moyen de dimensions Expériences fusions tardives de U et de H


Télécharger ppt "1 Sélection des traits visuels en fonction du concept recherché à partir dimages mal annotées."

Présentations similaires


Annonces Google