1 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 NEWPHENIX Techniques dinterprétation des images.

1 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 NEWPHENIX Techniques dinterprétation des images pour le classement Christian Fluhr Christian.fluhr@new-phenix.com

2 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Plan de lexposé Le langage pour décrire les images (par lhumain) - mots-clefs, légendes - description des photos par les photographes - problème de multilinguisme Traitement des images - similarité visuelle - clustering Des mots pixelliques Production automatique de mots-clefs par traitement dimages - reconnaissance de situation - localisation et reconnaissance de visages - constitution de ressources pour la reconnaissance dobjets

3 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Les professionnels de la documentation produisent des mots-clefs selon des règles bien établies (mots-clefs seulement groupes nominaux, utilisation dun thésaurus) En revanche, les photos qui sont commercialisées par les agences de photos sont indexées en général par les photographes : utilisation de noms mais aussi verbes infinitifs, participes passés ou présents, même des formes conjuguées, adjectifs, adverbes,… mots composés souvent décomposés en plusieurs mots-clefs beaucoup de mots-clefs y compris sans rapport avec le contenu pour augmenter la chance dêtre trouvé Indexation manuelle

4 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Le traitement linguistique ARCHITECTURE AUTOMOBILE BLACK BUILDING CAR CARIBBEAN CLOSED COLOR COLOUR CONVEYANCE CROPPED DAY DAYLIGHT DICKEY DISPLAYED DOOR DWELLING HORIZONTAL LAND VEHICLE MODE OF TRANSPORT NAMED NOBODY OLD SAN JUAN OUTDOORS PARKED PLANT PROFILE PUERTO RICO RED REFLECTION RESIDENTIAL SIDE VIEW STILL TRANSPORT TRANSPORTATION TRAVEL TRUNK USA VEHICLE Couleur de quoi? Mot ambigu Concepts absent

5 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 interrogation Les utilisateurs ne veulent se plier à aucune discipline même pour trouver plus efficacement: Mélange de questions sac de mots : voiture femme sac et de question en langage naturel : homme marchant dans la rue Ce qui provoque inévitablement des ambiguïtés : assiette orange (est-ce une assiette orange (LN) ou une assiette avec une orange ou une assiette dans une pièce orange, …(sac de mots)

6 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Le traitement linguistique Les mots-clefs et légendes sont dans différentes langues, les interrogations sont dans différentes langues, il faut trouver les photos dans tous les cas. Cela demande de résoudre des ambiguïtés sémantiques dans la même langue en demandant par exemple le sens du mot avocat. Dans le cas de traductions, on peut être amené à séparer des sens sans que la question soit très compréhensible pour lutilisateur le problème se complique si on a plus de deux langues car lintersection des sens peut amener à des sens très fin.

7 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 interrogation En interrogation interlingue, lalignement des sens en vocabulaire ouvert est quasi impossible surtout à expliquer à lutilisateur. Français anglais allemand sheep Schaf Mouton viande de mouton mutton Hammel mouton castré

8 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Les ambiguïtés sémantiques sont résolues par des cooccurrences de concepts aussi bien dans les requêtes que les descriptions des photos. Comme souvent aujourdhui les requêtes sont sans contexte, on pose la question à lutilisateur Exemple: avocat : fruit ou juriste Mais dans « une grue qui vole » on ne pose pas de question interrogation

11 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Traitement de limage Malgré tous les efforts de traitement de la langue, la mauvaise qualité de lindexation, les questions mal posées et courtes ont tendance à donner beaucoup de réponses avec du bruit. Une solution consiste à proposer à lutilisateur de choisir limage la plus proche de ce quil cherche. On lui propose alors des images similaires par un calcul de ressemblance en traitant les pixels de limage

12 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Information globale Informations locales Ex: Histogramme Principes SIGNATURE Texture, Couleurs et Formes Traitement de limage

15 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Utilisation de points dintérêt pour la comparaison dobjets Reconnaissance dobjets à lintérieur dune image Reconnaissance dobjets partiellement occultés (jusquà 60%)

18 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 clustering Le clustering consiste à prendre une ensemble dimages (par exemple réponses à une requête) et à regrouper dans des classes les images les plus semblables. On se base sur le calcul de proximité entre images pour établir une matrice de distance entres les images. On utilise ensuite un algorithme de clustering (dans le cas qui suit on a utilisé lalgorithme SNN Shared Nearest Neighbor )

21 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Des mots pixelliques Le regroupement de contextes pixelliques locaux en un nombre limité de classes de contextes permet de traiter ces classes comment on le ferait avec des mots pour un texte. Les classes ont une certaine fréquence dans chaque photo (TF) Les classes ont une certaine répartition dans la base (IDF) On peut aussi faire des fichiers inversés qui permettent un accès à des centaines de millions dimages alors quune comparaison séquentielle sur un seul processeur ne peut guère dépasser quelques millions

22 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Vers une sémantique commune textes - images Les mots pixelliques résolvent des problèmes de performance sur très gros volume (similitude clustering, …) mais ils ne permettent pas de réduire le gap sémantique. Lutilisateur précise son besoin en utilisant sa langue. Les mots pixelliques nont aucune signification. Le passage de lun à lautre nest pas possible simplement. La seule solution à ce problème est de décrire les images par des concepts exprimés par des mots.

23 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Vers une sémantique commune textes - images Les principales voies pour mettre des mots-clefs : Reconnaissance de type, de situation générales Localisation et reconnaissance de visage Reconnaissance dobjets, danimaux, …

24 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Vers une sémantique commune textes - images La reconnaissance de concepts se fait par apprentissage Éventuellement Détourage de Lobjet Calcul de Caractéristiques de limage Images positives Images négatives Catégorisation Calcul dune fonction de séparation entre positifs et négatifs

25 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Exemple de classificateur SVM Support Vector Machines Il faut trouver la meilleure fonction qui sépare bien les deux sous ensembles mais qui permet une généralisation cest-à-dire qui permettra de bien classer des images nouvelles.

27 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Reconnaissance de situations Nécessite une excellente segmentation des images (segmentation morphologique hiérarchique) Constitution de bases dictionnaires, voire dontologies. Zone 0 : ciel Zone 6 : herbe Zone 11 : eau Zone 15 : herbe

28 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Reconnaissance de situations This image is a photo in color. The photo surely represents an exterior scene. One sees sky of color blue, along the upper width. One also sees grass of color yellow, along the lower width. This image is a photo in color. The photo surely represents an exterior scene. One sees sky of color blue, upper right. One also sees buildings of color brown, on the left.

30 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Reconnaissance de visages Deux approches : Méthode globale : on fait un apprentissage pixellique global par SVM par exemple Méthode géométrique : on mesure des caractéristiques géométriques propres au visage, yeux, nez, bouche et les écarts

31 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Reconnaissance dobjet ou danimaux Segmenter lobjet pour napprendre que ses caractéristiques propres peut présenter un intérêt Plus il y a dexemples diversifiés, meilleure est la reconnaissance Les reconnaissances fausses servent dexemples négatifs pour améliorer lapprentissage

32 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Les ressources pour la reconnaissance On ne peut envisager de reconnaître un grand nombre de concepts sans disposer dun nombre important dexemples pour chacun deux. La construction de ces ressources (léquivalent des dictionnaires et grammaires pour le texte) ne peut senvisager quavec une large part dautomatisation. Le web est une source de connaissance quil faut structurer Il nest pas besoin de traiter tout mais de se contenter de ce qui est sûr.

33 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Création dune ontologie multmédia List of concepts Search engine crawler Web filtering images sounds Filtered raw data signatures Ontologies like wordnet Text samples Extraction of relations Fusion of ontologies Grounded Multimedia ontology speech2text Syntactic analysis

34 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Interrogation interlingue Ontologie dobjets crée à partir de WordNet ENTITY object living thingnatural objectartifact organismcelestial body rock articlecommodity consumer goods Sous-ensemble de lontologie Ontology produite: 24000 feuilles Conversion en RDF/OWL

35 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Problème des mots polysémiques Google image : recherche avec le mot « avocat » Google image : recherche avec le mot « avocado » Le mot nest plus ambigu mais les images présentent à la fois le fruit et larbre

36 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Interrogation interlingue page informationnelle Google image : recherche en anglais avec « avocado tree » Google image : recherche en anglais avec « avocado fruit»

37 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Désambiguisation grace à lontologie hyperonyme si ambigu + mot identifiant un object jaguar +car +cat

38 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Amélioration de la qualité des réponses dans google image si On utilise lontologie Utilisation dune ontologie

40 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Interrogation par un concept général ou précis Recherche des espèces de chien –Golden retriever –Staffordshire bullterrier –Kuvasz Le concept de chien est bien mieux représenté par la réunion de ces images que par linterrogation par « chien »

41 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Choix de bon représentant pour lapprentissage Elimination des images les moins representatives (ex : car) Bon représentant: Mauvais représentants Voiture coupée par les Bords de limage Mauvais représentant Objet trop petit Mauvais représentant Plusieurs objets dans la même image

42 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 Conclusion La description du contenu dune image par la langue à partir du seul traitement des pixels nen est quà ses début. De gros progrès ont déjà été faits mais un très gros travail de construction de ressources reste à faire en même temps que lamélioration des technologies de discrimination des concepts à reconnaitre Il est sur quavec laugmentation du nombre de concepts que lon essaie de reconnaitre, la difficulté va augmenter. Il faut sappuyer sur les métadonnées car elles vont permettre de limiter les hypothèses de concepts à reconnaître.

1 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 NEWPHENIX Techniques dinterprétation des images.

Présentations similaires

Présentation au sujet: "1 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 NEWPHENIX Techniques dinterprétation des images."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

1 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 NEWPHENIX Techniques dinterprétation des images.

Présentations similaires

Présentation au sujet: "1 NEWPHENIX Rencontre des professionnels de lI.S.T. 2008, Nancy, 17 juin 2008 Copyright © NewPhenix 2008 NEWPHENIX Techniques dinterprétation des images."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back