La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

Présentations similaires


Présentation au sujet: "Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation."— Transcription de la présentation:

1 Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation et la Recherche par le Contenu Sémantique Membres du jury Président :M. Jean Caelen Rapporteurs : M. Bernard Mérialdo Mme. Sylvie Calabretto Examinateurs : Mme. Catherine Berrut M. Georges Quénot

2 2 Développement de bases de documents vidéo Technologies numériques Croissance de la taille des archives Différents genres de documents Besoins: organiser, accéder à, retrouver des documents (ou des morceaux de documents) vidéo Journal téléviséÉmission sportive Vidéosurveillance Problématique

3 3 Introduction (1/4) Objectif : satisfaire le besoin en information dun utilisateur Correspondance InterrogationIndexation Recherche dinformation Collection de documents (corpus)

4 4 Aspects spécifiques à la vidéo Contenu multimodal (image, audio, texte) Temps Événements Interprétations multiples Besoin pour la RI Intégrer et modéliser ces aspects Introduction (2/4)

5 5 Correspondance Recherche dinformation dans des documents vidéo InterrogationIndexation Spécifique dépendant du type du média Exemple 1 : « les segments vidéo montrant Bill Clinton » Exemple 2 : « les segments vidéo dans lesquels Bill Clinton parle » Générique indépendant du type de média Exemple 3 : « les segments vidéo décrivant une manifestation » Représentation Introduction (3/4) Représentation Annotations Descripteurs Segmentation Analyse

6 6 Signal Descripteurs numériques Bill Clinton, microphon e Baghdad, Kofi Anan, U.N. Concepts Bill Clinton devant un microphone Personne parle de Kofi Anan Concepts + relations Interprétations multiples Précision Introduction (4/4) ….U.N. secretary general Kofi Anan smash into Baghdad is a critical opportunity to achieve the outcome that all of us would …

7 7 Objectifs Représentation du contenu la multimodalité (visuel, audio et texte) Représenter les caractéristiques temporelles et les événements les interprétations multiples Intégration dans un système de recherche de vidéos Répondre à des requêtes variées Évaluer lapport en terme de précision Modélisation

8 8 Plan Problématique et contexte État de lart Modélisation par média Modélisation multimodale Standards Proposition Modélisation vidéo Modèle opérationnel Instanciation des facettes Expérimentations Conclusion et perspectives

9 9 Modélisation du contenu visuel Vidéo « Suite de plans où lunité de lieu est conservée » Changement de scène [Chen & al, 01] [Lee & al, 00] Scène « Suite de scènes et plans où lunité de sujet est conservée » Séquence « Suite dimages successives filmées sans coupure de la caméra » Mouvement de caméra [Quénot & al, 01] [Fablet & al., 00] Plan État de lartPropositionExpérimentationsConclusion Perspectives « une image représentative du plan » Analyse : couleur, texture, formes [Celentano & al, 02], [Etievent & al, 99 ], Extraction des concepts : (les travaux dans TRECVID) Contenu sémantique peu représenté Image-clé

10 10 Modélisation du contenu audio Vidéo État de lartPropositionExpérimentationsConclusion Perspectives Description bas niveau Information contenue dans la parole non traitée L2L1 L3 Séparation des caractéristiques audio [Kemp & al. 00], [Pinquier & al. 01] Segmentation en histoires [Besacier & al. 04], (les travaux dans TRECVID) Détection de changement de locuteur [Gauvain & al. 02] Transcription automatique de la parole

11 11 Modélisation du contenu texte État de lartPropositionExpérimentationsConclusion Perspectives (U3W) U HEADLINE (WCOM) WORLDCOM CNN NEWS Reconnaissance du texte dans la vidéo [Sato & al. 99] Document : description par des métadonnées (titre, taille, auteur, …) [Hunter & al. 99] Données texte dans la vidéo : sous-titre, télétexte,... Descriptions génériques

12 12 Modélisation en strates [Chua & al. 02] Annotation en Strates Interconnectées (IA-Strata [Prié 1999], E-SIA [Egyed-Zsigmond 03]) Modélisation du contenu multimodal image texte audio « … Bill Clinton...» Bill Clinton politique discours apparition Politicien État de lartPropositionExpérimentationsConclusion Perspectives Choix des éléments dinformation Représentation avec des graphes : relations peu représentatives

13 13 Représentation du contenu Multimédia Archivage des documents Indexation automatique Initiatives de normalisation Dublin Core MPEG-7 Standards État de lartPropositionExpérimentationsConclusion Perspectives

14 14 Dublin Core : ensemble des 15 éléments Ensemble déléments destiné à présenter des ressources du WEB. Extension en sous-éléments permettant de créer un schéma de description vidéo Description par métadonnées Dublin Core 9. Format 10. Identifiant de la ressource 11. Source 12. Langage 13. Relation 14. Couverture 15. Gestion des droits État de lartPropositionExpérimentationsConclusion Perspectives 1. Titre 2. Auteur ou Créateur 3. Sujet et mots-clef 4. Description 5. Éditeur 6. Autre contributeur 7. Date 8. Type de ressource

15 15 Standard pour la description du contenu d'information audiovisuelle Sadresse à différentes applications. Fournit un cadre de description de données audiovisuelles flexible et extensible. Définit un ensemble de méthodes et doutils pour les différentes phases de la description des documents multimédia. MPEG-7 Extraction des caractéristiques Description Application État de lartPropositionExpérimentationsConclusion Perspectives MPEG-7

16 16 MPEG-7 État de lartPropositionExpérimentationsConclusion Perspectives Les Descripteurs (D) Syntaxe et sémantique de la représentation dune caractéristique Les Schémas de Description (SD) Structure et la sémantique des relations entre ses composants Un Langage de définition des descripteurs (DDL) Création de nouveaux SDs et Ds Syntaxe basée sur les Schémas XML.

17 17 Modélisation Standard Description générique Pas duniformité de description Bilan SignalConcept Concept +relation visuel - audio - texte - Visuel+audio+texte Peu de relations État de lartPropositionExpérimentationsConclusion Perspectives Description limitée (choix des concepts et peu de relations) Peu de sémantique par rapport au contenu de la vidéo Ne représente pas du contenu sémantique de la vidéo Signal Concepts Concepts + relations

18 18 Plan Problématique et contexte État de lart Modélisation par média Modélisation multimodale Standards Proposition Modélisation vidéo Modèle opérationnel Instanciation des facettes Expérimentations Conclusion et perspectives

19 19 Modéliser le contenu vidéo en se basant sur une description par concepts et relations Prendre en compte laspect multimodalité Une représentation selon plusieurs points de vue (facettes) du document vidéo État de lartPropositionExpérimentationsConclusion Perspectives Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition Modélisation vidéo

20 20 EMIR² [Mechkour 95] Image représentation multi-facettes Facette : un point de vue sur une image Facettes Structurelle Spatiale Perceptive Symbolique Modèle de base Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes État de lartPropositionExpérimentationsConclusion Perspectives Facette symbolique Facette spatiale Facette structurelle image # i objet # 1 microphone est un homme devant composé de est un objet #2 composé de Proposition

21 21 Définition Graphes bipartis et orientés Deux types de nœuds : concepts et relations Notation graphique Concepts et relations organisés en treillis Modèle opérationnel : les Graphes Conceptuels Bill Clinton parle de Irak État de lartPropositionExpérimentationsConclusion Perspectives Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition Parle de Parle R Homme politique Bill Clinton pays Irak Saddam Hussein C Treillis de conceptsTreillis de relations

22 22 Avantages pour la RI Uniformité par rapport aux composants dun système de RI [Mechkour 95] [Ounis & Pasca 98] Uniformité par rapport aux modalités Précision des descriptions Fonction de correspondance : opérateur de projection Modèle opérationnel : les Graphes Conceptuels Parle_de Pays Homme politique g 1 (requête) Parle_de Irak Bill Clinton Parle_de Saddam Hussein État de lartPropositionExpérimentationsConclusion Perspectives Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition g 2 Parle deParle R Homme politique Bill Clinton pays Irak Saddam Hussein C g 2 (document)

23 23 État de lartPropositionExpérimentationsConclusion Perspectives Proposition : Modélisation multifacettes Facette temporelle Facette événementielle Forme de représentation générique Décrire les caractéristiques communes dans le document vidéo indépendamment du type de média Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition Forme de représentation Spécifique Décrire les caractéristiques spécifiques à chaque type de média Sous-Facette visuelle Sous-Facette audio Sous-Facette texte Sous-Facette couleur Sous-Facette texture Sous-Facette spatiale Sous-Facette mouvement Facette sémantique Facette signal

24 24 État de lartPropositionExpérimentationsConclusion Perspectives Instanciation des facettes Facette temporelle Facette évènementielle Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition Sous-Facette visuelle Sous-Facette audio Sous-Facette texte Sous-Facette couleur Sous-Facette texture Sous-Facette spatiale Sous-Facette mouvement Facette sémantique Facette signal

25 25 La facette temporelle : Définition Ensemble des relations temporelles qui relient les éléments dinformation dans le document vidéo. Un concept Un événement Une unité audiovisuelle (UAV) État de lartPropositionExpérimentationsConclusion Perspectives Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition UAV1 égale UAV2 UAV2 chevauche UAV1 UAV1 UAV2 UAV1 UAV2 …

26 26 Les concepts : les évènements (Ev) Les relations temporelles (RT) Les 13 relations dAllen [Allen 83] Graphe de base La facette temporelle : Instanciation(1/2) segment vidéo T EV Cont. T EV T RT Cont. après T RT avanttouchependant personne act. T EV Groupe act.transport discoursmanifestationrencontre accident État de lartPropositionExpérimentationsConclusion Perspectives Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition

27 27 Exemple : « segment vidéo montrant une manifestation avant une explosion » La facette temporelle : Instanciation(2/2) État de lartPropositionExpérimentationsConclusion Perspectives segment vidéo manifestation Cont. explosion avant Cont. Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition

28 28 La sous-facette audio : Définition Unité de repérage : segment audio Transcription de la parole Un objet audio (AO) : toute information symbolique issue du contenu audio. Extraction des concepts audio : personnes, lieux, organisations Identification du locuteur Mandela admits the may have differences of opinion with Mr. Clinton but says the president and first lady have the right instincts in dealing with major État de lartPropositionExpérimentationsConclusion Perspectives Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition

29 29 La sous-facette audio : Instanciation(1/2) État de lartPropositionExpérimentationsConclusion Perspectives Les concepts audio (ASC) Les relations audio R a Graphes de base Parle de Parle Ra Segment vidéo ASC1 Cont. ASC2 T Ra Cont. (parle de) Segment vidéo ASC1 Cont. T Ra (parle) personne lieu espace Géographique terre eau continent Pays île citécapitale mer océan lac rivière sexe objet organisation religion économique politique femellemâle agent occupation politicien sportive acteur people ASC Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition

30 30 Exemples 1. « segment vidéo dans lequel Bill Clinton parle » 2. « segment vidéo dans lequel Bill Clinton parle de lIrak » La sous-facette audio : Instanciation(2/2) État de lartPropositionExpérimentationsConclusion Perspectives Parle de Segment vidéoBill Clinton Cont. Irak Cont. Segment vidéo Bill Clinton Cont. parle Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition

31 31 Unité de repérage : plan vidéo Un objet image (IO) : toute information symbolique issue du contenu visuel. La sous-facette visuelle : Définition État de lartPropositionExpérimentationsConclusion Perspectives Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition arbre verdure Bill Clinton texte microphone

32 32 Les concepts Visuels (VSC) Les relations visuelles R v Graphe de base Exemple : « segment vidéo dans lequel Bill Clinton apparaît » La sous-facette visuelle : Instanciation État de lartPropositionExpérimentationsConclusion Perspectives Apparaît ….. Rv Segment vidéo VSC1 Cont. T Rv Segment vidéo Bill Clinton Cont. apparaît Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition VSC objets animal chien chevaux … personne foule people …. Combustion feu fumée objet fabriqué chaise téléphone drapeau microphone Bill Clinton scène

33 33 Résumé État de lartPropositionExpérimentationsConclusion Perspectives Modélisation multifacette Forme de représentation générique Facette temporelle Facette évènementielle Forme de représentation spécifique Facette sémantique Facette signal Modèle opérationnel : formalisme des graphes conceptuels Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition Facette temporelle Facette évènementielle Forme de représentation générique Décrire les caractéristiques communes dans le document vidéo indépendamment du type de média Forme de représentation Spécifique Décrire les caractéristiques spécifiques à chaque type de média Sous- Facette visuelle Sous- Facette audio Sous- Facette texte Sous-Facette couleur Sous-Facette texture Sous-Facette spatiale Sous-Facette mouvement Facette sémantique Facette signal

34 34 Intégration Sous-Facette audio Parle_de Contenu Audio SBD Extraction dimage-clé Vidéo Plan i+1 Parole dans le plan capabe visual semantic a s the visual semantic as the visual semantic Ao1Ao2 Clinton Irak Parle ASR derriere Sous-factte spatiale Io1Io2 Clinton Drapeau US Sous-Facette visuelle Cyan, blanc, rouge Sous-facette couleur Sous-facette texture rayé Uniforme Facette signal État de lartPropositionExpérimentationsConclusion Perspectives Contenu Visuel Modélisation et Instanciation Modèle de base Modèle opérationnel Instanciation des facettes Proposition

35 35 Problématique et contexte État de lart Modélisation par média Modélisation multimodale Standards Proposition modélisation vidéo Modèle opérationnel Instanciation des facettes Expérimentations Conclusion et perspectives Plan

36 36 Mise en œuvre Mise en œuvre partielle Expérimentations sur le corpus TREC Utilisation de la transcription de laudio (automatique) Utilisation de lannotation collaborative (automatique + manuelle) Relations implémentées : Qui parle ? De quoi parle-t-on ? Qui apparaît ? État de lartPropositionExpérimentations Conclusion Perspectives

37 37 Mise en œuvre du Modèle Facette temporelle Facette évènementielle Sous-Facette visuelle Sous-Facette audio Sous-Facette texte Sous-Facette couleur Sous-Facette texture Sous-Facette spatiale Sous-Facette mouvement Facette sémantique Facette signal (1) Qui parle (2) De quoi on parle État de lartPropositionExpérimentations Conclusion Perspectives Mise en oeuvre Corpus Application (1) Application (2)

38 38 Corpus Collection TRECVID heures de vidéo (journaux télévisés ABC et CNN), 60 heures pour lentraînement + 60 heures pour le test. Audio : transcription fournie par le LIMSI, Visuel : annotation collaborative en utilisant loutil Video-Annex [Lin & al. 03] Texte : quelques résultats de ATR qui sont difficilement exploitables Collection TRECVID heures de vidéo (journaux télévisés ABC et CNN) pour le test + la collection TRECVID 2003 pour lentraînement État de lartPropositionExpérimentations Conclusion Perspectives Mise en oeuvre Corpus Application (1) Application (2)

39 39 Segment audio Seg. 1 Seg 2 Seg. 3 Seg. 4 transcription automatique de la parole Seg.1 Le locuteur courant est Bill Jones Hello im Bill Jones … ……as ABCs Carole Bob Thanks very much Carole Bob Seg. 2 Le locuteur suivant est Carole Bob Seg. 4 Le locuteur précédent est Carole Bob Détection directe : Utilisation des patrons linguistiques Détection par propagation : Utilisation de la similarité acoustique entre les segments de parole audio pour compléter la détection État de lartPropositionExpérimentations Conclusion Perspectives Détection didentité du locuteur Application 1 : « Savoir qui parle » [Charhad & al. 05] Principe : Analyse des Transcriptions de la Parole Mise en oeuvre Corpus Application (1) Application (2)

40 40 Exemples de patrons linguistiques Locuteur segment précédent Locuteur segment courant Locuteur segment suivant État de lartPropositionExpérimentations Conclusion Perspectives Mise en oeuvre Corpus Application (1) Application (2) thank you … [ name ] thanks … [ name ] [ name ] reporting good morning [ name ] (*) (*) at the beginning of the speech segment [name] for ABC news [name] [place] for [ABC news | CNN] Im [name] [name] [CNN | ABC] tonight with [name] ABCs [name] [name] reports [name] has the [latest | story] good morning [name] (*) (*) at the end of the speech segment

41 41 Résultats Durée totale de vidéo s Parole de « news » annotée s Évaluation sur une partie de la collection TRECVID 2003 Vérité terrain : annotation manuelle de 2 heures État de lartPropositionExpérimentations Conclusion Perspectives Mise en oeuvre Corpus Application (1) Application (2) PrédictionDurée préditeDurée correcte Directe545.8 s14.8 %454.6 s83.3 % Propagation s52.7 % s82.4 %

42 42 ….u.n. secretary general kofi anan smash into baghdad is a critical opportunity to achieve the outcome that all of us would prefer a peaceful and principled end to this crisis the secretary general is backed by the unambiguous position of the security council saddam hussein must give the weapons inspectors full free unfettered access to all suspected sites anywhere in irak… ASR État de lartPropositionExpérimentations Conclusion Perspectives Extraction des concepts Principe Analyse du contenu audio : Transcription Automatique de la Parole (ASR) Données externes : ontologies spécifiques Patrons linguistiques Mise en oeuvre Corpus Application (1) Application (2) Signal ….u.n. secretary general kofi anan smash into baghdad is a critical opportunity to achieve the outcome that all of us would prefer a peaceful and principled end to this crisis the secretary general is backed by the unambiguous position of the security council saddam hussein must give the weapons inspectors full free unfettered access to all suspected sites anywhere in irak… Concepts Personne Lieu Organisation

43 43 CLOVIS : Présentation de linterface État de lartPropositionExpérimentations Conclusion Perspectives

44 44 Application à la recherche par concepts État de lartPropositionExpérimentations Conclusion Perspectives Application sur les « topics » TRECVID 2004 Topic TRECVID 2004Transcription CLOVIS 128. US Congressman Henry Hyde's face, whole or part, from any angle [Henry Hyde] (parle) ou [Personne] (parle de ) [Henry Hyde] 133. Saddam Hussein [Saddam Hussein] (parle) ou [Personne] (parle de ) [Saddam Hussein] 134. Boris Yeltsin [Boris Yeltsin] (parle) ou [Personne] (parle de ) [Boris Yeltsin] 135. Sam Donaldson's face. No other people visible with him [Sam Donaldson] (parle) ou [Personne] (parle de ) [Sam Donaldson] 136. Person hitting a golf ball[Personne] (parle de ) [P.G.A.] 137. Benjamin Netanyahu [Benjamin Netanyahu] (parle) ou [Personne] (parle de ) [Benjamin Netanyahu]

45 45 Application à la recherche par concepts Application sur les « topics » TRECVID 2004 État de lartPropositionExpérimentations Conclusion Perspectives

46 46 Plan Problématique et contexte État de lart Modélisation par média Modélisation multimodale Standards Proposition modélisation vidéo Modèle opérationnel Instanciation des facettes Expérimentations Conclusion et perspectives

47 47 Conclusion État de lartPropositionExpérimentations Conclusion Perspectives Objectifs Conception dun modèle de représentation du contenu vidéo Intégration : application à la recherche par le contenu Contribution Théorique : modèle de représentation multifacette Deux formes de représentation intégrées Modèle opérationnel : les Graphes Conceptuels (GC) Extension du modèle par des ontologies Pratique: Implémentation (en partie) du schéma de modélisation Extraction des concepts Identification et reconnaissance des locuteurs Contenu visuel : exploitation des annotations Application à la recherche par le contenu

48 48 Perspectives État de lartPropositionExpérimentations Conclusion Perspectives Court terme Modélisation Exploiter les résultats danalyse visuelle (signal) Intégrer les différentes représentations Application (Indexation et Recherche Vidéo) Compléter lintégration du modèle dans un système de recherche vidéo Évaluer lapport du modèle proposé Long terme Utiliser des connaissances externes pour enrichir les descriptions dans le schéma de modélisation

49 49 Merci de votre attention


Télécharger ppt "Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation."

Présentations similaires


Annonces Google