Reveal-This Ou comment générer des métadonnées utiles automatiquement
Francis BODSON2 Consortium Académiques Développement Utilisateurs Privés
Francis BODSON3 Objectifs Sources d’informations multiples –Papier –Web –Télévision –Radio Recherche de l’information de plus en plus compliquée –Services à la demande pertinents
Francis BODSON4 Description générale
Francis BODSON5 Généralités Améliorer le contenu de documents multimédia par de l’information sémantique: –Vignettes significatives –Locuteurs identifiés –Visages –Nom propres –Informations sur les sujets et les faits –Hyperliens automatiques
Francis BODSON6 Méthodes Suite de CIMWOS –Utilisation de Parole –Reconnaissance et transcription de la parole –Reconnaissance du locuteur Image (vidéo) –Détection de formes (visages) –Reconnaissance de visages Texte –Reconnaissance des textes
Francis BODSON7 Eléments de recherche (IST) ASR (Automatic Speech recognition) –Moteur destiné à reconnaître le locuteur et assurer la transcription vers le texte La détection de forme et plus particulièrement le visage ainsi que sa reconnaissance Traitement des éléments textuels
Francis BODSON8 Eléments de recherche Analyse de texte –Catalogage automatique Base d’indexation Résumé automatique –Multilinguisme (traduction automatique) Représentations multilingues –Eléments de recherche basés sur les mêmes outils –Profils
Francis BODSON9 Indexation Indexation croisée entre médias Indexation croisée entre moteurs d’analyse Classification thématique
Francis BODSON10 Applications Contenu poussé –Sur base d’un profil Dynamique Statique –Sur base de demandes ciblées ou précontraintes (mots clés) –Par approches successives (intuitives)
Francis BODSON11 Applications Contenus tirés –Requêtes complexes Professionnels Logiques floues –Pertinence des réponses Niveau de confiance dans la réponse Qualité des réponses obtenues Approches successives à mémoire
Francis BODSON12 Domaines Information Documentation automatique Catalogage –Archives –Contenus entrants Fournisseurs de contenu traditionnels: diffuseurs, production, publication, publicité Nouveaux entrants dans les médias: DVR, VoD, internet à haut débit Nouveaux fournisseurs de contenu: financiers, ventes, services, paris Fournisseurs de contenu internet: webcasters, portails Opérateurs de réseaux: DSL, modem câble, 2G/3G mobile Equipementiers: appareils, logiciel, e-commerce, plate-formes d’accès
Francis BODSON13 Standards MPEG-7 MPEG-21 SVG SMIL the Corpus Encoding Standard (CES) of the Text Encoding Initiative the XML standardization efforts of the W3C such as XLink and XPointer the semantic metadata markup languages such as RDF, Topic Maps and TimeML
Francis BODSON14 System architecture
Francis BODSON15
Francis BODSON16 Logique du projet Durée 30 mois 10 groupes de tâches 33 documents à délivrer
Francis BODSON17 WP1 Management WP9 Assessment and Evaluation WP3 Subsystems & System Specifications WP8 System Integration WP10 Dissemination And Exploitation WP2 User Requirements and Data Collection WP5WP6 WP7 Cross-lingual Translation Subsystem Development WP1 WP 4 Cross-media Content Analysis & Indexing Subsystem Development Cross-media Summarisation Subsystem Development
Francis BODSON18 Besoins Données audio annotées (Français principalement) Données vidéos annotées dans des domaines variés (voyages, politique, …) Testeurs –Annotations de sujets –Générateurs de questions –Evaluateurs
Francis BODSON19 Conclusions Projet ambitieux Destiné à couvrir des besoins naissants mais de plus en plus présents Formalisation de catalogues
Francis BODSON20 Questions