Extraction d’information de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001.

Slides:



Advertisements
Présentations similaires
Mai 68 Les murs ont la parole.
Advertisements

Page 1 Retour sur le e- tourisme. Page 2 Quelques chiffres…
A l’issue des conseils de classe de 3ème,
1 Georgeta Bădău CRÉATION ET GESTION DUN BLOG AVEC LA PLATE-FORME LEWEBPEDAGOGIQUE.COM Séance no.4.
CAMPAGNE DE PROMOTION DE L’AGRICULTURE BIOLOGIQUE
Classe : …………… Nom : …………………………………… Date : ………………..
CONCEPTION DES BASES DE DONNÉES: modèle entités-associations
Les Prepositions.
JXDVDTEK – Une DVDthèque en Java et XML
Formation Technique 6èmepartie.
Module d’Enseignement à Distance pour l’Architecture Logicielle
Le Modèle Logique de Données
Présentation de l’application « Livret personnel de compétences »
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Gestion Informatisée du Brevet Informatique & Internet
Développement d’applications web
Construire une base de données bibliographiques Elaborer un site web
CALENDRIER PLAYBOY 2020 Cliquez pour avancer.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Recherche Documentaire et traitement de l’information
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
Louis la grenouille Paroles et musique: Matt Maxwell.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
C'est pour bientôt.....
Mon école est le monde! Par Charlotte Diamond.
Veuillez trouver ci-joint
Portail CVM Vision pédagogique.
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
SUJET D’ENTRAINEMENT n°4
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Le workflow Encadré par: M . BAIDADA Réalisé par: ATRASSI Najoua
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
CALENDRIER-PLAYBOY 2020.
Les Chiffres Prêts?
La création d’index à partir d’articles de presse pour apporter une aide à l’indexation audiovisuelle Estelle Le Roux – INA / LIMSI Séminaire LIR – 11.
Présentation site: CNLAPS - Assemblée Générale du 23/05/2014.
RÉNOVATION BTS Comptabilité et Gestion 2015 Atelier situations professionnelles & PGI Cas Jupiter Média Chantal Bricard Jean-Marie Duplan.
: le tutoriel d’autoformation à la recherche documentaire en Santé Je gère ma bibliographie  Je rédige ma bibliographie : le tutoriel.
Espace collaboratif du CODEV Blog, WIKI, Forum: c’est quoi?  Blog - Publication périodique et régulière d’articles La vocation d’un Blog est d'être un.
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
Question de gestion 13 : Le document peut-il être vecteur de coopération ? Le document : - Dématérialisation des documents - Partage, mutualisation, sécurisation.
Mediator 9 - Un outil de développement multimédia 3AC Techno/Informatique.
Gabriel Dumouchel, doctorant Université de Montréal Atelier Jouvence 2011 Atelier Jouvence 2011.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 5 Support de cours rédigé par Bernard COFFIN Université.
SÉMINAIRE : « COMMENT ÉCRIRE UN ARTICLE DE PRESSE EN FRANÇAIS ? » MARDI 22 MARS ALLIANCE FRANÇAISE DE NOVOSSIBIRSK.
Lycée Albert Camus _ Nantes C2I au BO n°15 du 14 avril 2005.
Tutoriel n°4 : Administration Technique Formation : profil Administrateur.
UTILISER POWEPOINT Cours de Dominique MEGANCK D’après un diaporama issu du site
Un outil de communication : la liste de diffusion Mis à jour en juillet 2008 Anne Maincent-Bourdalé CRDoc IUT Paul Sabatier.
Identités et métissages
Mathilde Guiné – Outils-Réseaux - Rencontre “Le projet associatif, un mode d'Emplois” - 30 novembre 2007, Perpignan Pratiques et outils collaboratifs -
Initiation aux bases de données et à la programmation événementielle Outil de création des tables Support de TD rédigé par Bernard COFFIN Université Paris.
La vidéo en classe de fle. La vidéo est un support attractif. Son utilisation, suppose une variation des exercices proposés, afin d’éviter des habitudes.
La création des données d’exemplaire pour un exemplarisateur Sudoc.
Les « enquêtes d’analyse critique » en études sociales sur
La création des données d’exemplaire pour un responsable de Centre Régional.
Bibliothèque Universitaire Séance 5 : Les bases publiques Légifrance et Eur-lex.
Formation à l’utilisation de K-Sup V5 février 2009 CRISI - COM.
Présentation du fonctionnement des « Dossiers partagés » dans la version de la Rentrée Scolaire 2012 Alexis OLLIER 11 juin 2012.
©Armelle Thomas - mars Diigo, le gestionnaire de bookmarks en ligne de nouvelle génération ADBS RA Grenoble Les jeudi de l’Internet pratique - Mars.
FORMATIONENT/SVT Saint Orens Vendredi 15 novembre 2013.
1 Initiation aux bases de données et à la programmation événementielle Construction d’un état Support de TD rédigé par Bernard COFFIN Université Paris.
Présentation de l’espace collaboratif ENT « ressource BAC PRO MEI » Formation du 19 février 2013 Cahier des charges: Réaliser un espace de ressources dématérialisées.
Transcription de la présentation:

Extraction d’information de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

Estelle Le Roux - S minaire LIR - 26/06/01 2 Plan (1/2) 1 L’INA 1 L’INA : archivage et communication de l’audiovisuel 2 La recherche : nouvelle indexation de l’audiovisuel 2 L’indexation audiovisuelle (AV) 1 Les difficult s de l’indexation AV 2 Quel(s) type(s) de texte choisir ? 1 Exemple issu d’une notice 3 L’ crit en aide à l’indexation AV 4 Mon sujet au sein du processus de l’indexation audiovisuelle 5 D limitations de mon sujet

Estelle Le Roux - S minaire LIR - 26/06/01 3 Plan (2/2) 3 L’extraction d’information (EI) 1 Le corpus 2 Pourquoi ce corpus ? 3 Un extrait du corpus 4 Le processus de l’EI 5 Analyse syntaxique robuste 6 Des amorces pour des patrons 7 L’apport s mantique 8 Exemple 4 Travail en cours

Estelle Le Roux - S minaire LIR - 26/06/01 4 Plan L’INA L’indexation audiovisuelle L’extraction d’information " Travail en cours

Estelle Le Roux - S minaire LIR - 26/06/01 5 L’INA : archivage et communication de l’audiovisuel (1/2) Cr ation en 1975 de l’Institut National de l’Audiovisuel. " Objectifs : constitution et communication du patrimoine audiovisuel sauvegarder, num riser, restaurer et transmettre les missions AV. " Quelques nombres 45 ans d’archives TV ; 60 ans d’archives radiophoniques. 1,5 million d'heures de radio et de t l vision ; O 2,5 millions de documents AV.

Estelle Le Roux - S minaire LIR - 26/06/01 6 L’INA : archivage et communication de l’audiovisuel (2/2) Source aliment e par : l’ensemble des diffuseurs nationaux de t l vision et les 5 chaînes nationales de Radio France. " Source toujours en pleine croissance. Source in puisable d’images et de sons.

Estelle Le Roux - S minaire LIR - 26/06/01 7 La recherche : nouvelle indexation de l’audiovisuel L’essor du num rique modifie la mani re d’indexer les documents audiovisuels : fond vid o en cours de num risation ; ajout de m tadonn es dans les documents ; volution vers de nouvelles pistes d’indexation. " " Les diffuseurs Si la loi de juin 1992 est de port e g n rale, son d cret d'application du 31 d cembre 1993 concerne: " les diffuseurs nationaux hertziens; les missions d'origine fran aise en premi re diffusion; les documents crits d'accompagnement (conducteur d' mission, rapport de chef de chaîne, dossier de presse...). Est galement admis le principe d'un d pôt exhaustif ou s lectif selon le type d' mission. En outre, un protocole technique fixe les normes de d pôt (support Beta SP, protocole d'enregistrement...). " Page modifi e le: 19/09/00 " Commentaires et questions : " Aspect contenu / Aspect technique Acc s à la version l g re du site | © 2000 Institut National de l'Audiovisuel

Estelle Le Roux - S minaire LIR - 26/06/01 8 Plan L’INA L’indexation audiovisuelle L’extraction d’information (EI) " Travail en cours

Estelle Le Roux - S minaire LIR - 26/06/01 9 Les difficult s de l’indexation AV L’indexation des documents AV pose deux probl mes : Comment d couper les unit s audiovisuelles devant tre index es ? ; ¥ Quelle signification donner à une image ? Piste : indexer les documents AV en s’aidant de textes.

Estelle Le Roux - S minaire LIR - 26/06/01 10 Quel(s) type(s) de texte choisir ? (1/2) Les vid os sont toujours accompagn es de textes avant-programme, conducteur d’antenne, fiche M diam trie, notices… Probl mes : tous les textes ne peuvent venir en aide à l’indexation AV ; certains textes int ressants sont sous format papier ; il est parfois difficile d’obtenir certains l ments num ris s.

Estelle Le Roux - S minaire LIR - 26/06/01 11 Exemple issu d’une notice Dans l'affaire BOUSQUET, la chambre d'accusation de la cour d'appel de Paris, s'est d clar e comp tente pour instruire le dossier et ce contre l'avi s du Parquet. C'est une victoire pour les familles de juifs d port s : RENE BOUSQUET est de photos de lui sur un film montrant des enfants juifs 7 EMISSION,record=240 JOURNAL DU JOUR : BOUSQUET PARIS{OFF} JUSTICE BOUSQUET RENE INCULPATION PROCEDURE JUDICIAIRE GUERRE MONDIALE 2EME,{OFF} GOUVERNEMENT VICHY,{OFF} COLLABORATION-POLITIQUE CRIME DE GUERRE SINZ CAROLINE PARIS JOURNAL TELEVISE FRANCE REGIONS 3 accus de collaboration dans les rafles de juifs. -PHOTOS de BOUSQUET, jeune. -Superposit°dsuncamp. Liste (noms propres, genres, … ) Langage libre (r sum ) Langage documentaire Les notices, bien qu’ tant num ris es et poss dant un r sum du document AV ne nous sont pas utiles pour faire de l’extraction d’information : trop de formats diff rents ; document risquant d’entraîner des pertes d’informations pertinentes.

Estelle Le Roux - S minaire LIR - 26/06/01 12 Quel(s) type(s) de texte choisir ? (2/2) Transcription de l’ mission audiovisuelle Int r t : tout ce qui est dit au cours du document AV apparaît crit ; Probl mes : ce qui est dit n’est pas forc ment ce que l’on voit ; A la transcription est rare pour le moment. Textes «ext rieurs» aux documents AV : les articles de la presse crite 0 Int r ts : parlent du m me v nement que la vid o et la plupart des articles sont num ris s.

Estelle Le Roux - S minaire LIR - 26/06/01 13 L’ crit en aide à l’indexation AV Tour de France Epreuve du 05 juillet 1999 Articles de journaux Vid o Jacky Durand doit r cup rer de sa chute au passage du Gois.

Estelle Le Roux - S minaire LIR - 26/06/01 14 Mon sujet au sein du processus de l’indexation audiovisuelle Informations pertinentes extraite des journaux chute (Jacky Durand, au passage du Gois) abandon (Jacky Durand) Indexation audiovisuelle Les coureurs Description de l ’ tape Jacky Durand chute au passage du Gois. Ontologie Vido Autres modules

Estelle Le Roux - S minaire LIR - 26/06/01 15 D limitations de mon sujet La cr ation d’une ontologie et la mani re de relier informatiquement le texte à la vid o seront faites par d’autres personnes à l’INA. L’extraction d’information ne va se faire que sur des documents d’actualit (aucun document de fiction, talk show, etc.).

Estelle Le Roux - S minaire LIR - 26/06/01 16 Plan L’INA L’indexation audiovisuelle L’extraction d’information (EI) " Travail en cours

Estelle Le Roux - S minaire LIR - 26/06/01 17 Le Corpus " Domaine sportif : Tour de France cycliste 99. Articles issus des journaux : Le Monde, L’Equipe, Le Parisien, Lib ration et de l’A.F.P. " Taille du corpus apprentissage: mots (pour le mois de juillet 1999).

Estelle Le Roux - S minaire LIR - 26/06/01 18 Pourquoi ce corpus ? (1/2) v nement d’actualit film et relat dans les journaux crits ; v nement qui se d roule durant 3 semaines ; 1999 : ann e assez r cente pour obtenir des informations num riques issues de la presse et les vid os sont disponibles à l’Inath que ;

Estelle Le Roux - S minaire LIR - 26/06/01 19 Pourquoi ce corpus ? (2/2) diff rents types de journaux pour avoir un corpus repr sentatif de diff rents types de langage ; les donn es de ces journaux, en format num rique, sont accessibles.

Estelle Le Roux - S minaire LIR - 26/06/01 20 Un extrait du corpus 3e tape: "bis repetita" pour Steels. LAVAL (Mayenne), 6 juil (AFP). En deux jours, le Belge Tom Steels (Mapei) a remport deux victoires dans le Tour de France dont il s'est adjug, mardi, à Laval, la troisi me tape. ( … ) Au lendemain de la chute massive du passage du Gois, l'Espagnol Javier Pascual Llorente a tent de poursuivre sa route malgr ses nombreuses contusions et un poignet douleureux. Distanc apr s 25 kilom tres, il a fini par mettre pied à terre six kilom tres plus loin. Au classement g n ral provisoire, Steels est pass à la deuxi me place, à 17 secondes de Kirsipuu. O'Grady est point à la troisi me place, à 20 secondes, tout comme l'Am ricain Lance Armstrong, le vainqueur du prologue. Extrait issu de l ’ A.F.P. du 06 juillet 1999

Estelle Le Roux - S minaire LIR - 26/06/01 21 Le processus de l’EI Analyse syntaxique robuste Patrons d ’ extraction ontologie Patrons d ’ indexation Enrichissement de l ’ ontologie Amorces Extraction de l ’ informatio n « contenu » « contenant »

Estelle Le Roux - S minaire LIR - 26/06/01 22 Analyse syntaxique robuste " Outil : Lexter v11 (Bourigault, 94) utilisant Cordial 7 pour l’ tiquetage des textes ; Int r t : pour les patrons d’extraction.

Estelle Le Roux - S minaire LIR - 26/06/01 23 Des amorces pour des patrons Id e : rep rer des termes appartenant à une m me cat gorie syntaxique et se trouvant dans les m mes contextes. instancier des patrons et apporter de nouvelles sp cialisations qui peuvent s'ajouter à l'ontologie. " Principe : Donn es d’entr e : un texte tiquet syntaxiquement, des cat gories contenant des amorces et des patrons ; Donn es en sortie : de nouveaux termes viennent augmenter les cat gories. " Inspiration : AutoSlog (Riloff & Shepherd, 97) 0 Diff rence principale : Riloff et Shepherd prennent moins en compte le contexte.

Estelle Le Roux - S minaire LIR - 26/06/01 24 L’apport s mantique (1/2) ¥ Outil : Zellig 7 (Habert & Fabre, 99). Int r t : visualisation des regroupements de mots suivant le contexte dans lequel ils apparaissent utile pour compl ter des cat gories ayant des amorces ; 0 aide dans la constitution et/ou l'enrichissement des classes de l'ontologie du domaine.

Estelle Le Roux - S minaire LIR - 26/06/01 25 L’apport s mantique (2/2) L’information extraite à l’aide des patrons d’extraction doit servir à l’indexation des documents audiovisuels. La s mantique joue alors un rôle principal pour pouvoir instancier des patrons d’indexation. Patrons d ’ indexation : ils correspondent à des structures g n riques d finissant un niveau et un type de description sur les objets montr s, les paroles entendues ; ils sont li s à une ontologie.

Estelle Le Roux - S minaire LIR - 26/06/01 26 Exemple (1/4) Top Objet Spatial Pays Nationalit Ville Personne Coureur cycliste Encadrant PersonnelTour Spectateur L ’ ontologie va tre formul e avec une logique de description. Exemple d ’ une ontologie sur le cyclisme

Estelle Le Roux - S minaire LIR - 26/06/01 27 Exemple (2/4) Amorces Fan premi deuxi Patron d’extraction Da (Nc) (Np) (Np) Y (Np) Y Va Vm (Mc) Nc Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport _Vm (deux_Mc) victoires_Nc Le a remport victoire

Estelle Le Roux - S minaire LIR - 26/06/01 28 Exemple (3/4) • Patron : le : Da (Nc) (Np) (Np) Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) • Amorces : Fran Belge_Nc : - n'apparaît pas dans les amorces ; - se trouve dans le contexte dans lequel on attend une nationalit. Cr ation d ’ une nouvelle amorce : Enrichissement de la base de connaissances de l ’ ontologie. Enrichissement de l ’ ontologie

Estelle Le Roux - S minaire LIR - 26/06/01 29 Exemple (4/4) Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport _Vm (deux_Mc) victoires_Nc Instance de Nationalit Instance de CoureurCycliste Instance de Equipe Instance de Num aCommeNationalit (CoureurCycliste, Nationalit ) 0 aCommeNationalit (Tom Steels, Belge) AcommeMembre(Equipe, CoureurCycliste) 0 aCommeMembre(Mapei, Tom Steels) aRemport Victoire(CoureurCycliste, Num) 0 aRemport Victoire(Tom Steels, deux) Patron d ’ indexation

Estelle Le Roux - S minaire LIR - 26/06/01 30 Plan L’INA L’indexation audiovisuelle L’extraction d’information " Travail en cours

Estelle Le Roux - S minaire LIR - 26/06/01 31 Travail en cours Validation de l’ontologie avec d’autres personnes à l’INA. Cr ation des cat gories qui permettront d’instancier des patrons. Cr ation et instanciation des patrons d’extraction d’information. Cr ation et instanciation de patrons d'indexation. " Visualisation des documents audiovisuels relatant le Tour de France 1999.

Estelle Le Roux - S minaire LIR - 26/06/01 32 Bibliographie D. Bourigault (1994), LEXTER : un Logiciel d'Extraction et de TERminologie. Application à l'extraction des connaissances à partir de textes, Th se, Paris. " B. Habert & C. Fabre (1999), Elementary Dependency Trees for Identifying Corpus-specific Semantic Classes, Computers and the Humanities, vol. 33, n° 3, pp " E. Riloff & J. Shepherd (1997), A Corpus-Based Approach for Building Semantic Lexicons, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing (EMNLP-2), Brown University, Providence, Rhode Island, USA.