Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001
Estelle Le Roux - S minaire LIR - 26/06/01 2 Plan (1/2) 1 LINA 1 LINA : archivage et communication de laudiovisuel 2 La recherche : nouvelle indexation de laudiovisuel 2 Lindexation audiovisuelle (AV) 1 Les difficult s de lindexation AV 2 Quel(s) type(s) de texte choisir ? 1 Exemple issu dune notice 3 L crit en aide à lindexation AV 4 Mon sujet au sein du processus de lindexation audiovisuelle 5 D limitations de mon sujet
Estelle Le Roux - S minaire LIR - 26/06/01 3 Plan (2/2) 3 Lextraction dinformation (EI) 1 Le corpus 2 Pourquoi ce corpus ? 3 Un extrait du corpus 4 Le processus de lEI 5 Analyse syntaxique robuste 6 Des amorces pour des patrons 7 Lapport s mantique 8 Exemple 4 Travail en cours
Estelle Le Roux - S minaire LIR - 26/06/01 4 Plan LINA Lindexation audiovisuelle Lextraction dinformation " Travail en cours
Estelle Le Roux - S minaire LIR - 26/06/01 5 LINA : archivage et communication de laudiovisuel (1/2) Cr ation en 1975 de lInstitut National de lAudiovisuel. " Objectifs : constitution et communication du patrimoine audiovisuel sauvegarder, num riser, restaurer et transmettre les missions AV. " Quelques nombres 45 ans darchives TV ; 60 ans darchives radiophoniques. 1,5 million d'heures de radio et de t l vision ; O 2,5 millions de documents AV.
Estelle Le Roux - S minaire LIR - 26/06/01 6 LINA : archivage et communication de laudiovisuel (2/2) Source aliment e par : lensemble des diffuseurs nationaux de t l vision et les 5 chaînes nationales de Radio France. " Source toujours en pleine croissance. Source in puisable dimages et de sons.
Estelle Le Roux - S minaire LIR - 26/06/01 7 La recherche : nouvelle indexation de laudiovisuel Lessor du num rique modifie la mani re dindexer les documents audiovisuels : fond vid o en cours de num risation ; ajout de m tadonn es dans les documents ; volution vers de nouvelles pistes dindexation. " " Les diffuseurs Si la loi de juin 1992 est de port e g n rale, son d cret d'application du 31 d cembre 1993 concerne: " les diffuseurs nationaux hertziens; les missions d'origine fran aise en premi re diffusion; les documents crits d'accompagnement (conducteur d' mission, rapport de chef de chaîne, dossier de presse...). Est galement admis le principe d'un d pôt exhaustif ou s lectif selon le type d' mission. En outre, un protocole technique fixe les normes de d pôt (support Beta SP, protocole d'enregistrement...). " Page modifi e le: 19/09/00 " Commentaires et questions : " Aspect contenu / Aspect technique Acc s à la version l g re du site | © 2000 Institut National de l'Audiovisuel
Estelle Le Roux - S minaire LIR - 26/06/01 8 Plan LINA Lindexation audiovisuelle Lextraction dinformation (EI) " Travail en cours
Estelle Le Roux - S minaire LIR - 26/06/01 9 Les difficult s de lindexation AV Lindexation des documents AV pose deux probl mes : Comment d couper les unit s audiovisuelles devant tre index es ? ; ¥ Quelle signification donner à une image ? Piste : indexer les documents AV en saidant de textes.
Estelle Le Roux - S minaire LIR - 26/06/01 10 Quel(s) type(s) de texte choisir ? (1/2) Les vid os sont toujours accompagn es de textes avant-programme, conducteur dantenne, fiche M diam trie, notices Probl mes : tous les textes ne peuvent venir en aide à lindexation AV ; certains textes int ressants sont sous format papier ; il est parfois difficile dobtenir certains l ments num ris s.
Estelle Le Roux - S minaire LIR - 26/06/01 11 Exemple issu dune notice Dans l'affaire BOUSQUET, la chambre d'accusation de la cour d'appel de Paris, s'est d clar e comp tente pour instruire le dossier et ce contre l'avi s du Parquet. C'est une victoire pour les familles de juifs d port s : RENE BOUSQUET est de photos de lui sur un film montrant des enfants juifs 7 EMISSION,record=240 JOURNAL DU JOUR : BOUSQUET PARIS{OFF} JUSTICE BOUSQUET RENE INCULPATION PROCEDURE JUDICIAIRE GUERRE MONDIALE 2EME,{OFF} GOUVERNEMENT VICHY,{OFF} COLLABORATION-POLITIQUE CRIME DE GUERRE SINZ CAROLINE PARIS JOURNAL TELEVISE FRANCE REGIONS 3 accus de collaboration dans les rafles de juifs. -PHOTOS de BOUSQUET, jeune. -Superposit°dsuncamp. Liste (noms propres, genres, ) Langage libre (r sum ) Langage documentaire Les notices, bien qu tant num ris es et poss dant un r sum du document AV ne nous sont pas utiles pour faire de lextraction dinformation : trop de formats diff rents ; document risquant dentraîner des pertes dinformations pertinentes.
Estelle Le Roux - S minaire LIR - 26/06/01 12 Quel(s) type(s) de texte choisir ? (2/2) Transcription de l mission audiovisuelle Int r t : tout ce qui est dit au cours du document AV apparaît crit ; Probl mes : ce qui est dit nest pas forc ment ce que lon voit ; A la transcription est rare pour le moment. Textes «ext rieurs» aux documents AV : les articles de la presse crite 0 Int r ts : parlent du m me v nement que la vid o et la plupart des articles sont num ris s.
Estelle Le Roux - S minaire LIR - 26/06/01 13 L crit en aide à lindexation AV Tour de France Epreuve du 05 juillet 1999 Articles de journaux Vid o Jacky Durand doit r cup rer de sa chute au passage du Gois.
Estelle Le Roux - S minaire LIR - 26/06/01 14 Mon sujet au sein du processus de lindexation audiovisuelle Informations pertinentes extraite des journaux chute (Jacky Durand, au passage du Gois) abandon (Jacky Durand) Indexation audiovisuelle Les coureurs Description de l tape Jacky Durand chute au passage du Gois. Ontologie Vido Autres modules
Estelle Le Roux - S minaire LIR - 26/06/01 15 D limitations de mon sujet La cr ation dune ontologie et la mani re de relier informatiquement le texte à la vid o seront faites par dautres personnes à lINA. Lextraction dinformation ne va se faire que sur des documents dactualit (aucun document de fiction, talk show, etc.).
Estelle Le Roux - S minaire LIR - 26/06/01 16 Plan LINA Lindexation audiovisuelle Lextraction dinformation (EI) " Travail en cours
Estelle Le Roux - S minaire LIR - 26/06/01 17 Le Corpus " Domaine sportif : Tour de France cycliste 99. Articles issus des journaux : Le Monde, LEquipe, Le Parisien, Lib ration et de lA.F.P. " Taille du corpus apprentissage: mots (pour le mois de juillet 1999).
Estelle Le Roux - S minaire LIR - 26/06/01 18 Pourquoi ce corpus ? (1/2) v nement dactualit film et relat dans les journaux crits ; v nement qui se d roule durant 3 semaines ; 1999 : ann e assez r cente pour obtenir des informations num riques issues de la presse et les vid os sont disponibles à lInath que ;
Estelle Le Roux - S minaire LIR - 26/06/01 19 Pourquoi ce corpus ? (2/2) diff rents types de journaux pour avoir un corpus repr sentatif de diff rents types de langage ; les donn es de ces journaux, en format num rique, sont accessibles.
Estelle Le Roux - S minaire LIR - 26/06/01 20 Un extrait du corpus 3e tape: "bis repetita" pour Steels. LAVAL (Mayenne), 6 juil (AFP). En deux jours, le Belge Tom Steels (Mapei) a remport deux victoires dans le Tour de France dont il s'est adjug, mardi, à Laval, la troisi me tape. ( ) Au lendemain de la chute massive du passage du Gois, l'Espagnol Javier Pascual Llorente a tent de poursuivre sa route malgr ses nombreuses contusions et un poignet douleureux. Distanc apr s 25 kilom tres, il a fini par mettre pied à terre six kilom tres plus loin. Au classement g n ral provisoire, Steels est pass à la deuxi me place, à 17 secondes de Kirsipuu. O'Grady est point à la troisi me place, à 20 secondes, tout comme l'Am ricain Lance Armstrong, le vainqueur du prologue. Extrait issu de l A.F.P. du 06 juillet 1999
Estelle Le Roux - S minaire LIR - 26/06/01 21 Le processus de lEI Analyse syntaxique robuste Patrons d extraction ontologie Patrons d indexation Enrichissement de l ontologie Amorces Extraction de l informatio n « contenu » « contenant »
Estelle Le Roux - S minaire LIR - 26/06/01 22 Analyse syntaxique robuste " Outil : Lexter v11 (Bourigault, 94) utilisant Cordial 7 pour l tiquetage des textes ; Int r t : pour les patrons dextraction.
Estelle Le Roux - S minaire LIR - 26/06/01 23 Des amorces pour des patrons Id e : rep rer des termes appartenant à une m me cat gorie syntaxique et se trouvant dans les m mes contextes. instancier des patrons et apporter de nouvelles sp cialisations qui peuvent s'ajouter à l'ontologie. " Principe : Donn es dentr e : un texte tiquet syntaxiquement, des cat gories contenant des amorces et des patrons ; Donn es en sortie : de nouveaux termes viennent augmenter les cat gories. " Inspiration : AutoSlog (Riloff & Shepherd, 97) 0 Diff rence principale : Riloff et Shepherd prennent moins en compte le contexte.
Estelle Le Roux - S minaire LIR - 26/06/01 24 Lapport s mantique (1/2) ¥ Outil : Zellig 7 (Habert & Fabre, 99). Int r t : visualisation des regroupements de mots suivant le contexte dans lequel ils apparaissent utile pour compl ter des cat gories ayant des amorces ; 0 aide dans la constitution et/ou l'enrichissement des classes de l'ontologie du domaine.
Estelle Le Roux - S minaire LIR - 26/06/01 25 Lapport s mantique (2/2) Linformation extraite à laide des patrons dextraction doit servir à lindexation des documents audiovisuels. La s mantique joue alors un rôle principal pour pouvoir instancier des patrons dindexation. Patrons d indexation : ils correspondent à des structures g n riques d finissant un niveau et un type de description sur les objets montr s, les paroles entendues ; ils sont li s à une ontologie.
Estelle Le Roux - S minaire LIR - 26/06/01 26 Exemple (1/4) Top Objet Spatial Pays Nationalit Ville Personne Coureur cycliste Encadrant PersonnelTour Spectateur L ontologie va tre formul e avec une logique de description. Exemple d une ontologie sur le cyclisme
Estelle Le Roux - S minaire LIR - 26/06/01 27 Exemple (2/4) Amorces Fan premi deuxi Patron dextraction Da (Nc) (Np) (Np) Y (Np) Y Va Vm (Mc) Nc Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport _Vm (deux_Mc) victoires_Nc Le a remport victoire
Estelle Le Roux - S minaire LIR - 26/06/01 28 Exemple (3/4) Patron : le : Da (Nc) (Np) (Np) Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) Amorces : Fran Belge_Nc : - n'apparaît pas dans les amorces ; - se trouve dans le contexte dans lequel on attend une nationalit. Cr ation d une nouvelle amorce : Enrichissement de la base de connaissances de l ontologie. Enrichissement de l ontologie
Estelle Le Roux - S minaire LIR - 26/06/01 29 Exemple (4/4) Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport _Vm (deux_Mc) victoires_Nc Instance de Nationalit Instance de CoureurCycliste Instance de Equipe Instance de Num aCommeNationalit (CoureurCycliste, Nationalit ) 0 aCommeNationalit (Tom Steels, Belge) AcommeMembre(Equipe, CoureurCycliste) 0 aCommeMembre(Mapei, Tom Steels) aRemport Victoire(CoureurCycliste, Num) 0 aRemport Victoire(Tom Steels, deux) Patron d indexation
Estelle Le Roux - S minaire LIR - 26/06/01 30 Plan LINA Lindexation audiovisuelle Lextraction dinformation " Travail en cours
Estelle Le Roux - S minaire LIR - 26/06/01 31 Travail en cours Validation de lontologie avec dautres personnes à lINA. Cr ation des cat gories qui permettront dinstancier des patrons. Cr ation et instanciation des patrons dextraction dinformation. Cr ation et instanciation de patrons d'indexation. " Visualisation des documents audiovisuels relatant le Tour de France 1999.
Estelle Le Roux - S minaire LIR - 26/06/01 32 Bibliographie D. Bourigault (1994), LEXTER : un Logiciel d'Extraction et de TERminologie. Application à l'extraction des connaissances à partir de textes, Th se, Paris. " B. Habert & C. Fabre (1999), Elementary Dependency Trees for Identifying Corpus-specific Semantic Classes, Computers and the Humanities, vol. 33, n° 3, pp " E. Riloff & J. Shepherd (1997), A Corpus-Based Approach for Building Semantic Lexicons, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing (EMNLP-2), Brown University, Providence, Rhode Island, USA.