La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction d’information de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001.

Présentations similaires


Présentation au sujet: "Extraction d’information de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001."— Transcription de la présentation:

1 Extraction d’information de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001

2 Estelle Le Roux - S minaire LIR - 26/06/01 2 Plan (1/2) 1 L’INA 1 L’INA : archivage et communication de l’audiovisuel 2 La recherche : nouvelle indexation de l’audiovisuel 2 L’indexation audiovisuelle (AV) 1 Les difficult s de l’indexation AV 2 Quel(s) type(s) de texte choisir ? 1 Exemple issu d’une notice 3 L’ crit en aide à l’indexation AV 4 Mon sujet au sein du processus de l’indexation audiovisuelle 5 D limitations de mon sujet

3 Estelle Le Roux - S minaire LIR - 26/06/01 3 Plan (2/2) 3 L’extraction d’information (EI) 1 Le corpus 2 Pourquoi ce corpus ? 3 Un extrait du corpus 4 Le processus de l’EI 5 Analyse syntaxique robuste 6 Des amorces pour des patrons 7 L’apport s mantique 8 Exemple 4 Travail en cours

4 Estelle Le Roux - S minaire LIR - 26/06/01 4 Plan L’INA L’indexation audiovisuelle L’extraction d’information " Travail en cours

5 Estelle Le Roux - S minaire LIR - 26/06/01 5 L’INA : archivage et communication de l’audiovisuel (1/2) Cr ation en 1975 de l’Institut National de l’Audiovisuel. " Objectifs : constitution et communication du patrimoine audiovisuel sauvegarder, num riser, restaurer et transmettre les missions AV. " Quelques nombres 45 ans d’archives TV ; 60 ans d’archives radiophoniques. 1,5 million d'heures de radio et de t l vision ; O 2,5 millions de documents AV.

6 Estelle Le Roux - S minaire LIR - 26/06/01 6 L’INA : archivage et communication de l’audiovisuel (2/2) Source aliment e par : l’ensemble des diffuseurs nationaux de t l vision et les 5 chaînes nationales de Radio France. " Source toujours en pleine croissance. Source in puisable d’images et de sons.

7 Estelle Le Roux - S minaire LIR - 26/06/01 7 La recherche : nouvelle indexation de l’audiovisuel L’essor du num rique modifie la mani re d’indexer les documents audiovisuels : fond vid o en cours de num risation ; ajout de m tadonn es dans les documents ; volution vers de nouvelles pistes d’indexation. " " Les diffuseurs Si la loi de juin 1992 est de port e g n rale, son d cret d'application du 31 d cembre 1993 concerne: " les diffuseurs nationaux hertziens; les missions d'origine fran aise en premi re diffusion; les documents crits d'accompagnement (conducteur d' mission, rapport de chef de chaîne, dossier de presse...). Est galement admis le principe d'un d pôt exhaustif ou s lectif selon le type d' mission. En outre, un protocole technique fixe les normes de d pôt (support Beta SP, protocole d'enregistrement...). " Page modifi e le: 19/09/00 " Commentaires et questions : " Aspect contenu / Aspect technique Acc s à la version l g re du site | © 2000 Institut National de l'Audiovisuel

8 Estelle Le Roux - S minaire LIR - 26/06/01 8 Plan L’INA L’indexation audiovisuelle L’extraction d’information (EI) " Travail en cours

9 Estelle Le Roux - S minaire LIR - 26/06/01 9 Les difficult s de l’indexation AV L’indexation des documents AV pose deux probl mes : Comment d couper les unit s audiovisuelles devant tre index es ? ; ¥ Quelle signification donner à une image ? Piste : indexer les documents AV en s’aidant de textes.

10 Estelle Le Roux - S minaire LIR - 26/06/01 10 Quel(s) type(s) de texte choisir ? (1/2) Les vid os sont toujours accompagn es de textes avant-programme, conducteur d’antenne, fiche M diam trie, notices… Probl mes : tous les textes ne peuvent venir en aide à l’indexation AV ; certains textes int ressants sont sous format papier ; il est parfois difficile d’obtenir certains l ments num ris s.

11 Estelle Le Roux - S minaire LIR - 26/06/01 11 Exemple issu d’une notice Dans l'affaire BOUSQUET, la chambre d'accusation de la cour d'appel de Paris, s'est d clar e comp tente pour instruire le dossier et ce contre l'avi s du Parquet. C'est une victoire pour les familles de juifs d port s : RENE BOUSQUET est de photos de lui sur un film montrant des enfants juifs 7 EMISSION,record=240 JOURNAL DU JOUR : BOUSQUET PARIS{OFF} JUSTICE BOUSQUET RENE INCULPATION PROCEDURE JUDICIAIRE GUERRE MONDIALE 2EME,{OFF} GOUVERNEMENT VICHY,{OFF} COLLABORATION-POLITIQUE CRIME DE GUERRE SINZ CAROLINE PARIS JOURNAL TELEVISE FRANCE REGIONS 3 accus de collaboration dans les rafles de juifs. -PHOTOS de BOUSQUET, jeune. -Superposit°dsuncamp. Liste (noms propres, genres, … ) Langage libre (r sum ) Langage documentaire Les notices, bien qu’ tant num ris es et poss dant un r sum du document AV ne nous sont pas utiles pour faire de l’extraction d’information : trop de formats diff rents ; document risquant d’entraîner des pertes d’informations pertinentes.

12 Estelle Le Roux - S minaire LIR - 26/06/01 12 Quel(s) type(s) de texte choisir ? (2/2) Transcription de l’ mission audiovisuelle Int r t : tout ce qui est dit au cours du document AV apparaît crit ; Probl mes : ce qui est dit n’est pas forc ment ce que l’on voit ; A la transcription est rare pour le moment. Textes «ext rieurs» aux documents AV : les articles de la presse crite 0 Int r ts : parlent du m me v nement que la vid o et la plupart des articles sont num ris s.

13 Estelle Le Roux - S minaire LIR - 26/06/01 13 L’ crit en aide à l’indexation AV Tour de France Epreuve du 05 juillet 1999 Articles de journaux Vid o Jacky Durand doit r cup rer de sa chute au passage du Gois.

14 Estelle Le Roux - S minaire LIR - 26/06/01 14 Mon sujet au sein du processus de l’indexation audiovisuelle Informations pertinentes extraite des journaux chute (Jacky Durand, au passage du Gois) abandon (Jacky Durand) Indexation audiovisuelle Les coureurs Description de l ’ tape Jacky Durand chute au passage du Gois. Ontologie Vido Autres modules

15 Estelle Le Roux - S minaire LIR - 26/06/01 15 D limitations de mon sujet La cr ation d’une ontologie et la mani re de relier informatiquement le texte à la vid o seront faites par d’autres personnes à l’INA. L’extraction d’information ne va se faire que sur des documents d’actualit (aucun document de fiction, talk show, etc.).

16 Estelle Le Roux - S minaire LIR - 26/06/01 16 Plan L’INA L’indexation audiovisuelle L’extraction d’information (EI) " Travail en cours

17 Estelle Le Roux - S minaire LIR - 26/06/01 17 Le Corpus " Domaine sportif : Tour de France cycliste 99. Articles issus des journaux : Le Monde, L’Equipe, Le Parisien, Lib ration et de l’A.F.P. " Taille du corpus apprentissage: mots (pour le mois de juillet 1999).

18 Estelle Le Roux - S minaire LIR - 26/06/01 18 Pourquoi ce corpus ? (1/2) v nement d’actualit film et relat dans les journaux crits ; v nement qui se d roule durant 3 semaines ; 1999 : ann e assez r cente pour obtenir des informations num riques issues de la presse et les vid os sont disponibles à l’Inath que ;

19 Estelle Le Roux - S minaire LIR - 26/06/01 19 Pourquoi ce corpus ? (2/2) diff rents types de journaux pour avoir un corpus repr sentatif de diff rents types de langage ; les donn es de ces journaux, en format num rique, sont accessibles.

20 Estelle Le Roux - S minaire LIR - 26/06/01 20 Un extrait du corpus 3e tape: "bis repetita" pour Steels. LAVAL (Mayenne), 6 juil (AFP). En deux jours, le Belge Tom Steels (Mapei) a remport deux victoires dans le Tour de France dont il s'est adjug, mardi, à Laval, la troisi me tape. ( … ) Au lendemain de la chute massive du passage du Gois, l'Espagnol Javier Pascual Llorente a tent de poursuivre sa route malgr ses nombreuses contusions et un poignet douleureux. Distanc apr s 25 kilom tres, il a fini par mettre pied à terre six kilom tres plus loin. Au classement g n ral provisoire, Steels est pass à la deuxi me place, à 17 secondes de Kirsipuu. O'Grady est point à la troisi me place, à 20 secondes, tout comme l'Am ricain Lance Armstrong, le vainqueur du prologue. Extrait issu de l ’ A.F.P. du 06 juillet 1999

21 Estelle Le Roux - S minaire LIR - 26/06/01 21 Le processus de l’EI Analyse syntaxique robuste Patrons d ’ extraction ontologie Patrons d ’ indexation Enrichissement de l ’ ontologie Amorces Extraction de l ’ informatio n « contenu » « contenant »

22 Estelle Le Roux - S minaire LIR - 26/06/01 22 Analyse syntaxique robuste " Outil : Lexter v11 (Bourigault, 94) utilisant Cordial 7 pour l’ tiquetage des textes ; Int r t : pour les patrons d’extraction.

23 Estelle Le Roux - S minaire LIR - 26/06/01 23 Des amorces pour des patrons Id e : rep rer des termes appartenant à une m me cat gorie syntaxique et se trouvant dans les m mes contextes. instancier des patrons et apporter de nouvelles sp cialisations qui peuvent s'ajouter à l'ontologie. " Principe : Donn es d’entr e : un texte tiquet syntaxiquement, des cat gories contenant des amorces et des patrons ; Donn es en sortie : de nouveaux termes viennent augmenter les cat gories. " Inspiration : AutoSlog (Riloff & Shepherd, 97) 0 Diff rence principale : Riloff et Shepherd prennent moins en compte le contexte.

24 Estelle Le Roux - S minaire LIR - 26/06/01 24 L’apport s mantique (1/2) ¥ Outil : Zellig 7 (Habert & Fabre, 99). Int r t : visualisation des regroupements de mots suivant le contexte dans lequel ils apparaissent utile pour compl ter des cat gories ayant des amorces ; 0 aide dans la constitution et/ou l'enrichissement des classes de l'ontologie du domaine.

25 Estelle Le Roux - S minaire LIR - 26/06/01 25 L’apport s mantique (2/2) L’information extraite à l’aide des patrons d’extraction doit servir à l’indexation des documents audiovisuels. La s mantique joue alors un rôle principal pour pouvoir instancier des patrons d’indexation. Patrons d ’ indexation : ils correspondent à des structures g n riques d finissant un niveau et un type de description sur les objets montr s, les paroles entendues ; ils sont li s à une ontologie.

26 Estelle Le Roux - S minaire LIR - 26/06/01 26 Exemple (1/4) Top Objet Spatial Pays Nationalit Ville Personne Coureur cycliste Encadrant PersonnelTour Spectateur L ’ ontologie va tre formul e avec une logique de description. Exemple d ’ une ontologie sur le cyclisme

27 Estelle Le Roux - S minaire LIR - 26/06/01 27 Exemple (2/4) Amorces Fan premi deuxi Patron d’extraction Da (Nc) (Np) (Np) Y (Np) Y Va Vm (Mc) Nc Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport _Vm (deux_Mc) victoires_Nc Le a remport victoire

28 Estelle Le Roux - S minaire LIR - 26/06/01 28 Exemple (3/4) • Patron : le : Da (Nc) (Np) (Np) Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) • Amorces : Fran Belge_Nc : - n'apparaît pas dans les amorces ; - se trouve dans le contexte dans lequel on attend une nationalit. Cr ation d ’ une nouvelle amorce : Enrichissement de la base de connaissances de l ’ ontologie. Enrichissement de l ’ ontologie

29 Estelle Le Roux - S minaire LIR - 26/06/01 29 Exemple (4/4) Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport _Vm (deux_Mc) victoires_Nc Instance de Nationalit Instance de CoureurCycliste Instance de Equipe Instance de Num aCommeNationalit (CoureurCycliste, Nationalit ) 0 aCommeNationalit (Tom Steels, Belge) AcommeMembre(Equipe, CoureurCycliste) 0 aCommeMembre(Mapei, Tom Steels) aRemport Victoire(CoureurCycliste, Num) 0 aRemport Victoire(Tom Steels, deux) Patron d ’ indexation

30 Estelle Le Roux - S minaire LIR - 26/06/01 30 Plan L’INA L’indexation audiovisuelle L’extraction d’information " Travail en cours

31 Estelle Le Roux - S minaire LIR - 26/06/01 31 Travail en cours Validation de l’ontologie avec d’autres personnes à l’INA. Cr ation des cat gories qui permettront d’instancier des patrons. Cr ation et instanciation des patrons d’extraction d’information. Cr ation et instanciation de patrons d'indexation. " Visualisation des documents audiovisuels relatant le Tour de France 1999.

32 Estelle Le Roux - S minaire LIR - 26/06/01 32 Bibliographie D. Bourigault (1994), LEXTER : un Logiciel d'Extraction et de TERminologie. Application à l'extraction des connaissances à partir de textes, Th se, Paris. " B. Habert & C. Fabre (1999), Elementary Dependency Trees for Identifying Corpus-specific Semantic Classes, Computers and the Humanities, vol. 33, n° 3, pp " E. Riloff & J. Shepherd (1997), A Corpus-Based Approach for Building Semantic Lexicons, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing (EMNLP-2), Brown University, Providence, Rhode Island, USA.


Télécharger ppt "Extraction d’information de documents textuels associ s à des contenus audiovisuels Estelle Le Roux INA - LIMSI S minaire groupe LIR - 26 juin 2001."

Présentations similaires


Annonces Google