La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La création d’index à partir d’articles de presse pour apporter une aide à l’indexation audiovisuelle Estelle Le Roux – INA / LIMSI Séminaire LIR – 11.

Présentations similaires


Présentation au sujet: "La création d’index à partir d’articles de presse pour apporter une aide à l’indexation audiovisuelle Estelle Le Roux – INA / LIMSI Séminaire LIR – 11."— Transcription de la présentation:

1 La création d’index à partir d’articles de presse pour apporter une aide à l’indexation audiovisuelle Estelle Le Roux – INA / LIMSI Séminaire LIR – 11 juin 2002

2 11/06/02 Estelle Le Roux - INA/LIMSI2 Plan  L’INA : les nouveaux enjeux de l’indexation  Utiliser le contenu des documents pour apporter une aide aux documentalistes de l’INA ?  Création d’index basés sur le contenu d’articles de presse

3 11/06/02 Estelle Le Roux - INA/LIMSI3 Plan  L’INA : les nouveaux enjeux de l’indexation  Utiliser le contenu des documents pour apporter une aide aux documentalistes de l’INA ?  Création d’index basés sur le contenu d’articles de presse

4 11/06/02 Estelle Le Roux - INA/LIMSI4 Institut National de l’Audiovisuel  Un peu plus de 100 documentalistes ;  Deux parties : Inathèque ; département des archives. Répondre aux demandes faites par les professionnels de l’audiovisuel, les chercheurs, les étudiants.

5 11/06/02 Estelle Le Roux - INA/LIMSI5 Quel type de demandes faites à l’INA ?  Accidents de TGV ;  Le sculpteur Calder ;  Maurice Papon en tant que ministre du budget en 1978 ;  « Je recherche une action de J.P. Bastiat dans un match France-Angleterre ou Angleterre-France (détente pour frapper le ballon derrière les poteaux et le remettre en jeu). Je continue les recherches pour en savoir plus. L’info est de Bastia lui-même mais il ne se souvient pas trop… » (Service des sports de France Télévision).

6 11/06/02 Estelle Le Roux - INA/LIMSI6 Exemple d’informations demandées dans un domaine - images du duel entre Poulidor et Anquetil ; - images des cyclistes en contre-emploi ; - le maillot jaune a abandonné, existe-t-il d’autres cas similaires ? ; - quels sont les différents vainqueurs français de l’étape ayant lieu le 14 juillet ? ; - qui est passé en tête à tel col ; - le moment où Virenque aurait payé Ullrich pour gagner une étape.

7 11/06/02 Estelle Le Roux - INA/LIMSI7 Comment répondre à ces demandes ? Archiver et indexer les documents audiovisuels (AV) indexation manuelle à l’aide d’un thésaurus créé en 1975 ; 8 600 descripteurs, hiérarchisés sur 6 niveaux au maximum.

8 11/06/02 Estelle Le Roux - INA/LIMSI8 Exemple issu du thesaurus concernant le cyclisme  Acteur-Cyclisme Caravane du Tour Commissaire de course Coureur cycliste Grimpeur Peloton Sprinteur  Déroulement des épreuves Abandon Bonification Départ fictif Départ réel Échappée Outil lourd et difficile à faire évoluer

9 11/06/02 Estelle Le Roux - INA/LIMSI9 Nouveaux enjeux à l’INA  Capture et donc indexation et archivage des chaînes câblées en plus des chaînes hertziennes ;  Thématisation des fonds de l’INA ;  Amélioration de l’outil de recherche et de constitution de corpus pour les chercheurs, les étudiants et les professionnels.

10 11/06/02 Estelle Le Roux - INA/LIMSI10 Nouveaux enjeux à l’INA L’indexation telle qu’elle existe maintenant ne permet par réellement de répondre à ces nouveaux enjeux.

11 11/06/02 Estelle Le Roux - INA/LIMSI11 Comment répondre à ces nouveaux enjeux ?  Rendre l’indexation et l’archivage des documents AV le plus (semi-)automatisé possible et en établissant des liens entre : l’image ; le son ; l’écrit.

12 11/06/02 Estelle Le Roux - INA/LIMSI12 Plan  L’INA : les nouveaux enjeux de l’indexation  Utiliser le contenu des documents pour apporter une aide aux documentalistes de l’INA ?  Création d’index basés sur le contenu d’articles de presse

13 11/06/02 Estelle Le Roux - INA/LIMSI13 De l’écrit pour l’image (1/2)  Existence de documents écrits liés au document AV (ex. : script, conducteur, générique). format papier ; alternance majuscules-minuscules ; diverses abréviations pour un même mot ; etc. informations intéressantes mais format inexploitable pour faire du TAL

14 11/06/02 Estelle Le Roux - INA/LIMSI14 De l’écrit pour l’image (2/2)  Écrits indépendants du document AV mais faisant référence à son contenu. informations intéressantes avec un format exploitable pour le TAL

15 11/06/02 Estelle Le Roux - INA/LIMSI15 Le contenu du document AV  Pourquoi ? il doit être mentionné, résumé lors de l’indexation car il décrit ce qui se passe à l’écran.  Où le trouver ? pour les fictions, magazines, reportages  les magazines TV, les sites des chaînes TV ; pour les documents AV événementiels  la presse écrite ; pour les émissions de variétés, de jeu, et en direct  pratiquement impossible de trouver des écrits.

16 11/06/02 Estelle Le Roux - INA/LIMSI16 Le contenu en aide à l’indexation  Quel objectif ? Créer une chaîne de traitement TAL à partir d’articles issus de la presse écrite faisant référence au même événement que les documents AV à indexer.  Dans quel but ? Créer des index contenant des termes mais aussi des actions et pouvant par la suite être reliés afin d’obtenir une meilleure indexation.

17 11/06/02 Estelle Le Roux - INA/LIMSI17 Plan  L’INA : les nouveaux enjeux de l’indexation  Utiliser le contenu des documents pour apporter une aide aux documentalistes de l’INA ?  Création d’index basés sur le contenu d’articles de presse

18 11/06/02 Estelle Le Roux - INA/LIMSI18 Quel événement choisir ?  Pour savoir si : il est possible d’extraire des index à partir de textes indépendants des documents AV ; ces index sont reconnus pertinents par les gens de métier. le 86ème Tour de France cycliste Création d’un prototype  Il faut choisir un événement qui dure assez longtemps, qui soit suffisamment diffusé et traité par la presse écrite.

19 11/06/02 Estelle Le Roux - INA/LIMSI19 Corpus : 86ème Tour de France - articles numérisés issus : des quotidiens Le Monde, Libération, Le Parisien ; du journal sportif L’Equipe ; des dépêches de l’A.F.P. ; - Taille : 558 772 mots ; - 1/3 pour le corpus d’apprentissage.

20 11/06/02 Estelle Le Roux - INA/LIMSI20 Le tour oui… mais quelles sont les informations pertinentes ? -les vainqueurs d’étape et leur portrait ; -les arrivées d’étape ; -les porteurs des maillots jaune, vert, à pois ; -les chutes et crevaisons ; -les abandons ; -le vainqueur du 14 juillet ; -les passages de col ; -les coureurs lors de la pause de la dernière étape ; -les coureurs hors emploi (chants, grimaces) ; -la vie privée des coureurs populaires (Armstrong et son bébé) ; -les bords de route ; -les animaux ; -etc.

21 11/06/02 Estelle Le Roux - INA/LIMSI21 Exemples d’informations pertinentes  Armstrong, déjà vainqueur du prologue, a récupéré le maillot jaune de leader endossé pendant deux jours au début de l’épreuve.  L’américain Lance Armstrong (Us Postal) a remporté dimanche, la huitième étape du tour de France cycliste, un contre-la-montre individuel disputé autour de Metz (Moselle), et a récupéré le maillot jaune de leader.  Victoire et maillot jaune pour Lance Armstrong. même information mais différentes manières de le dire

22 11/06/02 Estelle Le Roux - INA/LIMSI22 La chaîne de traitement Corpus cyclisme Ontologie Dictionnaire sémantique Sous-corpus étiqueté Phr. pertinentes Substitution & Regroupement Programme XSLT Cordial 7 Information balisées Index au format désiré & Validation par les documentalistes Index utilisés par les documentalistes Départ

23 11/06/02 Estelle Le Roux - INA/LIMSI23 L’ontologie du domaine  Arbre des concepts : nombre de notions = 86 profondeur maximale = 10  Arbre des relations : nombre de notions = 61 profondeur maximale = 6

24 11/06/02 Estelle Le Roux - INA/LIMSI24 Exemple de l’ontologie du domaine Concepts Relations

25 11/06/02 Estelle Le Roux - INA/LIMSI25 Les dictionnaires sémantiques  Deux dictionnaires sémantiques : créés à l’aide du corpus et de l’ontologie ; termes simples  115 termes ; termes composés  290 termes.  Exemple : tour_Nc de_Sp France_Np CourseAEtape maillot_Nc jaune_Af MaillotJaune

26 11/06/02 Estelle Le Roux - INA/LIMSI26 Exemples après substitution et regroupement (1/3) [Armstrong _Np ] CoureurCycliste,_Yp déjà _Rg [vainqueur _Af ] Victoire du _Da [prologue _Nc ] ContreLaMontre, _Yp [récupérer _Sv ] Sv le _Da [maillot jaune de leader _Sn ] MaillotJaune [endosser _Sv ] Sv pendant _Sp [deux jour _Sn ] Temps au _Da [début de le épreuve _Sn ] PeriodeEpreuve. _Yp

27 11/06/02 Estelle Le Roux - INA/LIMSI27 Exemples après substitution et regroupement (2/3) le _Da [américain _Sn ] Pays lance _Nc [Armstrong _Np ] CoureurCycliste ( _Yp [us postal _Sn ] Equipe ) _Yp [remporter _Sv ] Sv [dimanche _Nc ] Jour, _Yp le _Da [huitième _Ao ] Numero [étape _Nc ] Etape du _Da [tour de France cycliste _Sn ] CourseAEtape,_Yp un _Da [contre-la-montre individuel _Sn ] ContreLaMontre [disputer _Sv ] Sv autour _Nc de _Sp [Metz _Np ] Ville ( _Yp [Moselle _Np ] ZA ) _Yp, _Yp et _Cc [récupérer _Sv ] Sv le _Da [maillot jaune de leader _Sn ] MaillotJaune. _Yp

28 11/06/02 Estelle Le Roux - INA/LIMSI28 Exemples après substitution et regroupement (3/3) [victoire _Nc ] Victoire et _Cc [maillot jaune _Sn ] MaillotJaune pour _Sp lance _Nc [Armstrong _Np ] CoureurCycliste. _Yp

29 11/06/02 Estelle Le Roux - INA/LIMSI29 Des problèmes pour extraire les informations…  Différentes manières de dire la même chose  notion de gagner : victoire, remporter, vainqueur.  Très peu de phrases importantes sont identiques au niveau structure et/ou nombre d’éléments pertinents qu’elles contiennent.

30 11/06/02 Estelle Le Roux - INA/LIMSI30 … aux patrons d’extraction …  Idée : la récupération de toutes les informations pertinentes dans chacune des phrases se fait en remplissant un patron.  Exemple : [Lance Armstrong _Sn ] CoureurCycliste [gagner _Sv ] Sv [huitième étape _Sn ] Etape [Metz _Np ] Ville

31 11/06/02 Estelle Le Roux - INA/LIMSI31 … et à la création d’index  Création d’index : les patrons sont remplis ; les index sont ensuite extraits au format désiré grâce à un programme XSLT.  Intérêts des index : enrichir l’ontologie et les dictionnaires sémantiques ; avoir des liens entre les différentes informations ce qui pourra rendre l’indexation plus riche que ce qu’elle n’est actuellement.

32 11/06/02 Estelle Le Roux - INA/LIMSI32 Problèmes en suspens  Comment faire pour indexer les émissions en direct ?  Nombres de patrons nécessaires ?  Les index extraits des articles sont-ils suffisamment nombreux et pertinents pour pouvoir être utilisés par les documentalistes ?  Pour chaque domaine, il faut créer une ontologie, un dictionnaire sémantique, des patrons  rentable pour les documentalistes ?

33 11/06/02 Estelle Le Roux - INA/LIMSI33 En attendant … Qui sera le nouveau maillot jaune du Tour de France ?


Télécharger ppt "La création d’index à partir d’articles de presse pour apporter une aide à l’indexation audiovisuelle Estelle Le Roux – INA / LIMSI Séminaire LIR – 11."

Présentations similaires


Annonces Google