28/04/2001 INA et U-Paris III - K. Lespinasse1 Analyse de l'hétérogénéité dun corpus textuel élaboré à partir de langages contrôlés (dans un contexte audiovisuel)

Slides:



Advertisements
Présentations similaires
VIDEO ACTIVE Faciliter l´accès au patrimoine audiovisuel européen Eric Loze – RTBF Archives Radio & TV.
Advertisements

Définitions Analyse documentaire
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Une nouvelle approche de l’évaluation
La recherche documentaire
Metatag Objectifs et rédaction du rapport Présentation du rapport
CTNERHI AG 10 mai 2007 Le CTNERHI et les réseaux Le Réseau de producteurs de la base SAPHIR (UNAPEI, OPHQ, ANPEA, Voir ensemble) Le réseau BDSP LABES-SUDOC.
La Télévision en France
Clément Massé – Université Charles de Gaulle Lille3.
PROMOUVOIR LE CHANGEMENT DES POLITIQUES: OUTILS ET PRINCIPES DE BASE POUR DES ACTIONS DE PLAIDOYER FSP « GENRE ET ECONOMIE, LES FEMMES ACTRICES DU DÉVELOPPEMENT.
L'éducation aux médias hors- école Notes de travail – Centro Zaffiria (Italie)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Les courriers au médiateur de linformation de France 2 : dune prise de parole dans les médias à une prise de pouvoir sur les médias ? Aurélie Aubert Post-Doc.
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Marine Campedel mars 2005 INDEXATION des IMAGES Marine Campedel mars 2005.
Ce que nous dit le BO BO n°20 du 20 mai 2010
JXDVDTEK – Une DVDthèque en Java et XML
au défi de l’audiovisuel
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
UE303.c : cours n°3 Conception de système d’information multimédia
Evaluer: un exemple au cycle 2
Animation pédagogique – Mars 2010 Mme Sellier / M. Bogart CPC Avion Cycle 2 Découverte du monde Cycle 2 La démarche expérimentale d'investigation.
Indexation textuelle : Systèmes de recherche d’informations
ETAPES DE LA RECHERCHE DOCUMENTAIRE
LA TÂCHE COMPLEXE EN HISTOIRE GÉOGRAPHIE ÉDUCATION CIVIQUE
Vers une plus grande autonomie de l’élève...
Expertise et formation du lméca ESIA / Université de Savoie
FACTIVA Présentation et guide d’utilisation
La mise en place du Règlement sur la diffusion de linformation Un travail déquipe.
L’observation réfléchie de la langue au cycle 3
Odile Cazade Francisco Martin-Gomez Projet presse 2009
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Construire une base de données bibliographiques Elaborer un site web
Chapitre 4 : la gestion électronique des documents
Interfaces de recherche usager
Les termes cinématographiques
Limpact de la technologie sur la gestion de données terminologiques : lexemple du Visuel Anne Rouleau, rédactrice en chef Les Éditions Québec Amérique.
L'ORIENTATION UN CHANTIER A PARTAGER
Analyse des discours cours 1
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Recherche Documentaire et traitement de l’information
Vous allez assister à une démonstration de la base de données THEO Oubliez clavier et souris et laissez-vous guider.
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Maîtrise de la langue française
Introduction aux Médias
Josée Lemire Conseillère pédagogique CSCN
Vous allez assister à une démonstration de la base de données Mémorable en vue doptimiser son utilisation Oubliez souris et clavier et laissez vous guider.
Aude Seurrat Analyse des discours cours 9 Les limites de la notion de genre en analyse des discours Aude Seurrat
MMSH 18 et 19 septembre 2008 Archives scientifiques en SHS La mise à disposition de sources radiodiffusées et télévisées aux chercheurs en SHS Marie-Christine.
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Colloque CNBA, Venise, mai 2003, M. Augis Chamourin Archirès : le réseau des écoles d’architecture françaises Un accès meilleur est possible … vers.
TPE P ersonnel (BO du MEN n°41 du 10 nov 2005, Définition des modalités d’évaluation des TPE au baccalauréat, séries ES, L et S) “Recherche de sources.
Vocabulaire La polysémie
Les archives en ligne et l'histoire
SGBD Système de gestion de Base documentaire (Logiciel documentaire)
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Clemi - Journaux scolaires et lycéens - Présentation Présentation du secteur « Expression des jeunes - journaux scolaires et lycéens » Pascal Famery -
Le Traitement Automatique des Langues (TAL)
L’épreuve orale d’Histoire des Arts au Brevet
Video.
Je fais une recherche sur BCDI
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
CDI du lycée Jean Jaurès / La recherche dans BCDI.
Bilan du cours Information Spécialisée M1 RETIC. Objectifs du cours (annoncés) Acquérir une culture informationnelle en SIC ; Acquérir une culture informationnelle.
Réalisé par : Ibrahimi salma Elharnouny chaimae.
La Télévision en France. Les chaînes principales Chaînes terrestres (hertziennes) TF1 - chaîne privée F2 – chaîne publique F3 – chaîne publique F5 – chaîne.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 4 Support de cours rédigé par Bernard COFFIN Université.
Ecriture Cycle 3 Programmes 2015
Transcription de la présentation:

28/04/2001 INA et U-Paris III - K. Lespinasse1 Analyse de l'hétérogénéité dun corpus textuel élaboré à partir de langages contrôlés (dans un contexte audiovisuel) I N S T I T U T N A T I O N A L D E L A U D I O V I S U E L Karine Lespinasse

28/04/2001 INA et U-Paris III - K. Lespinasse2 Comment construire un corpus textuel se rapportant à des documents audiovisuels à partir de langages contrôlés : pour quelle homogénéité ? Plan de lexposé : 1ère approche : se fonder sur les genres des émissions télévisées décrites problème : le flou de la notion de genre en audiovisuel. Lalternative : se fonder sur le contenu sémantique des notices décrivant les dites émissions problèmes : lincohérence de lindexation et linadaptation du mode de sélection des textes adopté. Conclusion : à nouvel objet détude, nouvelle méthode de corpus ?

28/04/2001 INA et U-Paris III - K. Lespinasse3 Contexte : la documentation textuelle audiovisuelle (1/2) Le cycle de vie du document AV, une constante réexploitation SélectionConservationExploitation

28/04/2001 INA et U-Paris III - K. Lespinasse4 Le contexte : la documentation textuelle audiovisuelle (2/2) Exemple dun corpus de notices documentaires

28/04/2001 INA et U-Paris III - K. Lespinasse5 Dans ce contexte : un objectif : La création dun corpus de documents textuels se rapportant à des émissions télévisées, à des fins danalyse et de modélisation sémantique, pour assister lindexation des émissions télévisées. Or un problème : comment bâtir un corpus textuel homogène pour en exploiter le lexique, leurs relations sémantiques ? Mais un but : acquérir des catégories sémantiques propres à un domaine (politique intérieure).

28/04/2001 INA et U-Paris III - K. Lespinasse6 Pourquoi chercher à constituer un corpus homogène ? Une série dhypothèses… - sur un domaine : choix de la politique intérieure, domaine jugé relativement bien défini et stable (par rapport à culture par ex.) et qui sexprime dans différents genres démissions télévisées (journaux, débat, magazines…). - sur un type de texte : la notice documentaire - sur lexistence dune langue télévisuelle politique (?) - daprès une approche syntaxique : recherche de phénomènes qui se répètent, avec une certaine régularité Analyse des surprises dune expérimentation réelle

28/04/2001 INA et U-Paris III - K. Lespinasse7 Les définitions adoptées Document AV (audiovisuel) : qui a une ligne temporelle unique (le multimédia en a plusieurs) et qui mélange des images et du son ; ici, des documents télévisuels. Genre : catégorie dœuvre définie par un format ou dispositif (en AV). Indexation : « paraphrase, interprétation dun contenu, soit une réécriture ou reformulation dans une forme propre à lexploitation dans un contexte ». (INA-DRE) « Lindexation ajoute au catalogage la transcription, sous une forme synthétique, du contenu, et / ou, en fonction de son niveau, de la mise en images ou en ondes et des dispositifs formels de lémission. Contrairement au catalogage, elle implique une part dinterprétation du documentaliste. » (Inathèque) Langue contrôlée ou langage d'indexation : « ensemble contrôlé de termes sélectionnés à partir du langage naturel et utilisé pour représenter sous une forme condensée, le contenu des documents » (norme ISO). Contrôlé est à prendre dans son sens documentaire, en opposition à langage libre. Les termes sont normés dans leur forme et contraints dans leur usage dans des… Thesaurus : « vocabulaire dun langage dindexation contrôlé organisé formellement de façon à expliciter les relations a priori entre les notions (par exemple relations générique-spécifique) » (norme ISO ).

28/04/2001 INA et U-Paris III - K. Lespinasse8 Comment construire un corpus textuel se rapportant à des documents audiovisuels à partir de langages contrôlés : pour quelle homogénéité ? Plan de lexposé pour rappel : 1ère approche : se fonder sur les genres des émissions télévisées décrites problème : le flou de la notion de genre en audiovisuel. Lalternative : se fonder sur le contenu sémantique des notices décrivant les dites émissions problèmes : lincohérence de lindexation et linadaptation du mode de sélection des textes adopté. Conclusion : à nouvel objet détude, nouvelle méthode de corpus ?

28/04/2001 INA et U-Paris III - K. Lespinasse9 1ère approche pour construire un corpus : le genre (1/4) Il sagit du genre dont les documentalistes ont qualifié lémission, selon une typologie propre à lINA. ex : conférence de presse, retransmission, interview… Souvent genre varie… 1° « genre » en audiovisuel a été un héritage du littéraire : « Ce mot est utilisé pour désigner les différentes formes démissions dramatiques télévisées » (école des Buttes Chaumont, ). 2° « genre » en audiovisuel sest appuyé sur les genres du cinéma (né en 1895) : fiction vs documentaire Des définitions insuffisantes et/ou inadaptées

28/04/2001 INA et U-Paris III - K. Lespinasse10 1ère approche pour construire un corpus : le genre (2/4) Quest-ce qui est spécifique à la télévision ? - un medium récent (1935, 1ère émission de télévision officielle en France ; 1949, 1er journal télévisé) - un mélange de genres : ex : invention du reality-show qui bouleverse la tradition établie entre information et fiction, à la fin des années 80 ; magazine et documentaire se confondent, naissance de genres (magazine de société 1969, vidéo clip avec M6…), etc. donc aucun standard réel ne sest imposé : peu de dictionnaires de la télévision, rares définitions de la notion de genre ex : « genre : French term indicating type of film and broadcast programs either by content or by their specific audience, like comedy / variety, soap opera, daytime serials, children's program (1995, International dictionary of broadcasting and film). »

28/04/2001 INA et U-Paris III - K. Lespinasse11 1ère approche pour construire un corpus : le genre (3/4) Quest-ce qui est spécifique à la télévision ? Des approches ad hoc, selon les objectifs de linstitution : lexemple des typologies de Médiamétrie et de lINA Médiamétrie : SA créée en 1985, pour la mesure daudience des télévisions hertziennes puis câblées, études régulières. Public : diffuseurs, publicitaires, annonceurs. INA : EPIC créé en 1974 (RTF, 1959), pour larchivage et le dépôt légal des chaînes publiques, gère 2,5M. de documents audiovisuels. Public : diffuseurs, producteurs, journalistes…

12 Des grandes catégories mixtes vs laccent sur le dispositif Médiamétrie, décennie 80INA – Archives, 2000 Fiction : films, téléfilms, sériestéléfilm, adaptation, dessin animé, séries, feuilletons… Information : journal régional, journal national, magazine dinformation journal télévisé, débat, déclaration, documentaire, interview, magazine, montage archives, récit-portrait… Variété-divertissement : jeux, variétés, clips, concerts modernes, émissions humoristiques, talks-shows … jeux, vidéo clips Jeunesse : dessins animésdessins animés Culture-connaissance : magazine, docu…pièce enregistrée en studio… Sport : magazines sportifs……nouvelles images… Autres : émissions religieuses, autres…création originale, réalisation tv dans lieu public… (1998 : Résultats-pronostics, magazine mixte) interlude, spot publicitaire

28/04/2001 INA et U-Paris III - K. Lespinasse13 1ère approche pour construire un corpus : le genre (4/4) Conclusion Il existe une définition des genres démission à lINA (dans des fiches-collection). ex : le JT « collections démissions composites » dont le « dispositif » est constitué dun générique, de plateaux et de reportages, etc. (Inathèque, 1995) MAIS comme évoqué, les définitions existantes sont : - soit trop générales (héritées) - soit trop spécifiques (adaptées à une institution) - et en général peu stabilisées. Elles ne peuvent servir à construire un corpus en diachronie.

28/04/2001 INA et U-Paris III - K. Lespinasse14 2ème approche pour construire un corpus : le contenu (1/6) On sintéresse à la notice même. Une expérience réelle

15 2ème approche pour construire un corpus : le contenu (2/6) * listes (lexiques) (langage libre) Résumé doc Quels éléments textuels dans la notice documentaire ? Du langage documentaire et du langage libre (langage documentaire) Thesaurus: Idéologie politique | Doctrine politique | Collaboration-politique

28/04/2001 INA et U-Paris III - K. Lespinasse16 2ème approche pour construire un corpus : le contenu (3/6) (oral) rappel sur lindexation, déf. INA Le thesaurus de lINA : presque 9000 noms communs, noms propres. Méthode adoptée : extraction des notices à partir de la base documentaire, - en masse - selon une période (diffusion entre le 01/01/1980 et le 31/12/1990) - avec une thématique politique (tous les niveaux de deux champs du thesaurus : « politique intérieure » et « élections ») extrait du thesaurus : POLITIQUE BOULEVERSEMENTS POLITIQUES EPURATION POLITIQUE (utilisé pour PURGE POLITIQUE) GUERRE CIVILE CHOUANNERIE LONGUE MARCHE LA CONSTITUTION…

28/04/2001 INA et U-Paris III - K. Lespinasse17 2ème approche pour construire un corpus : le contenu (4/6) Bilan : un corpus de notices assez hétérogène - Les titres démissions : env. 274 titres différents, dont seulement une demi-douzaine concerne les JT. ex : « JA2 », plusieurs « spéciale élections », « LHeure de Vérité », 6 occurrences de « Sex machine », 3 « Club Dorothée », « la Chasse au trésor »… -Des thèmes sont attribués (jusquà 5 par notice) : Or, sur 313 combinaisons, Information politique apparaît dans 50, dont 29 fois seulement en première position. - néanmoins : le mot-clé POLITIQUE INTERIEURE est majoritairement suivi dELECTION (-600 fois).

28/04/2001 INA et U-Paris III - K. Lespinasse18 2ème approche pour construire un corpus : le contenu (5/6) Explications de la relative hétérogénéité 1° Incohérence de lindexation Des règles existent : ex : « ELECTION : Pour les estimations utiliser : RESULTAT DE VOTE (ESTIMATION) Pour les campagnes électorales, utiliser : ELECTION PRESIDENTIELLE (OFF) CAMPAGNE ELECTORALE …» (Archives, 2000) MAIS - des mots-clés sont soit més-utilisés ex : ELECTION Miss Monde ; PRISONNIER DOPINION (syn. PRISONNIER POLITIQUE) pour des persécutions religieuses ; - soit polysémiques : MINISTERE est à la fois le bâtiment, lorgane dirigeant, la politique qui y est menée ; - soit soumis à variation : Loi {édit de tolérance}, Décret {édit de Nantes} ; -comment distinguer les homonymes ? ex : PRINCE (titre de noblesse) et PRINCE (nom propre)

28/04/2001 INA et U-Paris III - K. Lespinasse19 2ème approche pour construire un corpus : le contenu (6/6) Explications de la relative hétérogénéité 2° Le problème de la finesse du tamis - une sélection trop fine : tous les mots-clés ex : tous les titres de fonction de pouvoir (maradjah…) - une sélection trop grossière : seulement les mots-clés - une difficulté inhérente au contenu télévisuel même : comment différencier les émissions DE politique des émissions SUR la politique (pastiche et autre sottisier, émissions historiques…) ?

28/04/2001 INA et U-Paris III - K. Lespinasse20 Comment construire un corpus textuel se rapportant à des documents audiovisuels à partir de langages contrôlés : pour quelle homogénéité ? Conclusion : que faire ? (1/2) => Accepter une certaine hétérogénéité de contenu ? Ainsi 90% du corpus = des JT, genre assez stable. En fait, si lon travaille sur les notices documentaires, il faudrait sélectionner autrement : - tenir compte des rangs des mots-clés ex : MINISTERE TRANSPORT, mot-clé 12 = notice exclue. - pouvoir croiser des critères de contenu MAIS ce nest pas toujours possible (pas de sélection sur FRANCE possible, le mot-clé napparaissant pas par défaut)

28/04/2001 INA et U-Paris III - K. Lespinasse21 Comment construire un corpus textuel se rapportant à des documents audiovisuels à partir de langages contrôlés : pour quelle homogénéité ? Conclusion : que faire ? (2/2) => Accepter une certaine hétérogénéité de contenu ? => …et se tourner vers dautres péritextes (textes liés aux documents AV) ex : collecter les conducteurs démission sur une thématique donnée ex2 : collecter les transcriptions de la bande sonore dun type démissions politiques (magazines comme « lHeure de Vérité ») Et affiner la description de la langue télévisuelle selon une approche documentaire.