La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

28/04/2001 INA et U-Paris III - K. Lespinasse1 Analyse de l'hétérogénéité dun corpus textuel élaboré à partir de langages contrôlés (dans un contexte audiovisuel)

Présentations similaires


Présentation au sujet: "28/04/2001 INA et U-Paris III - K. Lespinasse1 Analyse de l'hétérogénéité dun corpus textuel élaboré à partir de langages contrôlés (dans un contexte audiovisuel)"— Transcription de la présentation:

1 28/04/2001 INA et U-Paris III - K. Lespinasse1 Analyse de l'hétérogénéité dun corpus textuel élaboré à partir de langages contrôlés (dans un contexte audiovisuel) I N S T I T U T N A T I O N A L D E L A U D I O V I S U E L Karine Lespinasse

2 28/04/2001 INA et U-Paris III - K. Lespinasse2 Comment construire un corpus textuel se rapportant à des documents audiovisuels à partir de langages contrôlés : pour quelle homogénéité ? Plan de lexposé : 1ère approche : se fonder sur les genres des émissions télévisées décrites problème : le flou de la notion de genre en audiovisuel. Lalternative : se fonder sur le contenu sémantique des notices décrivant les dites émissions problèmes : lincohérence de lindexation et linadaptation du mode de sélection des textes adopté. Conclusion : à nouvel objet détude, nouvelle méthode de corpus ?

3 28/04/2001 INA et U-Paris III - K. Lespinasse3 Contexte : la documentation textuelle audiovisuelle (1/2) Le cycle de vie du document AV, une constante réexploitation SélectionConservationExploitation

4 28/04/2001 INA et U-Paris III - K. Lespinasse4 Le contexte : la documentation textuelle audiovisuelle (2/2) Exemple dun corpus de notices documentaires

5 28/04/2001 INA et U-Paris III - K. Lespinasse5 Dans ce contexte : un objectif : La création dun corpus de documents textuels se rapportant à des émissions télévisées, à des fins danalyse et de modélisation sémantique, pour assister lindexation des émissions télévisées. Or un problème : comment bâtir un corpus textuel homogène pour en exploiter le lexique, leurs relations sémantiques ? Mais un but : acquérir des catégories sémantiques propres à un domaine (politique intérieure).

6 28/04/2001 INA et U-Paris III - K. Lespinasse6 Pourquoi chercher à constituer un corpus homogène ? Une série dhypothèses… - sur un domaine : choix de la politique intérieure, domaine jugé relativement bien défini et stable (par rapport à culture par ex.) et qui sexprime dans différents genres démissions télévisées (journaux, débat, magazines…). - sur un type de texte : la notice documentaire - sur lexistence dune langue télévisuelle politique (?) - daprès une approche syntaxique : recherche de phénomènes qui se répètent, avec une certaine régularité Analyse des surprises dune expérimentation réelle

7 28/04/2001 INA et U-Paris III - K. Lespinasse7 Les définitions adoptées Document AV (audiovisuel) : qui a une ligne temporelle unique (le multimédia en a plusieurs) et qui mélange des images et du son ; ici, des documents télévisuels. Genre : catégorie dœuvre définie par un format ou dispositif (en AV). Indexation : « paraphrase, interprétation dun contenu, soit une réécriture ou reformulation dans une forme propre à lexploitation dans un contexte ». (INA-DRE) « Lindexation ajoute au catalogage la transcription, sous une forme synthétique, du contenu, et / ou, en fonction de son niveau, de la mise en images ou en ondes et des dispositifs formels de lémission. Contrairement au catalogage, elle implique une part dinterprétation du documentaliste. » (Inathèque) Langue contrôlée ou langage d'indexation : « ensemble contrôlé de termes sélectionnés à partir du langage naturel et utilisé pour représenter sous une forme condensée, le contenu des documents » (norme ISO). Contrôlé est à prendre dans son sens documentaire, en opposition à langage libre. Les termes sont normés dans leur forme et contraints dans leur usage dans des… Thesaurus : « vocabulaire dun langage dindexation contrôlé organisé formellement de façon à expliciter les relations a priori entre les notions (par exemple relations générique-spécifique) » (norme ISO 5964-1).

8 28/04/2001 INA et U-Paris III - K. Lespinasse8 Comment construire un corpus textuel se rapportant à des documents audiovisuels à partir de langages contrôlés : pour quelle homogénéité ? Plan de lexposé pour rappel : 1ère approche : se fonder sur les genres des émissions télévisées décrites problème : le flou de la notion de genre en audiovisuel. Lalternative : se fonder sur le contenu sémantique des notices décrivant les dites émissions problèmes : lincohérence de lindexation et linadaptation du mode de sélection des textes adopté. Conclusion : à nouvel objet détude, nouvelle méthode de corpus ?

9 28/04/2001 INA et U-Paris III - K. Lespinasse9 1ère approche pour construire un corpus : le genre (1/4) Il sagit du genre dont les documentalistes ont qualifié lémission, selon une typologie propre à lINA. ex : conférence de presse, retransmission, interview… Souvent genre varie… 1° « genre » en audiovisuel a été un héritage du littéraire : « Ce mot est utilisé pour désigner les différentes formes démissions dramatiques télévisées » (école des Buttes Chaumont, 1956-66). 2° « genre » en audiovisuel sest appuyé sur les genres du cinéma (né en 1895) : fiction vs documentaire Des définitions insuffisantes et/ou inadaptées

10 28/04/2001 INA et U-Paris III - K. Lespinasse10 1ère approche pour construire un corpus : le genre (2/4) Quest-ce qui est spécifique à la télévision ? - un medium récent (1935, 1ère émission de télévision officielle en France ; 1949, 1er journal télévisé) - un mélange de genres : ex : invention du reality-show qui bouleverse la tradition établie entre information et fiction, à la fin des années 80 ; magazine et documentaire se confondent, naissance de genres (magazine de société 1969, vidéo clip avec M6…), etc. donc aucun standard réel ne sest imposé : peu de dictionnaires de la télévision, rares définitions de la notion de genre ex : « genre : French term indicating type of film and broadcast programs either by content or by their specific audience, like comedy / variety, soap opera, daytime serials, children's program (1995, International dictionary of broadcasting and film). »

11 28/04/2001 INA et U-Paris III - K. Lespinasse11 1ère approche pour construire un corpus : le genre (3/4) Quest-ce qui est spécifique à la télévision ? Des approches ad hoc, selon les objectifs de linstitution : lexemple des typologies de Médiamétrie et de lINA Médiamétrie : SA créée en 1985, pour la mesure daudience des télévisions hertziennes puis câblées, études régulières. Public : diffuseurs, publicitaires, annonceurs. INA : EPIC créé en 1974 (RTF, 1959), pour larchivage et le dépôt légal des chaînes publiques, gère 2,5M. de documents audiovisuels. Public : diffuseurs, producteurs, journalistes…

12 12 Des grandes catégories mixtes vs laccent sur le dispositif Médiamétrie, décennie 80INA – Archives, 2000 Fiction : films, téléfilms, sériestéléfilm, adaptation, dessin animé, séries, feuilletons… Information : journal régional, journal national, magazine dinformation journal télévisé, débat, déclaration, documentaire, interview, magazine, montage archives, récit-portrait… Variété-divertissement : jeux, variétés, clips, concerts modernes, émissions humoristiques, talks-shows … jeux, vidéo clips Jeunesse : dessins animésdessins animés Culture-connaissance : magazine, docu…pièce enregistrée en studio… Sport : magazines sportifs……nouvelles images… Autres : émissions religieuses, autres…création originale, réalisation tv dans lieu public… (1998 : Résultats-pronostics, magazine mixte) interlude, spot publicitaire

13 28/04/2001 INA et U-Paris III - K. Lespinasse13 1ère approche pour construire un corpus : le genre (4/4) Conclusion Il existe une définition des genres démission à lINA (dans des fiches-collection). ex : le JT « collections démissions composites » dont le « dispositif » est constitué dun générique, de plateaux et de reportages, etc. (Inathèque, 1995) MAIS comme évoqué, les définitions existantes sont : - soit trop générales (héritées) - soit trop spécifiques (adaptées à une institution) - et en général peu stabilisées. Elles ne peuvent servir à construire un corpus en diachronie.

14 28/04/2001 INA et U-Paris III - K. Lespinasse14 2ème approche pour construire un corpus : le contenu (1/6) On sintéresse à la notice même. Une expérience réelle

15 15 2ème approche pour construire un corpus : le contenu (2/6) * listes (lexiques) (langage libre) Résumé doc Quels éléments textuels dans la notice documentaire ? Du langage documentaire et du langage libre (langage documentaire) Thesaurus: Idéologie politique | Doctrine politique | Collaboration-politique

16 28/04/2001 INA et U-Paris III - K. Lespinasse16 2ème approche pour construire un corpus : le contenu (3/6) (oral) rappel sur lindexation, déf. INA Le thesaurus de lINA : presque 9000 noms communs, +160 000 noms propres. Méthode adoptée : extraction des notices à partir de la base documentaire, - en masse - selon une période (diffusion entre le 01/01/1980 et le 31/12/1990) - avec une thématique politique (tous les niveaux de deux champs du thesaurus : « politique intérieure » et « élections ») extrait du thesaurus : POLITIQUE BOULEVERSEMENTS POLITIQUES EPURATION POLITIQUE (utilisé pour PURGE POLITIQUE) GUERRE CIVILE CHOUANNERIE LONGUE MARCHE LA CONSTITUTION…

17 28/04/2001 INA et U-Paris III - K. Lespinasse17 2ème approche pour construire un corpus : le contenu (4/6) Bilan : un corpus de 10 394 notices assez hétérogène - Les titres démissions : env. 274 titres différents, dont seulement une demi-douzaine concerne les JT. ex : +1 500 « JA2 », plusieurs « spéciale élections », « LHeure de Vérité », 6 occurrences de « Sex machine », 3 « Club Dorothée », « la Chasse au trésor »… -Des thèmes sont attribués (jusquà 5 par notice) : Or, sur 313 combinaisons, Information politique apparaît dans 50, dont 29 fois seulement en première position. - néanmoins : le mot-clé POLITIQUE INTERIEURE est majoritairement suivi dELECTION (-600 fois).

18 28/04/2001 INA et U-Paris III - K. Lespinasse18 2ème approche pour construire un corpus : le contenu (5/6) Explications de la relative hétérogénéité 1° Incohérence de lindexation Des règles existent : ex : « ELECTION : Pour les estimations utiliser : RESULTAT DE VOTE (ESTIMATION) Pour les campagnes électorales, utiliser : ELECTION PRESIDENTIELLE (OFF) CAMPAGNE ELECTORALE …» (Archives, 2000) MAIS - des mots-clés sont soit més-utilisés ex : ELECTION Miss Monde ; PRISONNIER DOPINION (syn. PRISONNIER POLITIQUE) pour des persécutions religieuses ; - soit polysémiques : MINISTERE est à la fois le bâtiment, lorgane dirigeant, la politique qui y est menée ; - soit soumis à variation : Loi {édit de tolérance}, Décret {édit de Nantes} ; -comment distinguer les homonymes ? ex : PRINCE (titre de noblesse) et PRINCE (nom propre)

19 28/04/2001 INA et U-Paris III - K. Lespinasse19 2ème approche pour construire un corpus : le contenu (6/6) Explications de la relative hétérogénéité 2° Le problème de la finesse du tamis - une sélection trop fine : tous les mots-clés ex : tous les titres de fonction de pouvoir (maradjah…) - une sélection trop grossière : seulement les mots-clés - une difficulté inhérente au contenu télévisuel même : comment différencier les émissions DE politique des émissions SUR la politique (pastiche et autre sottisier, émissions historiques…) ?

20 28/04/2001 INA et U-Paris III - K. Lespinasse20 Comment construire un corpus textuel se rapportant à des documents audiovisuels à partir de langages contrôlés : pour quelle homogénéité ? Conclusion : que faire ? (1/2) => Accepter une certaine hétérogénéité de contenu ? Ainsi 90% du corpus = des JT, genre assez stable. En fait, si lon travaille sur les notices documentaires, il faudrait sélectionner autrement : - tenir compte des rangs des mots-clés ex : MINISTERE TRANSPORT, mot-clé 12 = notice exclue. - pouvoir croiser des critères de contenu MAIS ce nest pas toujours possible (pas de sélection sur FRANCE possible, le mot-clé napparaissant pas par défaut)

21 28/04/2001 INA et U-Paris III - K. Lespinasse21 Comment construire un corpus textuel se rapportant à des documents audiovisuels à partir de langages contrôlés : pour quelle homogénéité ? Conclusion : que faire ? (2/2) => Accepter une certaine hétérogénéité de contenu ? => …et se tourner vers dautres péritextes (textes liés aux documents AV) ex : collecter les conducteurs démission sur une thématique donnée ex2 : collecter les transcriptions de la bande sonore dun type démissions politiques (magazines comme « lHeure de Vérité ») Et affiner la description de la langue télévisuelle selon une approche documentaire.


Télécharger ppt "28/04/2001 INA et U-Paris III - K. Lespinasse1 Analyse de l'hétérogénéité dun corpus textuel élaboré à partir de langages contrôlés (dans un contexte audiovisuel)"

Présentations similaires


Annonces Google