La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst.

Présentations similaires


Présentation au sujet: "Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst."— Transcription de la présentation:

1

2 Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst Laboratoire Parole & Langage Université de Provence Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

3 Aix-MARSEC PLAN I) Petit tour dhorizon des Corpus en anglais 1) Des corpus nombreux et variés 2) Les corpus oraux 3) Les corpus oraux britanniques II) Le corpus Aix-MARSEC 1) Les origines 2) de MARSEC à Aix-MARSEC : traitements 3) perspectives Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

4 Aix-MARSEC : Petit tour dhorizon des corpus en anglais Des corpus nombreux et variés A titre dexemple, on pourra citer les corpus disponibles à lUCREL : * The British National Corpus (BNC) *The Lancaster/Oslo-Bergen Corpus (LOB) *The Brown University Corpus *The Kolhapur Corpus *The Longman-Lancaster Corpus *The Lancaster/IBM Spoken English Corpus (SEC) *The London-Lund Corpus *The ET10-63 Corpus *The International Telecommunications Union (ITU) or CRATER Corpus *The Helsinki Corpus (Diachronic Part) *The Lampeter Corpus of Early Modern English Tracts Diapo 1 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02

5 Des corpus nombreux et variés Suite des corpus disponibles à lUCREL : *The Lancaster-Leeds Treebank *The Lancaster Parsed Corpus (LPC) The American Printing House for the Blind Treebank (APHB) *The Associated Press Treebank (AP) *The Canadian Hansard Treebank *The IBM Manuals Treebank *The Anaphoric Treebank *The ACL/DCI CD-ROM *The WordCruncher Disk Diapo 2 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

6 Sans oublier quelques travaux pré-électroniques : * cruden : Concordance of the Authorized version of the Bible (1736) * Johnson : Dictionary of the english language * The Oxford English Dictionary (1928) * Webster : An American Dictionary of the English Language (1928) * Wright : The English Dialect Dictionary ( ) * Ellis : The Existing Phonology of English Dialects (1889) * Thorndike : Teachers Workbook (1921) * Thorndike & Lorge : The Teachers Workbook of 30,000 words (1944) * Jespersen : A Modern English Grammar on Historical Principles ( ) * Kruisinga : A Handbook of Present-Day English ( ) * Poutsma : A Grammar of Late Modern English ( ) * Fries : American English Grammar (1940) * Fries : The Structure of English (1952) * Quirk : The Survey of English Usage (1968) Des corpus nombreux et variés Diapo 3 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

7 Des corpus nombreux et variés Corpus Généralistes : - Brown University Corpus - LOB Corpus - Brittish National Corpus - Kohlapur Corpus of Indian English - Wellington Corpus of Written New Zealand English - Australian Corpus of English - … Corpus Orientés : - Oxford Psycholinguistic Database - Child Language Data Exchange System - European Science Foundation Second Language Databank - International Corpus of Learners English -Canterbury Corpus - BDBRUIT Database - … 1) Approche généraliste / Orientée (type dexploitation visé) Critères de classification utilisables : Diapo 4 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

8 Des corpus nombreux et variés 1) Approche généraliste / Orientée (type dexploitation visé) 2) Approche Dialectologique (type de population étudiée) Par pays : - Wellington Corpus of New zealand English - Corpus of Spoken American English - Brown University Corpus - Australian Corpus of English - Corpus of English Canadian Writing - Kohlapur Corpus of Indian English - … Par Groupes sociaux ou provinces : - COLT - IViE - PAC :o) - … Critères de classification utilisables : Diapo 5 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

9 Des corpus nombreux et variés 1) Approche généraliste / Orientée (type dexploitation visé) 2) Approche Dialectologique (type de population étudiée) 3) Approche Stylistique (type de texte) Critères de classification utilisables : Par Style de texte : - Jiao Tang University Corpus of English in Science - COLT (London teenage colloquial English) - CRATER Corpus (telecom English) - Lampeter Corpus of Early Modern English Tracts -… Par modalité de production : Recours à une échelle de spontanéité Lecture de mots isolés … Lecture de phrases … MAP Task … Conversation guidée … Parole publique … conversation libre … Conversation libre enregistrée à linsu des locuteurs Diapo 6 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

10 Des corpus nombreux et variés 1) Approche généraliste / Orientée (type dexploitation visé) 2) Approche Dialectologique (type de population étudiée) 3) Approche Stylistique (type de texte) 4) Nature des données enregistrées Critères de classification utilisables : Données écrites : - LOB Corpus - Brown University Corpus - Kohlapur Corpus - BNC (90 %) - … Données orales : -BNC (10 %) - Lancaster/IBM Spoken English Corpus (SEC) - London-Lund Corpus - IviE - … Diapo 7 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

11 Des corpus nombreux et variés 1) Approche généraliste / Orientée (type dexploitation visé) 2) Approche Dialectologique (type de population étudiée) 3) Approche Stylistique (type de texte) 4) Nature des données enregistrées 5) Format des données disponibles (données enregistrées orales) Critères de classification utilisables : Transcriptions seules : - BNC - American National Corpus - Corpus of Spoken Professional American English -Canadian Hansard Treebank - … Transcriptions et fichiers son : - MULTEXT - ICE (International Corpus of English) - SBCSAE - IViE - … Diapo 8 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

12 Les corpus Oraux Corpus Oraux = Corpus de données orales Disponibles sous un format audio Diapo 9 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

13 Les corpus Oraux Disponibles sous un format audio Corpus Oraux = Corpus de données orales Diapo 9 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

14 Les corpus Oraux Disponibles sous un format audio Mais encore ??? Nature des transcriptions ??? Format des Transcriptions ??? Diapo 10 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

15 Les corpus Oraux Nature des transcriptions ??? Ponctuée / NON Ponctuée Annotée / Non annotée Annotée -Syntaxe (étiquetage POS / structures) -Phonétique / Phonologie (segmental / supra-segmental) -Infos Conversationnelles (Tours de parole, chevauchements, …) -Infos DISCURSIVES (Structure informationnelle, référentielle, rhétorique, hiérarchique-fonctionnelle, …) Orthographique Diapo 11 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

16 Les corpus Oraux Nature des transcriptions ??? OrthographiqueNON-Orthographique Diapo 12 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

17 Les corpus Oraux Format des transcriptions ??? Texte simple (Plain Text) Diapo 13 Fichiers au format ASCII, Non destinés à un logiciel particulier : Exploitation manuelle facilitée Mais Traitement exhaustif difficile Portabilité maximalisée Mais Traitement automatique direct impossible Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

18 Les corpus Oraux Format des transcriptions ??? Exemple de Texte simple : LLC:c Diapo 14 Version réduite du LLC (cf. Svartvick & Quirk 1980) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

19 Les corpus Oraux Format des transcriptions ??? Exemple de Texte simple : MARSEC Diapo 15 Transcription MARSEC signal a0101 type 0 color 121 comment created by Caro et Cyril font -adobe-helvetica-medium-r-normal p-77- iso separator ; nfields 1 # || `more *news about the ~Reverend _Sun *Myung `Moon Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

20 Les corpus Oraux Format des transcriptions ??? Texte formaté Diapo 16 Fichiers au format ASCII ou compilés, destinés à un logiciel particulier : Exploitation manuelle plus difficilE Mais Exploitation exhaustive possible Portabilité minimalisée Mais Exploitation directe possible Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

21 Les corpus Oraux Format des transcriptions ??? Exemple de Texte Formaté : BNC Diapo 17 Transcription BNC (Header) General Practitioners Surgery -- an electronic transcription Data capture and transcription Longman ELT Automatically-generated header Ah there we are,. Right abdominal wound, she 's a wee bit confused. She did n't bother to tell me that she 'd only got to call you, right ? Erm she was n't in her nightdress but she only dressed herself, she said And you Transcription BNC Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

22 Les corpus Oraux Format des transcriptions ??? Exemple de Texte Formaté : IviE dans XWaves Diapo 18 Transcription IviE Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

23 Les corpus Oraux Diapo 19 Les transcriptions sont en général : orthographiques annotées Texte simple / formaté + / - Alignées Quen est-il des principaux corpus oraux danglais britannique ??? Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

24 Les corpus Oraux Britanniques Diapo 20 Description sommaire de DEUX corpus oraux danglais Britannique : 1) ICE 2) IViE Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

25 Les corpus Oraux Britanniques Diapo 21 ICE : The International Corpus of English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

26 Les corpus Oraux BritanNiques Diapo 22 ICE-GB : LE composant britannique Début du programme : 1990 Objectif principal : Fournir les données nécessaires à une étude comparative des variantes nationales et régionales de langlais Nombre de partenaires : 20 centres Composition : 1 million de mots (200 textes écrits, 300 textes oraux) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

27 Les corpus Oraux BritanNiques Diapo 23 ICE-GB : LE composant britannique Format des données : annotation syntaxique complète au format ICECUP (étiquetage + structure syntaxique) arbres au total arbres pour la partie orale Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

28 Les corpus Oraux BritanNiques Diapo 24 ICE-GB : LE composant britannique ICE-GB : un véritable corpus oral ??? Version 1 du corpus : Transcriptions seules … Version 2 du Corpus : Transcriptions et fichiers son (Alignement ???) (si oui, QuelLe granularité dalignement ???) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

29 Les corpus Oraux BritanNiques Diapo 25 IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

30 Les corpus Oraux BritanNiques Diapo 26 Début du programme : 1997 Objectif principal : Fournir les données et les outils nécessaires à une étude comparative des variantes intonatives régionales de langlais des îles britanniques Nombre de points denquête : 9 Composition : 36 heures de parole (dont 4h transcrites et 1h disponible en ligne) IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

31 Les corpus Oraux BritanNiques Diapo 27 Composition (suite) : 5 modalités de production : -Conversation - Interaction guidée (Map Task) - Récit de mémoire - Lecture de texte - Lecture de passages phonétiquement contrôlés IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

32 Les corpus Oraux BritanNiques Diapo 28 Format des données Format Xwaves (Entropic Soft.) sous Unix Possibilité dUtilisation avec PitchWorks, WaveSurfer, Praat, … IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

33 Les corpus Oraux BritanNiques Diapo 28 IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Petit tour dhorizon des corpus en anglais

34 Les corpus Oraux BritanNiques Diapo 29 IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 IVIE : un véritable corpus oral danglais britannique Un corpus orienté (intonation, pas dannotation syntaxique ni de concordance) Un corpus aligné au niveau du mot (fin dunité) Aix-MARSEC : Petit tour dhorizon des corpus en anglais

35 Les corpus Oraux BritanNiques Diapo 30 En Résumé Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Les corpus sont nombreux mais rares sont ceux qui sont : -réellement oraux - sur langlais britannique - disponibles (cf. CIC) - Gratuits (ou presque …) (cf. ICE : 477 / EUROM 1 : / …) Aix-MARSEC : Petit tour dhorizon des corpus en anglais

36 1) Les origines 2) de MARSEC à Aix-MARSEC : traitements 3) perspectives Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Le corpus Aix-MARSEC

37 Origines de MARSEC MARSEC: MAchine Readable Spoken English Corpus SEC: Spoken English Corpus (Lancaster, Leeds, IBM) Corpus denviron mots Catégories de discours: bulletins dinformations, émissions religieuses, fiction, poésie, dialogues (de type mise en scène), commentaires sportifs). 53 locuteurs (17 locutrices et 36 locuteurs) Archives de la BBC (début des années 1980) Diapo 31 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC

38 Origines de MARSEC Durée : 339 minutes et 18 secondes, corpus divisé en fichiers de 60s environ Alignement (temporel) au niveau du mot Annotation prosodique: tonetic stress marks (G. Knowles & B. Williams) 80 passages de chevauchement (9% du corpus) pour comparaison Diapo 32 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC

39 annotation prosodique (14 symboles ASCII) : _ low level ~high level step-up /(high) rise-fall /high fall-rise /high rise \high fall,low rise low fall,\(low rise-fall – not used) \,low fall-rise *stressed but unaccented |minor intonation unit boundary ||major intonation unit boundary Diapo 33 Origines de MARSEC Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC

40 DeMARSECàAIX-MARSEC Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC

41 - Conversion des fichiers étiquettes au format textgrid (Praat) - Mise en correspondance des noms de fichiers son avec les noms de fichiers détiquettes (correction) - Suppression des fichiers son défectueux - Suppression des fichiers avec étiquettes manquantes - Suppression totale de 3 fichiers - Élimination des doublons (= fichiers de chevauchement) avec préférence pour BJW (sur GOK) Homogénéisation du corpus Diapo 34 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Traitements Aix-MARSEC : Le corpus Aix-MARSEC

42 Vérification des étiquettes Vérification et correction de la totalité des étiquettes de mot avec PRAAT Fenêtre minimale de correction: 50ms (pas de modification dans le cas de décalages de moins de 50ms) Modification détiquette dans 82 fichiers Marquage des fichiers modifiés par ajout de mod dans le nom (facilement identifiables) Diapo 35 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Traitements Aix-MARSEC : Le corpus Aix-MARSEC

43 Prédiction de la durée des phonèmes Diapo 36 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Traitements Aix-MARSEC : Le corpus Aix-MARSEC Algorithme inspiré de Campbell 1992 Appliqué au niveau du mot

44 PHONETISATION DU CORPUS Utilisation du dictionnaire Advanced Learners Dictionary publié par Oxford University Press Dictionnaire de transcription avec mots en entrée Conversion en SAMPA (= computer readable phonetic alphabet) Fonctionnement général : Recherche automatique de chaque mot du corpus dans le dictionnaire SAMPA/ IPA I e { Q V i: eI aI OI u: aU 3: : A: : O: : Utilisation du dictionnaire Advanced Learners Dictionary publié par Oxford University Press Dictionnaire de transcription avec mots en entrée Conversion en SAMPA (= computer readable phonetic alphabet) Diapo 37 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Traitements Aix-MARSEC : Le corpus Aix-MARSEC

45 Différentes étapes de la phonétisation (1) CODAGE dun Module perl traitant : - les nombres et combinaisons de lettres + nombres (codes postaux), - les suites de majuscules (abréviations), - les génitifs et les formes contractées. Diapo 38 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Traitements Aix-MARSEC : Le corpus Aix-MARSEC

46 Traitement des formes réduites dictionnaire : formes pleines uniquement (ex: « and » est transcrit /{nd/) Création dun dictionnaire avec la liste des formes réduites et leur réalisation ex: « and » est transcrit Diapo 39 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Traitements Utilisation de ces formes dès lors quelles apparaissent sans marque prosodique dans le corpus ex: « / and » = /{nd/ mais « and » sans marque = Différentes étapes de la phonétisation (2) Aix-MARSEC : Le corpus Aix-MARSEC

47 Lors de la phonétisation, 900 mots présents dans le corpus napparaissaient pas dans le dictionnaire. Constitution dun troisième dictionnaire avec les 900 mots transcrits manuellement (à partir de Wells, 1990) … … et dun quatrième avec la transcription des formes "problématiques" (hésitations, coupures en début/ fin de fichier). But :aucune modification du dictionnaire dorigine pour applications ultérieures Diapo 40 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Traitements Différentes étapes de la phonétisation (3) Aix-MARSEC : Le corpus Aix-MARSEC

48 Problèmes non résolus : Diapo 41 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Traitements Différentes étapes de la phonétisation (3) Doublons Mots avec deux entrées dans le dictionnaire Ex: « object » (nom / verbe) ; « wind » (nom / verbe) Aucune solution automatique pour linstant puisquon ne tient pas compte de laccent lexical en projet Dates Nombres entre 1000 et 1999 traités comme des dates (vérification prévue)

49 Traitement des élisions Diapo 42 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Traitements Différentes étapes de la phonétisation (4) - Observation des élisions dans le corpus - Établissement de 14 règles phonotactiques délisions daprès Jones (1990), Wells (1990) et Cruttenden (1997) daprès les données - Application des 14 règles au corpus - Suppression totale de 4027 phonèmes But : améliorer la transcription phonématique pour lalignement automatique

50 Alignement effectué au laboratoire du LIA (Laboratoire Informatique dAvignon) - par Christophe Lévy - sous la direction de Pascal Nocéra Application dun « force Viterbi » à partir de la liste de phonèmes fournie Diapo 43 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Traitements Alignement automatique

51 Evaluation de lalignement automatique Diapo 44 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Traitements Alignement automatique Erreur moyenne absolue : 22 ms Erreur moyenne : - 6,29 ms Aplatissement : 8,15 (forte concentration) Dyssimétrie : -0,94 (léger biais à gauche)

52 Evaluation de lalignement automatique Diapo 45 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Traitements Alignement automatique

53 Après alignement, regroupement des phonèmes en syllabes Pour cela, -application de règles phonotactiques de cooccurrence en fonction du principe dattaque maximale -traitement des consonnes syllabiques /n-m-l/ Diapo 46 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Traitements Découpage syllabique (1)

54 Application de règles phonotactiques de cooccurrence Principe de base: principe dattaque maximale Les consonnes sont regroupées en position dattaque si les conditions de cooccurrence sont respectées Toutes les consonnes exclues par ces restrictions sont placées en position codaïque. Diapo 47 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Découpage syllabique (2) Traitements Résumé des contraintes de cooccurrence en attaque (cruttenden, 1997):

55 Contraintes de cooccurrence des attaques bi-consonantiques (cruttenden, 1997): p+l,r,j t+r,j,w k+l,r,j,w b+l,r,j d+r,j,w g+l,r,j,w m+j,w n+j l+j f+l,r,j v+l,r,j T+r,j,w s+l,r,j,w, p, t, k, m, n, f, v S+l,r, w, m, n h+j Diapo 48 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Découpage syllabique (3) Traitements

56 Contraintes de cooccurrence des attaques avec trois consonnes: s+p+l,r,j s+t+r,j s+k+l,r,j,w Diapo 49 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Traitements Découpage syllabique (4)

57 Traitement des consonnes syllabiques /m-n-l/ Syllabification selon le principe dattaque maximale Identification de ces consonnes syllabiques en fonction du contexte : C + /m - n - l/ (+ /z-d/) Resyllabification: /m-n-l/ deviennent noyaux syllabiques Diapo 50 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Traitements Découpage syllabique (5) Ex: expectation transcrit /IkspekteISn/ découpé en syllabes /Ik.spek.teISn/ /n/ est syllabique (contexte post-consonantique) resyllabification: /Ik.spek.teI.Sn/ ( /n/ = noyau syllabique)

58 -Codage automatique de lintonation - amélioration de lalignement actuel Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Perspectives

59 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Diapo 51 Perspectives Codage automatique de lintonation 1) Segmentation automatique en fonction des pauses Génération de Segments inter-pauses (sip) 2) Modélisation perceptive automatique de la fréquence fondamentale algorithme MOMEL (Modélisation Mélodique) 3) Codage automatique des points cibles codage intsint

60 Diapo 52 Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Perspectives Amélioration de lalignement 1) Génération automatique dun signal de synthèse Phonétisation alignée + MBROLA 2) Transfert des étiquettes Utilisation dun algorithme de programmation dynamique (DTW) 3) Itérations multiples des phases 1 et 2 jusquà stabilité

61 - représente une durée totale denviron 332 min soit environ 5 heures et demi de parole ; - est divisé en 408 fichiers ; - comporte mots ; phonèmes (après élisions) ; - est aligné aux niveaux de lUnité Intonative, du mot et du phonème ; - sera disponible sous peu à prix coûtant … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Bilan Après homogénéisation, le corpus AIX-MARSEC

62 Aix-MARSEC : Le corpus Aix-MARSEC Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Merci de votre attention Vous avez bien mérité un petit échantillon …


Télécharger ppt "Aix-MARSEC : Une proposition de traitement automatique de corpus danglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst & Daniel Hirst."

Présentations similaires


Annonces Google