Aix-MARSEC : Une proposition de traitement automatique de corpus d’anglais britannique oral Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole & Langage Université de Provence Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
PLAN I) Petit tour d’horizon des Corpus en anglais Aix-MARSEC PLAN I) Petit tour d’horizon des Corpus en anglais 1) Des corpus nombreux et variés 2) Les corpus oraux 3) Les corpus oraux britanniques Le corpus Aix-MARSEC 1) Les origines 2) de MARSEC à Aix-MARSEC : traitements 3) perspectives Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 1 Des corpus nombreux et variés A titre d’exemple, on pourra citer les corpus disponibles à l’UCREL : * The British National Corpus (BNC) * The Lancaster/Oslo-Bergen Corpus (LOB) * The Brown University Corpus * The Kolhapur Corpus * The Longman-Lancaster Corpus * The Lancaster/IBM Spoken English Corpus (SEC) * The London-Lund Corpus * The ET10-63 Corpus * The International Telecommunications Union (ITU) or CRATER Corpus * The Helsinki Corpus (Diachronic Part) * The Lampeter Corpus of Early Modern English Tracts Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 2 Des corpus nombreux et variés Suite des corpus disponibles à l’UCREL : * The Lancaster-Leeds Treebank * The Lancaster Parsed Corpus (LPC) The American Printing House for the Blind Treebank (APHB) * The Associated Press Treebank (AP) * The Canadian Hansard Treebank * The IBM Manuals Treebank * The Anaphoric Treebank * The ACL/DCI CD-ROM * The WordCruncher Disk Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 3 Des corpus nombreux et variés Sans oublier quelques travaux pré-électroniques : * cruden : Concordance of the Authorized version of the Bible (1736) * Johnson : Dictionary of the english language * The Oxford English Dictionary (1928) * Webster : An American Dictionary of the English Language (1928) * Wright : The English Dialect Dictionary (1898 - 1905) * Ellis : The Existing Phonology of English Dialects (1889) * Thorndike : Teacher’s Workbook (1921) * Thorndike & Lorge : The Teacher’s Workbook of 30,000 words (1944) * Jespersen : A Modern English Grammar on Historical Principles (1909 - 49) * Kruisinga : A Handbook of Present-Day English (1931-32) * Poutsma : A Grammar of Late Modern English (1926-29) * Fries : American English Grammar (1940) * Fries : The Structure of English (1952) * Quirk : The Survey of English Usage (1968) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 4 Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Corpus Généralistes : Brown University Corpus LOB Corpus Brittish National Corpus Kohlapur Corpus of Indian English Wellington Corpus of Written New Zealand English Australian Corpus of English … Corpus Orientés : Oxford Psycholinguistic Database Child Language Data Exchange System European Science Foundation Second Language Databank International Corpus of Learner’s English Canterbury Corpus BDBRUIT Database … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 5 Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Approche Dialectologique (type de population étudiée) Par Groupes sociaux ou provinces : COLT IViE PAC :o) … Par pays : Wellington Corpus of New zealand English Corpus of Spoken American English Brown University Corpus Australian Corpus of English Corpus of English Canadian Writing Kohlapur Corpus of Indian English … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 6 Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Approche Dialectologique (type de population étudiée) Approche Stylistique (type de texte) Par Style de texte : Jiao Tang University Corpus of English in Science COLT (London teenage colloquial English) CRATER Corpus (telecom English) Lampeter Corpus of Early Modern English Tracts … Par modalité de production : Recours à une échelle de spontanéité Lecture de mots isolés … Lecture de phrases … MAP Task … Conversation guidée … Parole publique … conversation libre … Conversation libre enregistrée à l’insu des locuteurs Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 7 Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Approche Dialectologique (type de population étudiée) Approche Stylistique (type de texte) Nature des données enregistrées Données écrites : LOB Corpus Brown University Corpus Kohlapur Corpus BNC (90 %) … Données orales : BNC (10 %) Lancaster/IBM Spoken English Corpus (SEC) London-Lund Corpus IviE … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 8 Des corpus nombreux et variés Critères de classification utilisables : Approche généraliste / Orientée (type d’exploitation visé) Approche Dialectologique (type de population étudiée) Approche Stylistique (type de texte) Nature des données enregistrées Format des données disponibles (données enregistrées orales) Transcriptions seules : BNC American National Corpus Corpus of Spoken Professional American English Canadian Hansard Treebank … Transcriptions et fichiers son : MULTEXT ICE (International Corpus of English) SBCSAE IViE … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 9 Les corpus Oraux Corpus Oraux = Corpus de données orales Disponibles sous un format audio Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 9 Les corpus Oraux Corpus Oraux = Corpus de données orales Disponibles sous un format audio Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 10 Les corpus Oraux Disponibles sous un format audio Nature des transcriptions ??? Format des Transcriptions ??? Mais encore ??? Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 11 Les corpus Oraux Nature des transcriptions ??? Orthographique Annotée Syntaxe (étiquetage “POS” / structures) Phonétique / Phonologie (segmental / “supra-segmental”) Infos Conversationnelles (Tours de parole, chevauchements, …) Infos DISCURSIVES (Structure informationnelle, référentielle, rhétorique, hiérarchique-fonctionnelle, …) Ponctuée / NON Ponctuée Annotée / Non annotée Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 12 Les corpus Oraux Nature des transcriptions ??? NON-Orthographique Orthographique Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 13 Les corpus Oraux Format des transcriptions ??? Texte “simple” (Plain Text) Fichiers au format ASCII, Non destinés à un logiciel particulier : Portabilité maximalisée Mais Traitement automatique direct impossible Exploitation manuelle facilitée Mais Traitement exhaustif difficile Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 14 Les corpus Oraux Format des transcriptions ??? Exemple de Texte “simple” : LLC:c Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Version réduite du LLC (cf. Svartvick & Quirk 1980)
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 15 Les corpus Oraux Format des transcriptions ??? Exemple de Texte “simple” : MARSEC signal a0101 type 0 color 121 comment created by Caro et Cyril font -adobe-helvetica-medium-r-normal--14-140-75-75-p-77-iso8859-1 separator ; nfields 1 # 0.000000 122 || 0.570000 122 <Good 0.680000 122 `morning 1.160000 122 || 1.780000 122 >`more 1.940000 122 *news 2.281180 122 about 2.500000 122 the 2.630000 122 ~Reverend 2.950000 122 _Sun 3.290000 122 *Myung 3.643588 122 `Moon Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Transcription MARSEC
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 16 Les corpus Oraux Format des transcriptions ??? Texte “formaté” Fichiers au format ASCII ou “compilés”, destinés à un logiciel particulier : Portabilité minimalisée Mais Exploitation directe possible Exploitation manuelle plus difficilE Mais Exploitation exhaustive possible Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 17 Les corpus Oraux Format des transcriptions ??? Exemple de Texte “Formaté” : BNC <bncDoc id=BDFX8 n=093802> <header type=text creator='natcorp' status=new update=1994-07-13> <fileDesc> <titStmt> <title> General Practitioners Surgery -- an electronic transcription </title> <respStmt> <resp> Data capture and transcription </resp> <name> Longman ELT </name> </respStmt> </titStmt> <ednStmt n=1> Automatically-generated header </ednStmt> <extent kb=7 words=128> </extent> <u who=FX8PS000> <s n=01> <w ITJ>Ah <w AV0>there <w PNP>we <w VBB>are<c PUN>, <unclear><c PUN>. <s n=02> <w AV0>Right <unclear> <w AJ0>abdominal <w NN1>wound<c PUN>, <w PNP>she<w VBZ>'s <w AT0>a <w AJ0>wee <w NN1>bit <pause> <w VVD>confused<c PUN>. <s n=03> <w PNP>She <w VDD>did<w XX0>n't <w VVI>bother <w TO0>to <w VVI>tell <w PNP>me <w CJT>that <w PNP>she<w VHD>'d <w AV0>only <w VVN>got <unclear> <w TO0>to <w VVI>call <w PNP>you<c PUN>, <w AV0>right<c PUN>? <s n=04> <w UNC>Erm <w PNP>she <w VBD>was<w XX0>n't <w PRP>in <w DPS>her <w NN1>nightdress <w CJC>but <w PNP>she <w AV0>only <w VVN>dressed <w PNX>herself<c PUN>, <w PNP>she <w VVD>said <ptr t=FX8LC001> <unclear> <ptr t=FX8LC002> </u> <u who=PS22T> <s n=05> <ptr t=FX8LC001> <w CJC>And <w PNP>you <unclear> <ptr t=FX8LC002> Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Transcription BNC (Header) Transcription BNC
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 18 Les corpus Oraux Format des transcriptions ??? Exemple de Texte “Formaté” : IviE dans XWaves Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02 Transcription IviE
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 19 Les corpus Oraux Les transcriptions sont en général : orthographiques annotées Texte simple / formaté + / - Alignées Qu’en est-il des principaux corpus oraux d’anglais britannique ??? Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 20 Les corpus Oraux Britanniques Description sommaire de DEUX corpus oraux d’anglais Britannique : ICE 2) IViE Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 21 Les corpus Oraux Britanniques ICE : The International Corpus of English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 22 Les corpus Oraux BritanNiques ICE-GB : LE composant britannique Début du programme : 1990 Objectif principal : Fournir les données nécessaires à une étude comparative des variantes nationales et régionales de l’anglais Nombre de partenaires : 20 centres Composition : 1 million de mots (200 textes écrits, 300 textes oraux) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 23 Les corpus Oraux BritanNiques ICE-GB : LE composant britannique Format des données : annotation syntaxique complète au format ICECUP (étiquetage + structure syntaxique) 83.394 arbres au total 59.640 arbres pour la partie orale Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 24 Les corpus Oraux BritanNiques ICE-GB : LE composant britannique ICE-GB : un véritable corpus oral ??? Version 1 du corpus : Transcriptions seules … Version 2 du Corpus : Transcriptions et fichiers son (Alignement ???) (si oui, QuelLe granularité d’alignement ???) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 25 Les corpus Oraux BritanNiques IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 26 Les corpus Oraux BritanNiques IViE : Intonational Variation in English Début du programme : 1997 Objectif principal : Fournir les données et les outils nécessaires à une étude comparative des variantes intonatives régionales de l’anglais des îles britanniques Nombre de points d’enquête : 9 Composition : 36 heures de parole (dont 4h transcrites et 1h disponible en ligne) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 27 Les corpus Oraux BritanNiques IViE : Intonational Variation in English Composition (suite) : 5 modalités de production : Conversation Interaction guidée (Map Task) Récit “de mémoire” Lecture de texte Lecture de passages phonétiquement contrôlés Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 28 Les corpus Oraux BritanNiques IViE : Intonational Variation in English Format des données Format Xwaves (Entropic Soft.) sous Unix Possibilité d’Utilisation avec PitchWorks, WaveSurfer, Praat, … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 28 Les corpus Oraux BritanNiques IViE : Intonational Variation in English Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 29 Les corpus Oraux BritanNiques IViE : Intonational Variation in English IVIE : un véritable corpus oral d’anglais britannique Un corpus orienté (intonation, pas d’annotation syntaxique ni de concordance) Un corpus aligné au niveau du mot (fin d’unité) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Petit tour d’horizon des corpus en anglais Diapo 30 Les corpus Oraux BritanNiques En Résumé Les corpus sont nombreux mais rares sont ceux qui sont : réellement oraux sur l’anglais britannique disponibles (cf. CIC) Gratuits (ou presque …) (cf. ICE : 477 € / EUROM 1 : 800-1600 € / …) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Le corpus Aix-MARSEC 1) Les origines 2) de MARSEC à Aix-MARSEC : traitements 3) perspectives Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Origines de MARSEC MARSEC: MAchine Readable Spoken English Corpus Aix-MARSEC : Le corpus Aix-MARSEC Diapo 31 Origines de MARSEC MARSEC: MAchine Readable Spoken English Corpus SEC: Spoken English Corpus (Lancaster, Leeds, IBM) Corpus d’environ 55 000 mots Catégories de discours: bulletins d’informations, émissions religieuses, fiction, poésie, dialogues (de type mise en scène), commentaires sportifs). 53 locuteurs (17 locutrices et 36 locuteurs) Archives de la BBC (début des années 1980) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Le corpus Aix-MARSEC Diapo 32 Origines de MARSEC Durée : 339 minutes et 18 secondes, corpus divisé en fichiers de 60s environ Alignement (temporel) au niveau du mot Annotation prosodique: tonetic stress marks (G. Knowles & B. Williams) 80 passages de chevauchement (9% du corpus) pour comparaison Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
annotation prosodique (14 symboles ASCII) : Aix-MARSEC : Le corpus Aix-MARSEC Diapo 33 Origines de MARSEC annotation prosodique (14 symboles ASCII) : _ low level ~ high level < step-down > step-up /’ (high) rise-fall ‘/ high fall-rise / high rise \ high fall , low rise ‘ low fall ,\ (low rise-fall – not used) \, low fall-rise * stressed but unaccented | minor intonation unit boundary || major intonation unit boundary Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
De MARSEC à AIX-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Homogénéisation du corpus Aix-MARSEC : Le corpus Aix-MARSEC Diapo 34 Traitements Homogénéisation du corpus Conversion des fichiers étiquettes au format ‘textgrid’ (Praat) Mise en correspondance des noms de fichiers son avec les noms de fichiers d’étiquettes (correction) Suppression des fichiers son défectueux Suppression des fichiers avec étiquettes manquantes - Suppression totale de 3 fichiers - Élimination des doublons (= fichiers de chevauchement) avec préférence pour BJW (sur GOK) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Vérification des étiquettes Aix-MARSEC : Le corpus Aix-MARSEC Diapo 35 Traitements Vérification des étiquettes Vérification et correction de la totalité des étiquettes de mot avec PRAAT Fenêtre minimale de correction: 50ms (pas de modification dans le cas de décalages de moins de 50ms) Modification d’étiquette dans 82 fichiers Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom (facilement identifiables) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Traitements Prédiction de la durée des phonèmes Aix-MARSEC : Le corpus Aix-MARSEC Diapo 36 Traitements Prédiction de la durée des phonèmes Algorithme inspiré de Campbell 1992 Appliqué au niveau du mot Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Traitements PHONETISATION DU CORPUS Aix-MARSEC : Le corpus Aix-MARSEC Diapo 37 Traitements PHONETISATION DU CORPUS SAMPA / IPA e e I { Q V U @ i: i: eI aI OI u: : @U aU 3: : A: : O: : I@ e@ U@ Utilisation du dictionnaire ‘Advanced Learners’ Dictionary’ publié par Oxford University Press Dictionnaire de transcription avec 71 000 mots en entrée Conversion en SAMPA (= computer readable phonetic alphabet) Utilisation du dictionnaire ‘Advanced Learners’ Dictionary’ publié par ‘Oxford University Press’ Dictionnaire de transcription avec 71 000 mots en entrée Conversion en SAMPA (= computer readable phonetic alphabet) Fonctionnement général : Recherche automatique de chaque mot du corpus dans le dictionnaire Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Différentes étapes de la phonétisation (1) Aix-MARSEC : Le corpus Aix-MARSEC Diapo 38 Traitements Différentes étapes de la phonétisation (1) CODAGE d’un Module perl traitant : les nombres et combinaisons de lettres + nombres (codes postaux), les suites de majuscules (abréviations), les génitifs et les formes contractées. Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Traitements Différentes étapes de la phonétisation (2) Aix-MARSEC : Le corpus Aix-MARSEC Diapo 39 Traitements Différentes étapes de la phonétisation (2) Utilisation de ces formes dès lors qu’elles apparaissent sans marque prosodique dans le corpus ex: « ‘/and » = /{nd/ mais « and » sans marque = /@nd/ Traitement des formes réduites dictionnaire : formes pleines uniquement (ex: « and » est transcrit /{nd/) Création d’un dictionnaire avec la liste des formes réduites et leur réalisation ex: « and » est transcrit /@nd/ Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Différentes étapes de la phonétisation (3) Aix-MARSEC : Le corpus Aix-MARSEC Diapo 40 Traitements Différentes étapes de la phonétisation (3) Lors de la phonétisation, 900 mots présents dans le corpus n’apparaissaient pas dans le dictionnaire. Constitution d’un troisième dictionnaire avec les 900 mots transcrits manuellement (à partir de Wells, 1990) … … et d’un quatrième avec la transcription des formes "problématiques" (hésitations, coupures en début/ fin de fichier). But : aucune modification du dictionnaire d’origine pour applications ultérieures Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Problèmes non résolus : Aix-MARSEC : Le corpus Aix-MARSEC Diapo 41 Traitements Différentes étapes de la phonétisation (3) Problèmes non résolus : Doublons Mots avec deux entrées dans le dictionnaire Ex: « object » (nom / verbe) ; « wind » (nom / verbe) Aucune solution automatique pour l’instant puisqu’on ne tient pas compte de l’accent lexical en projet Dates Nombres entre 1000 et 1999 traités comme des dates (vérification prévue) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Traitements Différentes étapes de la phonétisation (4) Aix-MARSEC : Le corpus Aix-MARSEC Diapo 42 Traitements Différentes étapes de la phonétisation (4) Traitement des élisions Observation des élisions dans le corpus Établissement de 14 règles phonotactiques d’élisions d’après Jones (1990), Wells (1990) et Cruttenden (1997) d’après les données - Application des 14 règles au corpus - Suppression totale de 4027 phonèmes But : améliorer la transcription phonématique pour l’alignement automatique Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Alignement automatique Aix-MARSEC : Le corpus Aix-MARSEC Diapo 43 Traitements Alignement automatique Alignement effectué au laboratoire du LIA (Laboratoire Informatique d’Avignon) - par Christophe Lévy - sous la direction de Pascal Nocéra Application d’un « force Viterbi » à partir de la liste de phonèmes fournie Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Traitements Alignement automatique Aix-MARSEC : Le corpus Aix-MARSEC Diapo 44 Traitements Alignement automatique Evaluation de l’alignement automatique Erreur moyenne absolue : 22 ms Erreur moyenne : - 6,29 ms Aplatissement : 8,15 (forte concentration) Dyssimétrie : -0,94 (léger biais à gauche) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Traitements Alignement automatique Aix-MARSEC : Le corpus Aix-MARSEC Diapo 45 Traitements Alignement automatique Evaluation de l’alignement automatique Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Découpage syllabique (1) Aix-MARSEC : Le corpus Aix-MARSEC Diapo 46 Traitements Découpage syllabique (1) Après alignement, regroupement des phonèmes en syllabes Pour cela, application de règles phonotactiques de cooccurrence en fonction du principe d’attaque maximale - traitement des consonnes syllabiques /n-m-l/ Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Application de règles phonotactiques de cooccurrence Aix-MARSEC : Le corpus Aix-MARSEC Diapo 47 Traitements Découpage syllabique (2) Application de règles phonotactiques de cooccurrence Principe de base: principe d’attaque maximale Les consonnes sont regroupées en position d’attaque si les conditions de cooccurrence sont respectées Toutes les consonnes exclues par ces restrictions sont placées en position codaïque. Résumé des contraintes de cooccurrence en attaque (cruttenden, 1997): Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Découpage syllabique (3) Aix-MARSEC : Le corpus Aix-MARSEC Diapo 48 Traitements Découpage syllabique (3) Contraintes de cooccurrence des attaques bi-consonantiques (cruttenden, 1997): p + l, r, j t + r, j, w k + l, r, j, w b + l, r, j d + r, j, w g + l, r, j, w m + j, w n + j l + j f + l, r, j v + l, r, j T + r, j, w s + l, r, j, w, p, t, k, m, n, f, v S + l, r, w, m, n h + j Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Traitements Découpage syllabique (4) Aix-MARSEC : Le corpus Aix-MARSEC Diapo 49 Traitements Découpage syllabique (4) Contraintes de cooccurrence des attaques avec trois consonnes: s + p + l, r, j s + t + r, j s + k + l, r, j, w Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Traitement des consonnes syllabiques /m-n-l/ Aix-MARSEC : Le corpus Aix-MARSEC Diapo 50 Traitements Découpage syllabique (5) Traitement des consonnes syllabiques /m-n-l/ Syllabification selon le principe d’attaque maximale Identification de ces consonnes syllabiques en fonction du contexte : C + /m - n - l/ (+ /z-d/) Resyllabification: /m-n-l/ deviennent noyaux syllabiques Ex: expectation transcrit /IkspekteISn/ découpé en syllabes /Ik.spek.teISn/ /n/ est syllabique (contexte post-consonantique) resyllabification: /Ik.spek.teI.Sn/ (/n/ = noyau syllabique) Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Perspectives Codage automatique de l’intonation Aix-MARSEC : Le corpus Aix-MARSEC Perspectives Codage automatique de l’intonation - amélioration de l’alignement actuel Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Perspectives Codage automatique de l’intonation Aix-MARSEC : Le corpus Aix-MARSEC Diapo 51 Perspectives Codage automatique de l’intonation 1) Segmentation automatique en fonction des pauses Génération de Segments inter-pauses (sip) 2) Modélisation perceptive automatique de la fréquence fondamentale algorithme MOMEL (Modélisation Mélodique) 3) Codage automatique des points cibles codage intsint Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Perspectives Amélioration de l’alignement Aix-MARSEC : Le corpus Aix-MARSEC Diapo 52 Perspectives Amélioration de l’alignement 1) Génération automatique d’un signal de synthèse Phonétisation alignée + MBROLA 2) Transfert des étiquettes Utilisation d’un algorithme de programmation dynamique (DTW) 3) Itérations multiples des phases 1 et 2 jusqu’à stabilité Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Aix-MARSEC : Bilan Après homogénéisation, le corpus AIX-MARSEC Aix-MARSEC : Le corpus Aix-MARSEC Aix-MARSEC : Bilan Après homogénéisation, le corpus AIX-MARSEC - représente une durée totale d’environ 332 min soit environ 5 heures et demi de parole ; - est divisé en 408 fichiers ; - comporte 54083 mots ; - 195447 phonèmes (après élisions) ; - est aligné aux niveaux de l’Unité Intonative, du mot et du phonème ; - sera disponible sous peu à prix coûtant … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02
Merci de votre attention Vous avez bien mérité un petit échantillon … Aix-MARSEC : Le corpus Aix-MARSEC Merci de votre attention Vous avez bien mérité un petit échantillon … Les corpus oraux en anglais et en français, Toulouse - le Mirail, 15/11/02