Phonétisation, alignement et association dans les grands corpus oraux en anglais Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057 CNRS Disponible sur le site: http://www.lpl.univ-aix.fr/~EPG/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Méthodologie Aix-MARSEC Phonétisation, alignement et association dans les grands corpus oraux en anglais Introduction Recherches actuelles en linguistique et en phonétique souvent fondées sur l’analyse de corpus oraux Problématique Alignement / Association d’actualité dans les études sur l’intonation (Session Spéciale de SP2002) Segmentation au niveau phonétique Intérêt particulier pour les corpus oraux phonétisés et alignés au niveau des phonèmes Méthodologie Aix-MARSEC INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Plan Aix-MARSEC : les origines La méthodologie Aix-MARSEC Phonétisation, alignement et association dans les grands corpus oraux en anglais Plan Aix-MARSEC : les origines La méthodologie Aix-MARSEC Phonétisation brute Optimisation de la phonétisation Alignement automatique Autres niveaux d’analyse Perspectives et Conclusion INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Aix-MARSEC Les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC Les origines INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines MARSEC SEC Spoken English Corpus MAchine Readable SEC INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines Spoken English Corpus 55 000 mots, 339 min. et 18 sec. Archives de la BBC (années 1980) 11 styles de parole Parole naturelle 53 locuteurs (17 locutrices et 36 locuteurs) Transcription orthographique Annotation prosodique: 14 symboles de type tonetic stress marks INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
MAchine Readable Spoken English Corpus Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines MAchine Readable Spoken English Corpus Alignement temporel au niveau du mot et de l’unité intonative (mineure & majeure) Annotation prosodique: les 14 symboles utilisés pour le SEC sont remplacés par 14 symboles ASCII (G. Knowles & B. Williams) →tonetic stress marks INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines 14 symboles ASCII pour l’annotation prosodique : _ low level ~ high level < step-down > step-up /’ (high) rise-fall ‘/ high \ high fall fall-rise / high rise , low rise ‘ low fall ,\ (low rise-fall – not used) \, low fall-rise * stressed but unaccented | minor intonation unit boundary || major intonation unit boundary (Roach, 1994) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines Pré-traitements et homogénéisation du corpus Suppression des fichiers son défectueux ou étiquettes manquantes Conversion des fichiers étiquettes au format ‘textgrid’ (Praat) Vérification et correction des étiquettes de mot avec Praat (fenêtre minimale de correction: 50ms) Modification d’étiquettes dans 82 fichiers Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines Pré-traitements: prédiction de la durée des phonèmes Campbell (1992) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Méthodologie Aix-MARSEC Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Méthodologie Aix-MARSEC Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC Phonétisation brute Optimisation de la phonétisation Alignement automatique Autres niveaux d’analyse INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Méthodologie Aix-MARSEC : Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC : Phonétisation brute INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation brute Méthode par dictionnaires Fonctionnement général : Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Méthode par dictionnaires Fonctionnement général : Recherche automatique dans le dictionnaire de prononciation (‘Advanced Learners’ Dictionary’, Oxford University Press): 71 000 mots en entrée Conversion en SAMPA (exemples des voyelles simples) I - e - e { - Q - V - U - A: - : O: - : 3: - : @ - i: - i: u: - : INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation brute Fonctions PERL traitant : Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Fonctions PERL traitant : Chiffres et combinaisons de lettres + chiffres Suites de majuscules (abréviations) Génitifs et les formes contractées Pluriel/3ème pers. sing. & part. passé/prétérit réguliers INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation brute Utilisation de quatre dictionnaires différents Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Utilisation de quatre dictionnaires différents Dictionnaire "général" Advanced Learners’ Dictionary (formes phonologiques sous-jacentes) Dictionnaire "mots inconnus" (700 mots transcrits manuellement) Dictionnaire "formes problématiques" (hésitations, coupures) Dictionnaire "formes réduites" INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation brute Traitement des formes réduites Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Traitement des formes réduites But: améliorer la phonétisation Création d’un dictionnaire des formes réduites en anglais à partir de O’Connor (1967) et Faure (1975) Condition de réduction: absence de marque prosodique (TSM) Exemple: précédé d’une TSM, ‘/and -> transcrit /{nd/ non précédé d’une TSM, and -> transcrit /@nd/ (dictionnaire de formes réduites) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Phonétisation brute Problèmes non résolus Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Problèmes non résolus Doublons (mots avec deux entrées dans le dictionnaire) Exemples: object, wind Aucune solution automatique (pas d’accent lexical, 1er cas)… … mais possibilité de différenciation avec un système de reconnaissance 2. Dates (chiffres entre 1000 et 1999 traités comme des dates) Système de reconnaissance INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Méthodologie Aix-MARSEC : Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC : Optimisation de la phonétisation INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation 1) Méthode "brute" fondée sur l’extraction de lexique Récupération de formes phonologiques (« citation forms ») 2) L’oral est caractérisé par certains phénomènes de production (élisions, réductions, assimilations, métathèses, …) Nécessité de modéliser ces phénomènes pour générer une phonétisation plus proche du signal : optimisation de la phonétisation « phonologique » INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Utilisation de règles contraintes : Paramètres intonatifs Paramètres temporels Paramètres phonotactiques INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation 1. Paramètres intonatifs: présence / absence de TSM 2. Paramètres temporels Seuil minimal: 5ms Seuils pour certains phonèmes (Klatt, 1979) /t – d/= 55ms; /@/= 55ms; /T/= 110ms Transformé z: z < 0 élision z ≥ 0 pas d’élision 3. Paramètres phonotactiques INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Paramètres phonotactiques : règles d’élision de phonèmes Littérature : Jones (1990), Wells (1990) et Gimson (réédité par Cruttenden, 1997) Observation d’un échantillon des données du corpus 15 règles d’élision INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Règles d’élision de phonèmes (1) Si z < 0, alors: Règle n°1: élision du phonème /d/ dans and Règle n°2: élision de /h/ dans les formes he, he’d, he’ll, he’s, his, him (position non-initiale d’UI; TSM) Règle n°3: élision de /h/ dans la forme her (mêmes conditions) Règle n°4 : élision de /t/ dans le contexte /t/ # /t-d/ (seuil) Règle n°5 : élision de /d/ dans le contexte /d/ # /t-d/, hors terminaison -ed /Id/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Règles d’élision de phonèmes (2) Règle n°6 : élision de /t/ et /d/ dans le contexte C1 + /t-d/ # C2 -/hj/ Règle n°7 : élision de /p/ dans le contexte /mp/ (#) + C-/r-l-j/ Règle n°8 : élision de /k/ dans le contexte /Nk/ (#) [ptksSTf] Règle n°9 : élision de /l/ dans le contexte /O:/ + /l/ (#) + C Règle n°10 : élision du phonème /T/ dans le contexte C + /T/ (#) + /s/ (seuil) Règle n°11 : élision dans le contexte /s/ + /p - t - k/ (#) + /s/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Règles d’élision de phonèmes (3) Règle n°12 : élision du schwa dans le contexte /@/ + /l - r/ + voyelle réduite /I - @/ (seuil) mais évitement d’enchaînement /rl/ et simplification des séquences /rr/ et /ll/ Règle n°13 : élision du schwa dans /k@n/'Syll en position initiale (seuil) Règle n°14 : élision du schwa dans l’auxiliaire de modalité can (seuil) Règle n°15 : élision du schwa dans le contexte /k-p/ + /@/ + /n/ # (seuil) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation 4083 phonèmes élidés sur les 199.770 du corpus (≈ 2 %) Évaluation des règles d’élision de phonèmes (comparaison avec fichiers observés) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Méthodologie Aix-MARSEC : Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC : Alignement automatique INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Alignement automatique Phonétisation, alignement et association dans les grands corpus oraux en anglais Alignement automatique On considère généralement (Di Cristo et Hirst, 1997) qu’il faut 16 h pour transcrire et aligner 1 minute de parole au niveau phonématique Soit 5280 heures pour les 5h30 du corpus (plus de 1 an et demi à raison de 10h par jour 7 jours par semaine) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Alignement automatique Phonétisation, alignement et association dans les grands corpus oraux en anglais Alignement automatique Méthode Alignement réalisé par Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon (cf. Nocéra et al., 2000) Modèles de Markov Cachés (HMMs) entraînés sur le corpus TIMIT Alignement par application de l’algorithme Viterbi contraint par la phonétisation (« force Viterbi ») INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Alignement automatique Phonétisation, alignement et association dans les grands corpus oraux en anglais Alignement automatique Évaluation (1) Absence de biais lié aux élisions lors de la phase d’alignement (Tests de Wilcoxon et de Kolmogorov-Smirnov sous R) P valeurs Wilcoxon 0.7757 Kolmogorov-Smirnov 1 INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
% de décalages inférieurs au seuil Phonétisation, alignement et association dans les grands corpus oraux en anglais Alignement automatique Évaluation (2) Seuil % de décalages inférieurs au seuil 64 ms 93.25 % 32 ms 82.02 % 20 ms 68.37 % 16 ms 59.97 % 15 ms 57.40 % 10 ms 42.43 % 5 ms 23.72 % INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Méthodologie Aix-MARSEC : Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC : Autres niveaux d’analyse INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Autres niveaux d’analyse Phonétisation, alignement et association dans les grands corpus oraux en anglais Autres niveaux d’analyse Regroupements et alignements automatiques Syllabes (Principe d’Attaque Maximale; Pulgram, 1970) Constituants syllabiques (Attaque, Noyau et Coda) Pieds Accentuels (Abercrombie, 1967) Unités rythmiques (Jassem, 1952) Mots Unités intonatives (mineures & majeures) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Autres niveaux d’analyse Phonétisation, alignement et association dans les grands corpus oraux en anglais Autres niveaux d’analyse Autres traitements (cf. Présentation D. Hirst, 22 mai 2003) Application de l’algorithme MOMEL Codage des points cibles par l’algorithme INTSINT Éléments pour le traitement de la problématique alignement / association sur parole naturelle INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Perspectives & conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives & conclusion INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Perspectives et Conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives et Conclusion Amélioration de la phonétisation : Nouvelles règles (exemple: the) Affinement des contraintes Suppression fondée sur l’alignement automatique INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Perspectives et Conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives et Conclusion Amélioration de l’alignement : Utilisation de modèles phonétiques plus adaptés Application itérative d’un algorithme de programmation dynamique (DTW) (cf. Di Cristo & Hirst, 1997) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Perspectives et Conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives et Conclusion Aix-MARSEC : une méthodologie … Un système de phonétisation fiable (94,79 % de phonèmes prédits correctement) Un système portable (scripts multi-plateformes en langage Perl, dictionnaires modulaires) Un ensemble d’outils de génération de granularités variables (regroupements automatiques à divers niveaux) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Perspectives et Conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives et Conclusion … et un corpus : - 5h30 de parole continue - 52 locuteurs - 11 styles de parole - 195.687 phonèmes, 88.794 syllabes, 54.083 mots - alignement aux niveaux du phonème, constituant syllabique, syllabe, mot, pied, unité rythmique, cibles MOMEL/INTSINT, unité intonative (mineure / majeure) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003
Illustration
Merci de votre attention Phonétisation, alignement et association dans les grands corpus oraux en anglais Merci de votre attention INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003