Phonétisation, alignement et association

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Fabrice Lauri, François Charpillet, Daniel Szer
Licence pro MPCQ : Cours
Distance inter-locuteur
Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Niveau Intermédiaire 12/01/ Visualiser votre groupe de TD ( Visualiser mon emploi du temps) 12/01/
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Reconnaissance de la parole
THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Les numéros 70 –
Les numéros
JXDVDTEK – Une DVDthèque en Java et XML
10 place de la Joliette, BP Marseille Cedex 02 Tél CENTRE DÉTUDES ET DE RECHERCHES SUR LES QUALIFICATIONS Pascale.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Estimation de la survie comparaison des courbes de survie FRT C3.
Yann SEMET Projet Fractales, INRIA Rocquencourt
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
Directeur de thèse : Régine André-Obrecht
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Reconnaissance de la parole
Maîtrise des données et des métadonnées de l’ODS
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Caroline Bouzon, Cyril Auran & Daniel Hirst
Sélection automatique d’index et de vues matérialisées
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Application des algorithmes génétiques
Adaptation de documents multimédia
Présentation générale
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Décodage des informations
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
OLAP : Un pas vers la navigation
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Visio 2010 : représentez et partagez encore plus simplement vos diagrammes et données
Développer en C avec Eclipse Introduction Création d'un projet Ajout de fichiers Compilation Exécution Utiliser le débogueur Département dinformatique.
Conscience phonologique
Automatisation de la mise à jour Rencontre dopportunité 29 octobre 2009.
Reconnaissance Vocale
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Ecaterina Giacomini Pacurar
Évaluations nationales cm Réunions de directions et animation pédagogique du 13/01/10 Circonscription de PontChateau Briere – VG-
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
‘The Voice Company’ Du texte à la Parole
Quelle heure est-il ??. THE TIME: OCLOCK IL EST HEURE IL EST + + HEURES etc.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Outil de gestion des cartes grises
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Journée Des Doctorants 2004
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Phonétisation, alignement et association dans les grands corpus oraux en anglais Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057 CNRS Disponible sur le site: http://www.lpl.univ-aix.fr/~EPG/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Méthodologie Aix-MARSEC Phonétisation, alignement et association dans les grands corpus oraux en anglais Introduction Recherches actuelles en linguistique et en phonétique souvent fondées sur l’analyse de corpus oraux Problématique Alignement / Association d’actualité dans les études sur l’intonation (Session Spéciale de SP2002) Segmentation au niveau phonétique Intérêt particulier pour les corpus oraux phonétisés et alignés au niveau des phonèmes Méthodologie Aix-MARSEC INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Plan Aix-MARSEC : les origines La méthodologie Aix-MARSEC Phonétisation, alignement et association dans les grands corpus oraux en anglais Plan Aix-MARSEC : les origines La méthodologie Aix-MARSEC Phonétisation brute Optimisation de la phonétisation Alignement automatique Autres niveaux d’analyse Perspectives et Conclusion INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Aix-MARSEC Les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC Les origines INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines MARSEC SEC Spoken English Corpus MAchine Readable SEC INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines Spoken English Corpus 55 000 mots, 339 min. et 18 sec. Archives de la BBC (années 1980) 11 styles de parole Parole naturelle 53 locuteurs (17 locutrices et 36 locuteurs) Transcription orthographique Annotation prosodique: 14 symboles de type tonetic stress marks INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

MAchine Readable Spoken English Corpus Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines MAchine Readable Spoken English Corpus Alignement temporel au niveau du mot et de l’unité intonative (mineure & majeure) Annotation prosodique: les 14 symboles utilisés pour le SEC sont remplacés par 14 symboles ASCII (G. Knowles & B. Williams) →tonetic stress marks INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines 14 symboles ASCII pour l’annotation prosodique : _ low level ~ high level < step-down > step-up /’ (high) rise-fall ‘/ high \ high fall fall-rise / high rise , low rise ‘ low fall ,\ (low rise-fall – not used) \, low fall-rise * stressed but unaccented | minor intonation unit boundary || major intonation unit boundary (Roach, 1994) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines Pré-traitements et homogénéisation du corpus Suppression des fichiers son défectueux ou étiquettes manquantes Conversion des fichiers étiquettes au format ‘textgrid’ (Praat) Vérification et correction des étiquettes de mot avec Praat (fenêtre minimale de correction: 50ms) Modification d’étiquettes dans 82 fichiers Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Aix-MARSEC : les origines Phonétisation, alignement et association dans les grands corpus oraux en anglais Aix-MARSEC : les origines Pré-traitements: prédiction de la durée des phonèmes Campbell (1992) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Méthodologie Aix-MARSEC Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Méthodologie Aix-MARSEC Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC Phonétisation brute Optimisation de la phonétisation Alignement automatique Autres niveaux d’analyse INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Méthodologie Aix-MARSEC : Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC : Phonétisation brute INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation brute Méthode par dictionnaires Fonctionnement général : Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Méthode par dictionnaires Fonctionnement général : Recherche automatique dans le dictionnaire de prononciation (‘Advanced Learners’ Dictionary’, Oxford University Press): 71 000 mots en entrée Conversion en SAMPA (exemples des voyelles simples) I -  e - e { -  Q -  V -  U -  A: - : O: - : 3: - : @ -  i: - i: u: - : INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation brute Fonctions PERL traitant : Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Fonctions PERL traitant : Chiffres et combinaisons de lettres + chiffres Suites de majuscules (abréviations) Génitifs et les formes contractées Pluriel/3ème pers. sing. & part. passé/prétérit réguliers INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation brute Utilisation de quatre dictionnaires différents Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Utilisation de quatre dictionnaires différents Dictionnaire "général" Advanced Learners’ Dictionary (formes phonologiques sous-jacentes) Dictionnaire "mots inconnus" (700 mots transcrits manuellement) Dictionnaire "formes problématiques" (hésitations, coupures) Dictionnaire "formes réduites" INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation brute Traitement des formes réduites Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Traitement des formes réduites But: améliorer la phonétisation Création d’un dictionnaire des formes réduites en anglais à partir de O’Connor (1967) et Faure (1975) Condition de réduction: absence de marque prosodique (TSM) Exemple: précédé d’une TSM, ‘/and -> transcrit /{nd/ non précédé d’une TSM, and -> transcrit /@nd/ (dictionnaire de formes réduites) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Phonétisation brute Problèmes non résolus Phonétisation, alignement et association dans les grands corpus oraux en anglais Phonétisation brute Problèmes non résolus Doublons (mots avec deux entrées dans le dictionnaire) Exemples: object, wind Aucune solution automatique (pas d’accent lexical, 1er cas)… … mais possibilité de différenciation avec un système de reconnaissance 2. Dates (chiffres entre 1000 et 1999 traités comme des dates) Système de reconnaissance INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Méthodologie Aix-MARSEC : Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC : Optimisation de la phonétisation INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation 1) Méthode "brute" fondée sur l’extraction de lexique Récupération de formes phonologiques (« citation forms ») 2) L’oral est caractérisé par certains phénomènes de production (élisions, réductions, assimilations, métathèses, …) Nécessité de modéliser ces phénomènes pour générer une phonétisation plus proche du signal : optimisation de la phonétisation « phonologique » INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Utilisation de règles contraintes : Paramètres intonatifs Paramètres temporels Paramètres phonotactiques INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation 1. Paramètres intonatifs: présence / absence de TSM 2. Paramètres temporels Seuil minimal: 5ms Seuils pour certains phonèmes (Klatt, 1979) /t – d/= 55ms; /@/= 55ms; /T/= 110ms Transformé z: z < 0  élision z ≥ 0  pas d’élision 3. Paramètres phonotactiques INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Paramètres phonotactiques : règles d’élision de phonèmes Littérature : Jones (1990), Wells (1990) et Gimson (réédité par Cruttenden, 1997) Observation d’un échantillon des données du corpus 15 règles d’élision INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Règles d’élision de phonèmes (1) Si z < 0, alors: Règle n°1: élision du phonème /d/ dans and Règle n°2: élision de /h/ dans les formes he, he’d, he’ll, he’s, his, him (position non-initiale d’UI; TSM) Règle n°3: élision de /h/ dans la forme her (mêmes conditions) Règle n°4 : élision de /t/ dans le contexte /t/ # /t-d/ (seuil) Règle n°5 : élision de /d/ dans le contexte /d/ # /t-d/, hors terminaison -ed /Id/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Règles d’élision de phonèmes (2) Règle n°6 : élision de /t/ et /d/ dans le contexte C1 + /t-d/ # C2 -/hj/ Règle n°7 : élision de /p/ dans le contexte /mp/ (#) + C-/r-l-j/ Règle n°8 : élision de /k/ dans le contexte /Nk/ (#) [ptksSTf] Règle n°9 : élision de /l/ dans le contexte /O:/ + /l/ (#) + C Règle n°10 : élision du phonème /T/ dans le contexte C + /T/ (#) + /s/ (seuil) Règle n°11 : élision dans le contexte /s/ + /p - t - k/ (#) + /s/ INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation Règles d’élision de phonèmes (3) Règle n°12 : élision du schwa dans le contexte /@/ + /l - r/ + voyelle réduite /I - @/ (seuil) mais évitement d’enchaînement /rl/ et simplification des séquences /rr/ et /ll/ Règle n°13 : élision du schwa dans /k@n/'Syll en position initiale (seuil) Règle n°14 : élision du schwa dans l’auxiliaire de modalité can (seuil) Règle n°15 : élision du schwa dans le contexte /k-p/ + /@/ + /n/ # (seuil) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Optimisation de la phonétisation Phonétisation, alignement et association dans les grands corpus oraux en anglais Optimisation de la phonétisation 4083 phonèmes élidés sur les 199.770 du corpus (≈ 2 %) Évaluation des règles d’élision de phonèmes (comparaison avec fichiers observés) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Méthodologie Aix-MARSEC : Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC : Alignement automatique INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Alignement automatique Phonétisation, alignement et association dans les grands corpus oraux en anglais Alignement automatique On considère généralement (Di Cristo et Hirst, 1997) qu’il faut 16 h pour transcrire et aligner 1 minute de parole au niveau phonématique Soit 5280 heures pour les 5h30 du corpus (plus de 1 an et demi à raison de 10h par jour 7 jours par semaine) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Alignement automatique Phonétisation, alignement et association dans les grands corpus oraux en anglais Alignement automatique Méthode Alignement réalisé par Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon (cf. Nocéra et al., 2000) Modèles de Markov Cachés (HMMs) entraînés sur le corpus TIMIT Alignement par application de l’algorithme Viterbi contraint par la phonétisation (« force Viterbi ») INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Alignement automatique Phonétisation, alignement et association dans les grands corpus oraux en anglais Alignement automatique Évaluation (1) Absence de biais lié aux élisions lors de la phase d’alignement (Tests de Wilcoxon et de Kolmogorov-Smirnov sous R) P valeurs Wilcoxon 0.7757 Kolmogorov-Smirnov 1 INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

% de décalages inférieurs au seuil Phonétisation, alignement et association dans les grands corpus oraux en anglais Alignement automatique Évaluation (2) Seuil % de décalages inférieurs au seuil 64 ms 93.25 % 32 ms 82.02 % 20 ms 68.37 % 16 ms 59.97 % 15 ms 57.40 % 10 ms 42.43 % 5 ms 23.72 % INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Méthodologie Aix-MARSEC : Phonétisation, alignement et association dans les grands corpus oraux en anglais Méthodologie Aix-MARSEC : Autres niveaux d’analyse INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Autres niveaux d’analyse Phonétisation, alignement et association dans les grands corpus oraux en anglais Autres niveaux d’analyse Regroupements et alignements automatiques Syllabes (Principe d’Attaque Maximale; Pulgram, 1970) Constituants syllabiques (Attaque, Noyau et Coda) Pieds Accentuels (Abercrombie, 1967) Unités rythmiques (Jassem, 1952) Mots Unités intonatives (mineures & majeures) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Autres niveaux d’analyse Phonétisation, alignement et association dans les grands corpus oraux en anglais Autres niveaux d’analyse Autres traitements (cf. Présentation D. Hirst, 22 mai 2003) Application de l’algorithme MOMEL Codage des points cibles par l’algorithme INTSINT Éléments pour le traitement de la problématique alignement / association sur parole naturelle INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Perspectives & conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives & conclusion INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Perspectives et Conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives et Conclusion Amélioration de la phonétisation : Nouvelles règles (exemple: the) Affinement des contraintes Suppression fondée sur l’alignement automatique INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Perspectives et Conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives et Conclusion Amélioration de l’alignement : Utilisation de modèles phonétiques plus adaptés Application itérative d’un algorithme de programmation dynamique (DTW) (cf. Di Cristo & Hirst, 1997) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Perspectives et Conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives et Conclusion Aix-MARSEC : une méthodologie … Un système de phonétisation fiable (94,79 % de phonèmes prédits correctement) Un système portable (scripts multi-plateformes en langage Perl, dictionnaires modulaires) Un ensemble d’outils de génération de granularités variables (regroupements automatiques à divers niveaux) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Perspectives et Conclusion Phonétisation, alignement et association dans les grands corpus oraux en anglais Perspectives et Conclusion … et un corpus : - 5h30 de parole continue - 52 locuteurs - 11 styles de parole - 195.687 phonèmes, 88.794 syllabes, 54.083 mots - alignement aux niveaux du phonème, constituant syllabique, syllabe, mot, pied, unité rythmique, cibles MOMEL/INTSINT, unité intonative (mineure / majeure) INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003

Illustration

Merci de votre attention Phonétisation, alignement et association dans les grands corpus oraux en anglais Merci de votre attention  INTO 01 : Intonation, Notation et Transcription de l’Oral Rouen, le 24 mai 2003