La prosodie pour l’Identification Automatique des Langues DEA IIL - IRIT - équipe IHM-PT Directeur de recherche: Régine ANDRE-OBRECHT Responsable de stage : François PELLEGRINO Jérôme FARINAS
Plan de l’exposé Cadre de l’étude La prosodie Evaluation des algorithmes d’extraction de la fréquence fondamentale Une modélisation de la prosodie pour l’IAL Conclusions et perspectives
1 Cadre de l’étude Identification Automatique des Langues (IAL) Projet de recherche de l’équipe : projet Discrimination Automatique Multilingue système complet d’IAL : un module de décodage acoustico-phonétique un modèle de langage un module prosodique Sujet de DEA : recherche des algorithmes d’extraction de la fréquence fondamentale, étude multilingue de la structure prosodique suprasegmentale (recherche d’unités prosodiques et modélisation)
2 La prosodie définitions quelques fonctions difficultés liés à l’extraction de paramètres et à la modélisation
2 La prosodie : définitions Au niveau acoustique : Hauteur (fréquence fondamentale F0) intensité (énergie) durée Au niveau perceptuel : rythme mélodie accentuation
2 La prosodie : quelques fonctions Distinction entre homonymes a segment to segment plátano platano Structuration de l’énoncé L’instituteur dit le directeur est un incapable Modalité Il va venir ? Il va venir. Il va venir ! Fonctions non linguistiques calme ou énervé, triste ou gai, enthousiaste, surpris...
2 La prosodie : difficultés Au niveau de la modélisation : nombreux modèles, pas de théorie unifiée apprentissage implicite : enseignement implicite pour la langue naturelle prise en compte récente lors de l’apprentissage de langues étrangères [Bagshaw 94] Au niveau de l’extraction de paramètres : détection voisement confusion entre harmoniques signal téléphonique (F0 manquant, variabilité)
Autocorrélation
Peigne spectral
Évaluation algorithmes... Comment évaluer un algorithme ? Difficultés dues aux erreurs de détections Autre source d’information pour évaluer Bases de référence [Bagshaw 94] Intérêt de la combinaison d’algorithmes d’extraction de la fréquence fondamentale [Hess 83]
Méthode combinatoire
4 Une modélisation de la prosodie pour l’IAL Corpus utilisé Système général Extraction de paramètres Modélisation des unités prosodiques Modèle de langage résultats
4 Une modélisation… : corpus utilisé OGI-MLTS (Oregon Graduate Institute - Multi Lingual Téléphone Speech Corpus) corpus développé pour l’IAL 11 langues (Français et Japonais utilisés) Fichiers de parole non-contrainte : htl, htc, meal, room, story-at, story-bt Divisé en corpus APP et TST
4 Une modélisation… : système général Modélisations existantes : approche classique adaptée à la prosodie [Muthusamy 93] [Hazen 97] approche basée sur F0 [Itahashi 95] Vue générale du module prosodique : Signal Segmentation Paramétrisation Modèle prosodique Modèle de langage Langue
4 Une modélisation... : extraction de paramètres Dénivelé de E et de F0 Dérivée première de E et de F0 Dérivée seconde de E et de F0 Ecart-type de E et de F0 Skewness de E et de F0 Kurtosis de E et de F0
4 Une modélisation… : modèle prosodique Unité : segment voisé 10 formes prosodiques : ST, BU, TR, UPlo, UPmi, UPhi, UPen, DWlo, DWmi, DWhi une forme = un Modèle de Markov Caché 1 état 3 états
4 Une modélisation… : modèle de langage But : modéliser les enchaînements entre les formes contenues dans les «phrases» Modèle langage bigramme (en utilisant le système multigramme [Deligne 96]) øi : Forme prosodique
4 Une modélisation… : résultats Modélisation des unités prosodiques : Identification des langues :
5 Conclusion et perspectives Recherche d’unités prosodiques spécifiques à chaque langue Essayer d’autres modélisations des unités prosodiques Modélisation de la durée pour prendre en compte le rythme de la parole