La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.

Présentations similaires


Présentation au sujet: "Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine."— Transcription de la présentation:

1 Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues
Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine André-Obrecht1 1Institut de Recherche en Informatique de Toulouse UMR 5505 CNRS Université Paul Sabatier INP Toulouse - France 2Laboratoire Dynamique du Langage UMR 5596 CNRS Université Lumière Lyon 2 Lyon - France Cette recherche est encouragée par la Région Rhône-Alpes et le Ministère de la Recherche

2 Plan 1. Introduction 2. Rythme et caractérisation des langues
3. Rythme et identification automatique des langues 4. Extraction des unités rythmiques 5. Modélisation des unités rythmiques et identification 6. Modélisation des systèmes vocaliques 7. Fusion des deux modèles 8. Conclusion et perspectives Après une rapide introduction, je vais vous présenter les algorithmes automatiques que nous avons utilisés pour la segmentation rythmique. Ensuite, je vais vous présenter le modèle proposé. Je finirai avec la présentation des expériences menées en identification automatique des langues et une discussion sur les résultats et les travaux futurs.

3 1. Introduction Modélisation phonotactique
Approches classiques pour l’identification des langues : Modélisation phonotactique Modélisation acoustico-phonétique comme prétraitement Bons résultats mais peu d’améliorations depuis 1996 Problèmes : Durée des fichiers de test (en général 45 secondes) Etiquetage manuel pour l’apprentissage Les paramètres alternatifs sont cruciaux pour améliorer le système Paramètres phonologiques (structure du système vocalique, etc.) Paramètres prosodiques (intonation, rythme, accentuation, etc.) Importance de la prosodie et du rythme Un des paramètres les plus employés par les humains pour l’identification des langues Difficile à définir et à modéliser Que faire ? Extraire les paramètres rythmiques de manière automatique. Modéliser ces paramètres et évaluer leur pertinence pour l’identification automatique des langues. A présent, l’approche standard pour l’IAL consiste en un système de modélisation phonétique comme prétraitement, et les séquences résultantes d’unités phonétiques sont décodées d’après des grammaires statistiques spécifiques à chaque langue. Même si cette approche permet d’obtenir les meilleurs résultats, seules des améliorations mineures ont pu être apportrées depuis 1996, et il semble crucial de ne pas sous estimer la pertinence de paramètres alternatifs présents dans le signal. Parmi les différents niveaux de description des langues, la prosodie est connue pour contenir une part substantielle de l’identité d’une langue : la prosodie est un des paramètres les plus appropriés pour l’identification des langues par les humains. Cependant, elle est diffficile à définir, et encore plus à modéliser. Alors, nos objectifs sont : Extraire automatiquement des paramètres rythmiques dans une tâche non supervisée et indépendante des langues. Et modéliser ces paramètres et évaluer leur pertinence pour la tâche d’identification des langues.

4 2. Rythme & caractérisation des langues
Qu’est-ce que le rythme ? Motif qui se répète périodiquement D’après les définitions, ce motif peut être la syllabe (français, italien, espagnol), les intervalles interstress (anglais, allemand, etc.) ou la mora (japonais). Théorie alternative : ces catégories sont remplacées par un continuum (Dauer, 1983) où le rythme est une conséquence directe de la structure syllabique et de la présence (ou l’absence) de la réduction vocalique. Le rythme est-il important ? Rôle dans la perception et la compréhension de la parole (nombreux travaux) Discrimination des langues par les bébés : Essentiel pour l’acquisition des langues dans un contexte multilingue. Le rythme est un des paramètres sur lesquels les bébés se basent (e.g. Ramus & Mehler, 1999) Discrimination des langues par les adultes : Nombreuses expériences avec de nombreux protocoles (pour une revue voir Muthusamy et al, 1994) Rôle du rythme et de l’intonation (e. g. Ohala & Gilbert, 1979 ; Barkat et al. 1999) Pour extraire le rythme d’une façon automatique, il faut tout d’abord regarder la définition du rythme. La définition standard pour le rythme est basée sur la périodicité d’un motif qui peut être une syllabe (comme en français, Italien et espagnol) ou l’accent (comme en anglais, allemand). Il existe une théorie alternative dans laquelle ces deux catégories sont remplacées par un continuum où le rythme est principalement une conséquence de la structure syllabique et de la présence (ou l’absence) de la réduction vocalique. Alors, même si l ’existence de syllabes non vocaliques est prouvée, la plupart des motifs rythmiques alternent consonnes et voyelles. Ainsi, un algorithme d’extraction automatique du rythme élimine une segmentation de la parole basée sur les consonnes et les voyelles. Pour aboutir à ce point, nous employons un algorithme précédemment utilisé pour modéliser le système vocalique dans une tâche d’IAL. Voici les principales propriétés de l’algorithme.

5 3. Rythme et identification automatique des langues
Modélisation statistique basée sur les "syllabes“ (Thymé–Gobbel & Hutchins, 1999) Segmentation basée sur des motifs pour l’énergie Paramètres dérivés de la fréquence fondamentale, la durée et l’énergie Corpus & résultats OGI MLTS (11 langues, 45 s.) 75 % d’identification correcte pour des paires de langues L1-L2 Commentaires Nombreux paramètres Modélisation du rythme par réseaux de neurones (Dominey & Ramus, 2000) Réseau récurrent dédié au traitement temporel des séquences Entrée = étiquettes manuelles C/V Corpus & Résultats Corpus spécifique (utilisé pour des expériences en perception par Franck Ramus) 78 % d’identification correcte pour des paires de langues L1-L2 cohérentes (EN – JA) Chance pour des paires de langues L1-L2 incohérentes (EN – DU) Résultats valident la modélisation du rythme avec les étiquettes manuelles Travaux en progression avec étiquetage automatique C/V (thèse Jean-Marc Blanc, ISC) Le challenge : Extraire des paramètres rythmiques de manière non supervisée et indépendante des langues Modéliser ces paramètres et évaluer leur pertinence

6 3. Rythme et identification automatique des langues
Qu’extraire ? Paramètres suprasegmentaux continus Fréquence fondamentale Energie Durée (quelles unités?) Avec quel échantillonnage ? Comment extraire le rythme ? Segmentation de la parole Détection des voyelles et des consonnes Choix d’une unité rythmique Modéliser à la fois les unités rythmiques et les enchaînements de ces unités

7 4. Extraction des unités rythmiques
8 (kHz) 4 Fréquence E l a m E E t e b n Amplitude 0.2 0.2 0.4 0.4 Temps (s) 0.6 0.6 0.8 0.8 1.0 1.0 Segments de silence Segments vocaliques Segments non vocaliques Segmentation de la parole : méthode statistique (André-Obrecht,1988) Segments courts (explosions et parties transitoires des sons) Segments longs (parties stables des sons) Détection d’activité Vocale et Détection des Voyelles Analyse spectrale du signal Détection des voyelles (Pellegrino & Obrecht, 2000) Algorithme indépendant du locuteur et de la langue Une détection d’activité vocale est appliquée pour détecter les silences (non liés au rythme) et un algorithme de détection des voyelles localise les sons qui correspondent à une structure vocalique, à partir d’une analyse spectrale du signal. Cet algorithme est appliqué indépendamment de la langue et du locuteur, sans aucune phase d’adaptation manuelle. Ce traitement fournit une segmentation du signal en segments de silence, segments non vocaliques et segments vocaliques. (voir la figure 1). A cause des propriétés intrinsèques de l’algorithme (et spécialement le fait que les parties transitoires et stationnaires d’un même phonème peuvent être séparées), il est quelque part incorrect de considérer cette segmentation comme une exacte segmentation en consonnes / voyelles. Cependant, cette segmentation est indubitablement corrélée à la structure rythmique de la parole, et dans cette présentation nous investiguons l’affirmation que cette corrélation permet à un modèle statistique de discriminer les langues d’après leur structure rythmique.

8 4. Extraction des unités rythmiques
Modéliser le rythme implique de choisir des unités convenables La syllabe est un excellent candidat : La syllabe semble cruciale dans la perception et la compréhension de la parole (Mehler et al. 1981, Content et al., 2001) Mais La segmentation en syllabes semble être un mécanisme dépendant de chaque langue Aucun algorithme automatique et indépendant de la langue n’a pu être appliqué (pour l’instant) Définition d’un modèle arbitraire : la “pseudo-syllabe” Dérivée de la plus fréquente structure syllabique au monde : structure CV Utilise les segments vocaliques comme repères Le signal de parole est segmenté suivant la structure : Cn V (n entier, peut être nul). Modéliser le rythme implique de sélectionner des unités convenables. Nous avons vu (section 2) qu’elles varient suivant les langues et que leur nature intrinsèque (suprasegmentale) n’est pas triviale à modéliser. L’existence de syllabes, même si cette unité n’est pas la plus adaptée pour les langues accentuelles, est confirmée dans toutes les langues du monde. Cependant, la segmentation de la parole en syllabes est une tâche typiquement spécifique à chaque langue et aucun algorithme independant de la langue ne peut être appliqué, spécialement lorsque les noyaux des syllabes ont lieu entre deux consonnes (e.g. dans une syllabe CVC.CV comme dans le mot « parmi »). Pour ces raisons, nous introduisons le concept de pseudo-syllabe dérivé de la plus fréquente structure syllabique au monde, la structure CV. Dans notre algirithme, le signal de parole est segmenté en motifs correspondant à la structure Consonne / Voyelle : avec une voyelle et zero et plusieurs consonnes.

9 4. Extraction des unités rythmiques
el a E m t e b n 0.2 0.4 0.6 0.8 1.0 Amplitude Time (s) Segments vocaliques Segments non vocaliques Segments de silence Résultat de la segmentation : CCVV.CCV.CV.CCCV.CV.CCC Pseudo-syllabes identifiées : CCV.CCV.CV.CCCV.CV 5 pseudo-syllabes Etape suivante : comment utiliser cette segmentation ? Définir des paramètres caractérisant les pseudo-syllabes (Définir un modèle pour le système rythmique) Par exemple, la segmentation de cette phrase donne la séquence suivante de 5 pseudo-syllabes : CCVV.CCV.CV.CCCV.CV Alors, les segments vocaliques consécutifs sont fusionnés, la séquence devient : CCV.CCV.CV.CCCV.CV Nous sommes conscients des limites d’une segmentation rythmique aussi basique, mais elle permet de tenter de modéliser le rythme d’une façon pouvant être améliorée. Toutefois, elle a l’avantage principal de ne nécessiter aucun étiquetage manuel ni de connaissances sur les structures rythmiques des langues. Maintenant, pour utiliser cette segmentation, nous devons définir des paramètres pour caractériser les pseudo-syllabes, ainsi qu’un modèle pour le système rythmique.

10 5. Modélisation des unités rythmiques
Pseudo-syllable = séquence de segments caractérisés par leur durée et leur catégorie (consonne ou voyelle) Exemple pour une pseudo-syllabe .CCV. : 3 paramètres sont calculés : Durée globale des segments consonantiques Durée globale du segment vocalique Complexité de la syllabe (Nc: nombre de segments consonantiques dans la pseudo-syllabe) Avec le même exemple .CCV. : Une pseudo-syllabe est décrite par une séquence de segments caractérisés par leur durée et leur appartenance à une catégorie binaire (consonne ou voyelle). De cette façon, une pseudo-syllabe est décrite par une matrice de taille variable. Par exemple, une syllabe CCV donnera C1 et sa durée, C2 et sa durée et V et sa durée. Cette description de taille variable est la plus précise, mais elle n’est pas appropriée pour une modélisation par mélange de gaussiennes (MMG). Pour cette raison, une autre description résultant en une description de taille constante pour chaque pseudo-syllabe a été dérivée. Pour chaque pseudo-syllabe, trois paramètres sont calculés, correspondant respectivement à la durée des segments consonantiques, la durée des voyelles et lma complexité en termes de nombres de consonnes. Avec le même exemple CCV, la description devient : la durée des consonnes, la durée de la voyelle et la complexité Nc qui est le nombre de consonnes dans la pseudo-syllabe (ici Nc =2). Même si cette description est clairement non optimale puisque les information individuelles des segments consonantiques est perdue, elle prend en compte la complexité de la syllabe. { ( ) } P = d + d d N . . CCV . . c 1 c 2 V C

11 5. Expériences Corpus : MULTEXT
5 langues européennes (EN, FR, GE, IT, SP). 50 locuteurs différents (répartition équitable hommes / femmes). Phrases lues extraites du corpus EUROM1. Durée totale par langue = 45 minutes. Limitation : les mêmes textes sont lus en moyenne par 3.75 locuteurs (dépendance partielle au texte des modèles possible) . Tâche d’identification Phrases de test de 20 s., Apprentissage : 30~35 min/langue Nombre de locuteurs très limité (10 par langue). Une méthode de validation croisée est appliquée (9 locuteurs pour l’apprentissage et 1 pour le test). Cette procédure est itérée pour chaque locuteur du corpus. Modélisation par Modèles de Mélange de lois Gaussiennes (MMG). Tests complémentaires en fonction de la longueur des énoncés. Les expériences en identification des langues sont faites sur le corpus MULTEXT. Cette base de données contient des enregistrements de 5 langues européennes (français, anglais, italien, allemand, espagnol), prononcées par 50 locuteurs différents (5 hommes et 5 femmes par langue). Les données sont des textes lus d’environ 5 phrases extraites du corpus EUROM1. Elles sont fournies avec le contour de la fréquence fondamentale ainsi que des informations prosodiques additionnelles (non considérées ici). Une limitation est que les mêmes textes sont lus par environ 3.75 locuteurs par langue, ce qui résulte en une possible dépendance partielle au texte. La durée moyenne par langue est de 45 minutes. Les phrases de test sont des fichiers de 20 secondes. Puisque le volume de données est très limité (spécialement en termes de locuteurs), une méthode de validation croisée est appliquée (i.e. 9 des 10 locuteurs sont employés pour l’apprentissage pendant que le dernier est employé pour le test). Cette procédure est répétée pour chaque locuteur du corpus.

12 5. Expériences Résultats de la modélisation du rythme
Taux d’identification correcte : 78 % Matrice de confusion : Tests en fonction de la durée des énoncés : Modèle Test Les résultats des expériences montrent que les pseudo-syllabes sont efficaces pour la segmentation rythmique et que la modélisation du rythme est pertinente pour l’identification automatique des langues. Mais le nombre de composantes gaussiennes montrent que l’initialisation des MMG est d’une importance cruciale et n’est pas robuste pour l’instant. Voici la matrice de confusion résultant d’une expérience avec 18 composantes gaussiennes pour des phrases de test de 20 secondes. Le plus mauvais taux d’identification est pour l’anglais avec 44 % et bien qu’il soit loin des résultats obtenus pour les autres langues (92 % pour le français et 96 % pour l’allemand) il est significativement au dessus de la chance (20 %). Des expériences complémentaires visant à démontrer le fonctionnement de l’algorithme en fonction de la durée des énoncés de test ont été menées. (voir le graph) Il n’existe aucun état de l’art en identification automatique des langues sur la base de données MULTEXT, mais une approche classique doit donner un très faible taux d’erreur. Nous avons donc procédé pour comparaison à une modélisation des systèmes vocaliques [Pel00] qui donnait 97 % d’identification correcte sur le corpus téléphonique OGI limité à 5 langues. La combinaison avec la modélisation du rythme devrait améliorer la robustesse des approches classiques de ce type en IAL.

13 6. Modélisation des systèmes vocaliques
Modélisation des systèmes vocaliques (Pellegrino & Obrecht, 2000) Caractérisation des systèmes vocaliques Extraction des coefficients cepstraux (échelle Mel) et leur dérivée Modélisation par Modèles de Mélange de lois Gaussiennes Résultats sur le corpus OGI (5 langues) : >70 % Expériences : Mêmes corpus & conditions expérimentales que précédemment. Ici nous avons repris les expériences décrites dans [Pel00] sur la modélisation des systèmes vocaliques. Pour avoir un élément de comparaison, cette modélisation permet d’obtenir un taux d’identification correcte supérieur à 70 % sur 5 langues de la base OGI_MLTS (FR, KO, JA, SP, VI). Nous avons employé le même protocole que pour les expériences sur la modélisation du rythme, y compris la technique de validation croisée et la modélisation par mélange de lois gaussiennes.

14 6. Modélisation des systèmes vocaliques
Résultats de la modélisation des systèmes vocaliques Taux d’identification correcte : 70 % Matrice de confusion : Tests en fonction de la durée des énoncés : Modèle Test Les experiences sur les systèmes vocalique donnent un taux de reconnaissance d’environ 70 % sur les cinq langues du corpus MULTEXT. Les expériences concernant la durée des énoncés de test ont également été menées.

15 7. Fusion des deux approches
Résultats de la fusion des deux systèmes Taux d’identification correcte : 83 % Matrice de confusion : Tests sur la durée des énoncés : Modèle Test Voici les résultats sous forme de matrice de confusion fournis par la fusion des deux approches. Comme nous nous y attendions, le taux d’identification correcte a augmenter pour atteindre 83 %. La langue la mieux reconnue est l’allemand (le corpus contient le plus de données pour l’allmemand), alors que la langue la mmoins bien reconnue est l’anglais. A noter, une confusion inattendue entre l’anglais et l’italien ???????

16 8. Conclusion et perspectives
Première approche dédiée à l’identification par le rythme pour une tâche plus complexe que les identifications par paires de langues Modèle rythmique basé sur une segmentation en “pseudo-syllabes” Taux d’identification correcte de 81 % pour 5 langues (énoncés de 20 s.) et 70 % pour les énoncés de 11 s. Plus qu’une identification de classes séparées (langues syllabiques / langues accentuelles) puisque des langues appartenant à la même famille peuvent être discriminées

17 8. Conclusion et perspectives
Améliorer la segmentation rythmique : Ajouter la fréquence fondamentale F0 pour modéliser l’accentuation Tester des structures pseudo-syllabiques plus complexes Modéliser les séquences d’unités rythmiques : Etudier l’impact de la nature du corpus (parole lue/spontanée et enregistrements studio/téléphoniques) Fusionner cette approche avec des modélisations phonétiques et phonotactiques

18 FIN…


Télécharger ppt "Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine."

Présentations similaires


Annonces Google