Journée Des Doctorants 2004 Modélisation acoustique multilingue pour l’identification des langues et la transcription automatique de la parole Dong ZHU ( TLP ) Directeurs de Thèse: M. Jean-Luc Gauvain Mme. Martine Adda-Decker
PLAN Problématique et cadre Approches différentes: Travaux en cours : Transcription de la parole Identification automatique des langues (IAL) Approches différentes: Modélisation acoustico-phonétique Modélisation phonotactique Modélisation syllabotactique Travaux en cours : IAL avec Modèles acoustiques en contexte IAL avec Modèles acoustiques de 26 phones Dans la présentation, mettre l’accent sur IAL (transcription automatique sera une étape ultérieure).
Problématique de transcription Modélisation statistique du processus de génération : Le message w est généré par un modèle linguistique Pr(w) Le canal acoustique f(x|w) encode le message w dans le signal x Transcription en maximisant la probabilité a posteriori de w w* = argmax f(x|w)Pr(w) Problème de modélisation : Analyse et modélisation acoustique : f(x|w) Modélisation linguistique : Pr(w) Décodage : argmax w OK (j’ai rajouté w sous argmax)
la transcription automatique de la parole
Problématique d’identification Problème d’identification: Étant donné un signal acoustique x et un ensemble de langues Lj (J langues) connues, à quelle langue Li appartient x? Li = arg max j f(Lj,x) Problème de modélisation: quelle fonction f(Lj,x) ? Comment est encodée l’information spécifique à une langue? propriétés acoustiques phonèmes, leurs combinaisons: phonotactique prosodie (intonation, rythme) … Utilisation des méthodes et outils développées pour la reconnaissance automatique de la parole. Tu peux mettre argmax et j comme dans transparent précédent.
L’identification automatique des langues On garde une architecture similaire. On ne cherche pas à reconnaître les mots: on peut se limiter aux phonèmes (peu d’unités distinctes, moins coûteux à mettre en oeuvre) : décodeur acoustico-phonétique (DAP) Approche acoustico-phonétique: Modèle acoustique: inchangé; mais un jeu spécifique à chaque langue Li Dictionnaire: liste de phonèmes spécifique à chaque langue Li Modèle linguistique: probabilités sur les enchaînements de phonèmes: phonotactique spécifique à chaque langue Li
Approche acoustico-phonétique L1 DAP L2 DAP L3 x Arg max DAP Mettre autant de décodeurs ac.-phon. (DAP) en parallèle qu’il y a de langues à identifier Bons résultats, mais coûteux: Ressources pour l’apprentissage des modèles Temps du décodage acoustique ~ nombre de langues
Approche acoustico-phonétique Modèles acoustiques de phonèmes (HMM à 3 états) spécifiques à chaque langue: Pour leur estimation on nécessite des corpus audio avec une transcription au niveau du phonème! Inconvénients: 1) Coûteux 2) Langue ou dialecte inconnu?
Approche phonotactique 1 seul décodeur acoustico-phonétique: générique: valable pour ‘toutes’ les langues. modèles appris sur les corpus (des langues) disponibles. pas spécifiques pour l’identification des langues Pour estimer des modèles spécifiques à chaque langue Li: Corpus audio uniquement pour chaque Li. Etapes: Transcrire automatiquement l’audio en phonèmes (via DAP) Estimer des modèles phonotactiques spécifiques. Avantages: 1) peu coûteux 2) langue ou dialecte inconnu: pas de problème !
Approche phonotactique L1 Phono Lmulti L2 DAP Phono j1 j 2 j 3 ... x L3 Arg max Insister ici sur la qualité des séquences de « phonèmes » décodées. Ton travail en cours vise à améliorer ce décodage: augmenter le nombre d’unités modélisées. Deux options : Pour l’unité de phonème : phonèmes en contexte Ou bien utiliser une unité plus longue : syllabe. Phono Comment est encodée l’information spécifique à une langue? propriétés acoustiques NON phonèmes, leurs combinaisons: phonotactique OUI prosodie NON
Approche syllabotactique Amélioration de l’approche phonotactique: Modéliser des unités plus longues, plus structurées que le phonème: la syllabe Avantages de modélisation de syllabe Structure : on garde une architecture similaire Quelques milliers d’unités modélisables : approche intéressante si grands corpus disponibles. Intérêt également pour des études comparatives orientées plus « linguistique ». Lien avec prosodie.
Travaux en cours Syllabation multilingue pour IAL IAL avec Modèles acoustiques en contexte Avantage: modélisation plus précise ( multilingue ? ) Inconvénient: grosse quantité IAL avec Modèles acoustiques de 26 phones Syllabation multilingue pour IAL Je ne comprends pas bien tes arguments ici, il faudra en discuter pour clarifier. Ceci ne termine pas bien ton exposé (qui est très bien jusque là); Rajoute un transparent sur perspectives, qui permet de lier à la transcription automatique multilingue et les problèmes de généricité des modèles acoustiques.
Perspectives Améliorer la modélisation acoustique multilingue pour l’identification des langues et la transcription automatique de la parole