Journée Des Doctorants 2004

Slides:



Advertisements
Présentations similaires
APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Advertisements

Modélisation stochastique du signal photonique pour la spectrométrie g
SP1 : Transfert de technologie
Identification automatique des langue
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
INTRODUCTION Grande quantité de données
l’évolution du langage chez l’enfant
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
La reconnaissance vocale
Apprendre à lire.
Apprentissage continué de la lecture au Cycle 2
Indexation textuelle : Systèmes de recherche d’informations
Thème « Modélisation comportementale des Systèmes critiques »
Directeur de thèse : Régine André-Obrecht
Modélisation des systèmes non linéaires par des SIFs
Reconnaissance de la parole
EIE nécessaire Etude environnementale Pas d’EIE
Application des HMMs à la reconnaissance vocale
Reconnaissance de mots isolés Et Reconnaissance de mots connectés.
Décodage des informations
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Planification stratégique et opérationnelle –
Reconnaissance de la parole Difficultés Modèles
INFORMATION ET DONNEE COURS 2. ACTIVITE HUMAINE Recherche scientifique MédecineInformatique OBSERVATION Mesures Rassemblement de données de patients Introduction.
Conscience phonologique
Reconnaissance Vocale
Présentation du mémoire
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
LA LIAISON.
Universté de la Manouba
Modélisation de la topologie avec le Graphe Génératif Gaussien
Sylvain Daudé DEA ATIAM
‘The Voice Company’ Du texte à la Parole
Modèles de décisions financières
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Chapitre 2 La description du langage
Qu'est ce que savoir lire ?
Classification automatique de textes
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
La perception de la parole
Traitement de la parole : Synthèse et reconnaissance
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
Le processus de reconnaissance des mots La reconnaissance des mots lors de la parole continue Contexte et reconnaissance des mots.
Les Techniques d’enquête quantitative
ARGUMENTAIRE A destination des enseignants pour la présentation en début d’année de l’apprentissage de la lecture aux parents.
Qualité de Service (QoS) Officer
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Application des HMMs à la reconnaissance vocale
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
La prosodie pour l’Identification Automatique des Langues
Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.
Introduction de Mme Safra IGEN Conférence du 22 mai 2006.
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Le Traitement Automatique des Langues (TAL)
ISO 31000: Vers un management global des risques
Bianca Vieru-Dimulescu encadrant : Philippe Boula de Mareüil
Apprentissage automatique des prononciations à partir de grandes masses de données orales Rena NEMOTO Encadrée par Martine Adda-Decker & Ioana Vasilescu.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
La perception de la parole
la reconnaissance de visages
Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.
Contribution du traitement automatique de la parole à l’étude de la variation diatopique en français Martine Adda-Decker Philippe Boula de Mareüil LIMSI-CNRS.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Pierre Dumouchel 20 juillet 2009
Transcription de la présentation:

Journée Des Doctorants 2004 Modélisation acoustique multilingue pour l’identification des langues et la transcription automatique de la parole Dong ZHU ( TLP ) Directeurs de Thèse: M. Jean-Luc Gauvain Mme. Martine Adda-Decker

PLAN Problématique et cadre Approches différentes: Travaux en cours : Transcription de la parole Identification automatique des langues (IAL) Approches différentes: Modélisation acoustico-phonétique Modélisation phonotactique Modélisation syllabotactique Travaux en cours : IAL avec Modèles acoustiques en contexte IAL avec Modèles acoustiques de 26 phones Dans la présentation, mettre l’accent sur IAL (transcription automatique sera une étape ultérieure).

Problématique de transcription Modélisation statistique du processus de génération : Le message w est généré par un modèle linguistique Pr(w) Le canal acoustique f(x|w) encode le message w dans le signal x Transcription en maximisant la probabilité a posteriori de w w* = argmax f(x|w)Pr(w) Problème de modélisation : Analyse et modélisation acoustique : f(x|w) Modélisation linguistique : Pr(w) Décodage : argmax w OK (j’ai rajouté w sous argmax)

la transcription automatique de la parole

Problématique d’identification Problème d’identification: Étant donné un signal acoustique x et un ensemble de langues Lj (J langues) connues, à quelle langue Li appartient x? Li = arg max j f(Lj,x) Problème de modélisation: quelle fonction f(Lj,x) ? Comment est encodée l’information spécifique à une langue? propriétés acoustiques phonèmes, leurs combinaisons: phonotactique prosodie (intonation, rythme) … Utilisation des méthodes et outils développées pour la reconnaissance automatique de la parole. Tu peux mettre argmax et j comme dans transparent précédent.

L’identification automatique des langues On garde une architecture similaire. On ne cherche pas à reconnaître les mots: on peut se limiter aux phonèmes (peu d’unités distinctes, moins coûteux à mettre en oeuvre) : décodeur acoustico-phonétique (DAP) Approche acoustico-phonétique: Modèle acoustique: inchangé; mais un jeu spécifique à chaque langue Li Dictionnaire: liste de phonèmes spécifique à chaque langue Li Modèle linguistique: probabilités sur les enchaînements de phonèmes: phonotactique spécifique à chaque langue Li

Approche acoustico-phonétique L1 DAP L2 DAP L3 x Arg max DAP Mettre autant de décodeurs ac.-phon. (DAP) en parallèle qu’il y a de langues à identifier Bons résultats, mais coûteux: Ressources pour l’apprentissage des modèles Temps du décodage acoustique ~ nombre de langues

Approche acoustico-phonétique Modèles acoustiques de phonèmes (HMM à 3 états) spécifiques à chaque langue: Pour leur estimation on nécessite des corpus audio avec une transcription au niveau du phonème! Inconvénients: 1) Coûteux 2) Langue ou dialecte inconnu?

Approche phonotactique 1 seul décodeur acoustico-phonétique: générique: valable pour ‘toutes’ les langues. modèles appris sur les corpus (des langues) disponibles. pas spécifiques pour l’identification des langues Pour estimer des modèles spécifiques à chaque langue Li: Corpus audio uniquement pour chaque Li. Etapes: Transcrire automatiquement l’audio en phonèmes (via DAP) Estimer des modèles phonotactiques spécifiques. Avantages: 1) peu coûteux 2) langue ou dialecte inconnu: pas de problème !

Approche phonotactique L1 Phono Lmulti L2 DAP Phono j1 j 2 j 3 ... x L3 Arg max Insister ici sur la qualité des séquences de « phonèmes » décodées. Ton travail en cours vise à améliorer ce décodage: augmenter le nombre d’unités modélisées. Deux options : Pour l’unité de phonème : phonèmes en contexte Ou bien utiliser une unité plus longue : syllabe. Phono Comment est encodée l’information spécifique à une langue? propriétés acoustiques NON phonèmes, leurs combinaisons: phonotactique OUI prosodie NON

Approche syllabotactique Amélioration de l’approche phonotactique: Modéliser des unités plus longues, plus structurées que le phonème: la syllabe Avantages de modélisation de syllabe Structure : on garde une architecture similaire Quelques milliers d’unités modélisables : approche intéressante si grands corpus disponibles. Intérêt également pour des études comparatives orientées plus « linguistique ». Lien avec prosodie.

Travaux en cours Syllabation multilingue pour IAL IAL avec Modèles acoustiques en contexte Avantage: modélisation plus précise ( multilingue ? ) Inconvénient: grosse quantité IAL avec Modèles acoustiques de 26 phones Syllabation multilingue pour IAL Je ne comprends pas bien tes arguments ici, il faudra en discuter pour clarifier. Ceci ne termine pas bien ton exposé (qui est très bien jusque là); Rajoute un transparent sur perspectives, qui permet de lier à la transcription automatique multilingue et les problèmes de généricité des modèles acoustiques.

Perspectives Améliorer la modélisation acoustique multilingue pour l’identification des langues et la transcription automatique de la parole