Journée Des Doctorants 2004

Slides:

Advertisements

Présentations similaires

APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.

Advertisements

Modélisation stochastique du signal photonique pour la spectrométrie g

SP1 : Transfert de technologie

Identification automatique des langue

Codage de la parole à très bas débit avec des unités ALISP

Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.

INTRODUCTION Grande quantité de données

l’évolution du langage chez l’enfant

TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES

La reconnaissance vocale

Apprendre à lire.

Apprentissage continué de la lecture au Cycle 2

Indexation textuelle : Systèmes de recherche d’informations

Thème « Modélisation comportementale des Systèmes critiques »

Directeur de thèse : Régine André-Obrecht

Modélisation des systèmes non linéaires par des SIFs

Reconnaissance de la parole

EIE nécessaire Etude environnementale Pas d’EIE

Application des HMMs à la reconnaissance vocale

Reconnaissance de mots isolés Et Reconnaissance de mots connectés.

Décodage des informations

Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.

Planification stratégique et opérationnelle –

Reconnaissance de la parole Difficultés Modèles

INFORMATION ET DONNEE COURS 2. ACTIVITE HUMAINE Recherche scientifique MédecineInformatique OBSERVATION Mesures Rassemblement de données de patients Introduction.

Conscience phonologique

Reconnaissance Vocale

Présentation du mémoire

Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe

Universté de la Manouba

Modélisation de la topologie avec le Graphe Génératif Gaussien

Sylvain Daudé DEA ATIAM

‘The Voice Company’ Du texte à la Parole

Modèles de décisions financières

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

Chapitre 2 La description du langage

Qu'est ce que savoir lire ?

Classification automatique de textes

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -

La perception de la parole

Traitement de la parole : Synthèse et reconnaissance

Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.

Le processus de reconnaissance des mots La reconnaissance des mots lors de la parole continue Contexte et reconnaissance des mots.

Les Techniques d’enquête quantitative

ARGUMENTAIRE A destination des enseignants pour la présentation en début d’année de l’apprentissage de la lecture aux parents.

Qualité de Service (QoS) Officer

Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble

Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.

Application des HMMs à la reconnaissance vocale

Présentation RFIA janvier 2002

CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,

Reveal-This Ou comment générer des métadonnées utiles automatiquement.

La prosodie pour l’Identification Automatique des Langues

Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.

Introduction de Mme Safra IGEN Conférence du 22 mai 2006.

Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.

Le Traitement Automatique des Langues (TAL)

ISO 31000: Vers un management global des risques

Bianca Vieru-Dimulescu encadrant : Philippe Boula de Mareüil

Apprentissage automatique des prononciations à partir de grandes masses de données orales Rena NEMOTO Encadrée par Martine Adda-Decker & Ioana Vasilescu.

Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.

La perception de la parole

la reconnaissance de visages

Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.

Contribution du traitement automatique de la parole à l’étude de la variation diatopique en français Martine Adda-Decker Philippe Boula de Mareüil LIMSI-CNRS.

Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.

À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.

Pierre Dumouchel 20 juillet 2009

Transcription de la présentation:

Journée Des Doctorants 2004 Modélisation acoustique multilingue pour l’identification des langues et la transcription automatique de la parole Dong ZHU ( TLP ) Directeurs de Thèse: M. Jean-Luc Gauvain Mme. Martine Adda-Decker

PLAN Problématique et cadre Approches différentes: Travaux en cours : Transcription de la parole Identification automatique des langues (IAL) Approches différentes: Modélisation acoustico-phonétique Modélisation phonotactique Modélisation syllabotactique Travaux en cours : IAL avec Modèles acoustiques en contexte IAL avec Modèles acoustiques de 26 phones Dans la présentation, mettre l’accent sur IAL (transcription automatique sera une étape ultérieure).

Problématique de transcription Modélisation statistique du processus de génération : Le message w est généré par un modèle linguistique Pr(w) Le canal acoustique f(x|w) encode le message w dans le signal x Transcription en maximisant la probabilité a posteriori de w w* = argmax f(x|w)Pr(w) Problème de modélisation : Analyse et modélisation acoustique : f(x|w) Modélisation linguistique : Pr(w) Décodage : argmax w OK (j’ai rajouté w sous argmax)

la transcription automatique de la parole

Problématique d’identification Problème d’identification: Étant donné un signal acoustique x et un ensemble de langues Lj (J langues) connues, à quelle langue Li appartient x? Li = arg max j f(Lj,x) Problème de modélisation: quelle fonction f(Lj,x) ? Comment est encodée l’information spécifique à une langue? propriétés acoustiques phonèmes, leurs combinaisons: phonotactique prosodie (intonation, rythme) … Utilisation des méthodes et outils développées pour la reconnaissance automatique de la parole. Tu peux mettre argmax et j comme dans transparent précédent.

L’identification automatique des langues On garde une architecture similaire. On ne cherche pas à reconnaître les mots: on peut se limiter aux phonèmes (peu d’unités distinctes, moins coûteux à mettre en oeuvre) : décodeur acoustico-phonétique (DAP) Approche acoustico-phonétique: Modèle acoustique: inchangé; mais un jeu spécifique à chaque langue Li Dictionnaire: liste de phonèmes spécifique à chaque langue Li Modèle linguistique: probabilités sur les enchaînements de phonèmes: phonotactique spécifique à chaque langue Li

Approche acoustico-phonétique L1 DAP L2 DAP L3 x Arg max DAP Mettre autant de décodeurs ac.-phon. (DAP) en parallèle qu’il y a de langues à identifier Bons résultats, mais coûteux: Ressources pour l’apprentissage des modèles Temps du décodage acoustique ~ nombre de langues

Approche acoustico-phonétique Modèles acoustiques de phonèmes (HMM à 3 états) spécifiques à chaque langue: Pour leur estimation on nécessite des corpus audio avec une transcription au niveau du phonème! Inconvénients: 1) Coûteux 2) Langue ou dialecte inconnu?

Approche phonotactique 1 seul décodeur acoustico-phonétique: générique: valable pour ‘toutes’ les langues. modèles appris sur les corpus (des langues) disponibles. pas spécifiques pour l’identification des langues Pour estimer des modèles spécifiques à chaque langue Li: Corpus audio uniquement pour chaque Li. Etapes: Transcrire automatiquement l’audio en phonèmes (via DAP) Estimer des modèles phonotactiques spécifiques. Avantages: 1) peu coûteux 2) langue ou dialecte inconnu: pas de problème !

Approche phonotactique L1 Phono Lmulti L2 DAP Phono j1 j 2 j 3 ... x L3 Arg max Insister ici sur la qualité des séquences de « phonèmes » décodées. Ton travail en cours vise à améliorer ce décodage: augmenter le nombre d’unités modélisées. Deux options : Pour l’unité de phonème : phonèmes en contexte Ou bien utiliser une unité plus longue : syllabe. Phono Comment est encodée l’information spécifique à une langue? propriétés acoustiques NON phonèmes, leurs combinaisons: phonotactique OUI prosodie NON

Approche syllabotactique Amélioration de l’approche phonotactique: Modéliser des unités plus longues, plus structurées que le phonème: la syllabe Avantages de modélisation de syllabe Structure : on garde une architecture similaire Quelques milliers d’unités modélisables : approche intéressante si grands corpus disponibles. Intérêt également pour des études comparatives orientées plus « linguistique ». Lien avec prosodie.

Travaux en cours Syllabation multilingue pour IAL IAL avec Modèles acoustiques en contexte Avantage: modélisation plus précise ( multilingue ? ) Inconvénient: grosse quantité IAL avec Modèles acoustiques de 26 phones Syllabation multilingue pour IAL Je ne comprends pas bien tes arguments ici, il faudra en discuter pour clarifier. Ceci ne termine pas bien ton exposé (qui est très bien jusque là); Rajoute un transparent sur perspectives, qui permet de lier à la transcription automatique multilingue et les problèmes de généricité des modèles acoustiques.

Perspectives Améliorer la modélisation acoustique multilingue pour l’identification des langues et la transcription automatique de la parole