Some activities on Non-linear Speech Processing at ENST/CNRS-LTCI

Slides:



Advertisements
Présentations similaires
PowerPoint. A guide to the use of ICT in the MFL classroom by Dean Horne Prudhoe Community High School.
Advertisements

Laboratoire de lIntégration du Matériau au Système CNRS UMR ICECS 2010 A 65nm CMOS Fully Integrated 31.5dBm Triple SFDS Power Amplifier dedicated.
Département fédéral de lintérieur DFI Office fédéral de la statistique OFS Implementing the economic classification revision (NACE / ISIC) in the Business.
Practical Session – Defining Learning Outcomes
The French Platform : a public-private partnership
Le sondage LibQUAL à HEC Montréal Une première expérience réussie qui sintègre au processus de planification stratégique de la bibliothèque Le sondage.
(Nom du fichier) - D1 - 01/03/2000 FTR&D/VERIMAG TAXYS : a tool for the Development and Verification of RT Systems a joint project between France Telecom.
Copyright © 2010 Systematic Présentation des enjeux Europe et International 1 Jean-Luc Beylat, Vice-Président International Systematic.
1 La bibliométrie pour l'évaluation stratégique des institutions de recherche : usages et limites Indicators for strategic positioning of the research.
Gérard CHOLLET Fusion Gérard CHOLLET GET-ENST/CNRS-LTCI 46 rue Barrault PARIS cedex 13
SP1 : Transfert de technologie
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
IST Proposal MobiNews Meeting - June 10th, 2003 “Automatic and Personalised Compilation of Broadcast News with Audio Playback on Mobile Devices” François.
Eureka avril MAJORCALL – « Client Relation Management for Call Centers » Eurekâ Project !2990 Corebridge- -ENST-
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L. Likforman, K. Hallouli, N. Azzabou, S.S. Lin, S. Renouard, M. Sigelle, F. Yvon Journée.
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L. Likforman, K. Hallouli, N. Azzabou, S.S. Lin, D. Mostefa, S. Renouard, M. Sigelle,
An Introduction to Biometric Verification of Identity
Reconnaissance du locuteur
An overview of Automatic Speaker Recognition
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
June 15th, 2004 BioSecure1 BioSecure : Future of Biometrics and Evaluations Gérard CHOLLET CNRS-LTCI, GET-ENST European Biometric Forum European Biometric.
Une introduction à la vérification biométrique de l'identité
Interactions langagières et parolières dans une société de l’information Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS.
Une introduction à lauthentification biométrique Gérard CHOLLET Raphaël BLOUET
Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Patrick Perrot, Leila Zouari NOLISP, Paris, March 23rd 2007.
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Environmental Data Warehouse Cemagref, UR TSCF, TR MOTIVE 2011 – projet Miriphyque.
Revenir aux basiques !. 1 Revenir aux basiques Processus Nécessité daméliorer la Maîtrise les Offres et Projets: lanalyse des causes racines montre un.
Inforoute Santé du Canada Les défis de linteropérabilité en e-santé Mike Sheridan, Chef de lexploitation 19 mai 2006.
LIFE Fest – Paris – 13/06/ SCORM 2004 et LOMfr dans SCENARI Erik Gebers Université de Technologie de Compiègne Laboratoire HeuDiaSyC – UMR CNRS 6599.
Status report SOLEIL April 2008
Contexte scientifique
CHALOUPE Global change, dynamics of exploited marine biodiversity and viability of fisheries Funded by the French national Agency of research – Call 2005.
Coopération/Distribution DEA Informatique Nancy. Content 4 Introduction - Overview 4 Coordination of virtual teams : –explicit interaction model –explicit.
TP2 ... MVC ? JList JLabel JSlider ImageLibrary Contrôleur Vue Modèle
UNIVERSITÉ - INDUSTRIE: une approche comparative Patrick LLERENA BETA- UMR CNRS-ULP Strasbourg.
La Charte de lempowerment The empowerment Charta Eugenia Lodini Università di Bologna.
Université Des Sciences Et De La Technologie DOran Mohamed Boudiaf USTO République Algérienne Démocratique et Populaire Département de linformatique Projet.
Estimates of HIV Prevalence and Incidence in Canada, 2011 Estimations de la prévalence et de lincidence du VIH au Canada, 2011 Presented by / Présenté
Course Design Task Activité de conception de cours de formation.
2014 CIPAC/FAO/WHO Meeting Liège, Belgium 17 – 26 June 2014
Computer Heritage: Problems and Perspectives at the Musée des arts et métiers Cyrille Foasso Modern Scientific Instrument Collection
EUROPEAN ASSOCIATION OF DEVELOPMENT RESEARCH AND TRAINING INSTITUTES ASSOCIATION EUROPÉENNE DES INSTITUTS DE RECHERCHE ET DE FORMATION EN MATIÈRE DE DÉVELOPPEMENT.
Magnets fiche projet / project sheet IAFACTORY THE MAGNETIC FACTORY magnets. IAFACTORY | conseil en architecture de linformation | |
Pan-Commonwealth Forum on Open Learning Londres juillet 2008 Compte-rendu - Peter MORTIMER.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
1.
ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.
Ce document est la propriété d EADS CCR ; il ne peut être communiqué à des tiers et/ou reproduit sans lautorisation préalable écrite d EADS CCR et son.
Systèmes distribués Le futur des systèmes dinformation est: Networked Diverse Numerous Mobile Ubiquitous Systèmes multiagents Middlewares: CORBA JINI HLA.
Marketing électronique Cours 5 La personnalisation.
"Man Machine Interaction" MEMODULES as tangible shortcuts to multimedia information Omar ABOU KHALED, Rolf INGOLD, Denis LALANNE.
Title of topic © 2011 wheresjenny.com Each and Every when to use ?
VTHD PROJECT (Very High Broadband Network Service): French NGI initiative C. GUILLEMOT FT / BD / FTR&D / RTA
KM-Master Course, 2004 Module: Communautés virtuelles, Agents intelligents C3: Collaborative Knowledge construction & knowledge sharing Thierry NABETH.
Better dialogue on statistics for better development results Un meilleur dialogue sur les statistiques pour de meilleurs résultats de développement Bamako,
Département InfRes Telecom-ParisTech / IMT (ENST)
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
IB Language B French and German
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Cultural Comparison 1 minute for directions (in English and French, spoken consecutively): You will make an oral presentation to your class on a specific.
Reconnaissance de visage par vidéo
1 Linear Prediction. 2 Linear Prediction (Introduction) : The object of linear prediction is to estimate the output sequence from a linear combination.
MATCHSLIDE : INT contribution Patrick HORAIN Hichem ATTI Waheb LARBI Presented as : "TELESLIDE: Technical aspects ", Jacques Klossa & Patrick Horain, Joint.
Transcription de la présentation:

Some activities on Non-linear Speech Processing at ENST/CNRS-LTCI Gérard CHOLLET chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13 http://www.tsi.enst.fr/~chollet

Outline What is ENST/CNRS-LTCI ? Research and application topics related to COST-277: Speech production and perception, Speech analysis and synthesis, Speech coding: The SYMPATEX project Automatic speech recognition: The SIROCCO project Speaker characterisation and verification Perspectives within COST-277

Our affiliations ENST: Ecole Nationale Supérieure des Télécommunications http://www.enst.fr CNRS: Centre National de la Recherche Scientifique http://www.cnrs.fr LTCI: Laboratoire de Traitement et Communication de l’Information http://www.enst.fr/externe/ura.html

What is ENST? Ecole Nationale de Télécommunications classed among the ‘Grandes Ecoles d'Ingénieurs’. 250 state certified engineers each year . part of ‘Groupement des Ecoles de Télécommunications’

GET: Groupement des Ecoles de Télécommunications ENST-Paris ( ) ENST-Bretagne in Brest Institut National des Télécommunications in Evry EURECOM in Sophia-Antipolis ENIC (Ecole Nouvelle d’Ingénieurs en Télécoms) in Lille Internet school in Marseille

Speech Production and Perception Parametric Vocal Tract model (Shinji Maeda) Non-linear Production model using Distinctive Regions and Modes (René Carré) Quantal nature of speech (R. Carré and S. Maeda) Perceptual filter (Nicolas Moreau) Auditory prosthesis (Alain Goyé and Jacques Prado)

Speech analysis and synthesis Time-Frequency representations, Wavelets Time-dependent spectral models (Yves Grenier) HNM (Harmonics + Noise Model) (Olivier Cappé, Eric Moulines, Maurice Charbit) Glottal Excited LPC

Time-dependent Spectral Models Temporal Decomposition (B. Atal, 1983) Vectorial Autoregressive models with detection of model ruptures (A. DeLima, Y. Grenier) Segmental parameterisation using a time-dependent polynomial expansion (Y. Grenier)

Temporal Decomposition

HNM: Harmonics + Noise Model Estimation des harmoniques Estimation de l’enveloppe harmonique Paramètres H+B f A Signal à l ’entrée Voisement Estimation AR du résiduel Détection du pitch, et l’énergie AR + - Voisé Non-voisé

A L I S P A utomatic L anguage I ndependent S peech P rocessing Automatic discovery of segmental units for speech coding, synthesis, recognition, language identification and speaker verification.

Speech Coding by indexing SYMPATEX SYstème de Messagerie unifiée avec présentation vocale des messages (PArole et TEXte) Thomson-CSF, ELAN TTS, Irius GET, ESIEE

Coding principle  parole Analyse spectrale Analyse prosodique Reconnaissance HMM Dictionnaire des modèles HMM des unités ALISP Représentant A1 … Représentant A8 HMM A Détermination des unités de synthèse Choix unité de synthèse par DTW Codage prosodie Indice unité ALISP Indice unité de synthèse Pitch, énergie, temps

 Decoding Représentant A1 … Représentant A8 Indice ALISP Parole synthétique Représentant A1 … Représentant A8 Indice ALISP N° représentant de synthèse Paramètres de prosodie Choix unité de synthèse Synthèse par concaténation

Automatic Speech Recognition Recognition of proper names and spellings Keyword spotting, noise robustness, adaptation Large Vocabulary Speech Recognition (SIROCCO) http://perso.enst.fr/~sirocco/index-en.html Markov Random Fields, Bayesian Networks and Graphical Models

Markov Random Fields Bayesian Networks and Graphical Models Speech modelling with state constrained Markov Random Field over Frequency bands (Guillaume Gravier and Marc Sigelle) http://perso.enst.fr/~ggravier/recherche.html#these Comparative framework to study MRF, Bayesian Networks and Graphical Models. http://www.cs.berkeley.edu/~murphyk/Bayes/bayes.html

Speaker Verification Typology of approaches (EAGLES Handbook) Text dependent Public password Private password Customized password Text prompted Text independent Incremental enrolment Evaluation

Speaker Verification (text independent) The ELISA consortium ENST, LIA, IRISA, ... http://www.lia.univ-avignon.fr/equipes/RAL/elisa/index_en.html NIST evaluations http://www.nist.gov/speech/tests/spk/index.htm

Support Vector Machines and Speaker Verification Hybrid GMM-SVM system is proposed SVM scoring model trained on development data to classify true-target speakers access and impostors access, using new feature representation based on GMMs Modeling Scoring GMM SVM

SVM principles X y(X) Feature space Input space H Class(X) Ho Separating hyperplan H , with the optimal hyperplan Ho Ho H Class(X)

Results

Voice technology in Majordome Server side background tasks: continuous speech recognition applied to voice messages upon reception Detection of sender’s name and subject User interaction: Speaker identification and verification Speech recognition (receiving user commands through voice interaction) Text-to-speech synthesis (reading text summaries, E-mails or faxes)

Perspectives within COST-277 Text-book on Speech Processing Evaluation of parametric representations of speech for diverse applications Fundamental work on voice transformations with applications in coding, synthesis, recognition and speaker characterisation Fundamental work on noise robustness with applications in coding, recognition and speaker verification