Gérard CHOLLET chollet@tsi.enst.fr Fusion Gérard CHOLLET chollet@tsi.enst.fr GET-ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13 http://www.tsi.enst.fr/~chollet.

Slides:



Advertisements
Présentations similaires
PowerPoint. A guide to the use of ICT in the MFL classroom by Dean Horne Prudhoe Community High School.
Advertisements

(Nom du fichier) - D1 - 01/03/2000 FTR&D/VERIMAG TAXYS : a tool for the Development and Verification of RT Systems a joint project between France Telecom.
Why? Extended language Sentence level work Cultural Find out new language Stimulus for creativity Reinforce everything children do in English Fun for.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
An Introduction to Biometric Verification of Identity
Some activities on Non-linear Speech Processing at ENST/CNRS-LTCI
Reconnaissance du locuteur
An overview of Automatic Speaker Recognition
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
June 15th, 2004 BioSecure1 BioSecure : Future of Biometrics and Evaluations Gérard CHOLLET CNRS-LTCI, GET-ENST European Biometric Forum European Biometric.
Une introduction à la vérification biométrique de l'identité
Une introduction à lauthentification biométrique Gérard CHOLLET Raphaël BLOUET
Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Patrick Perrot, Leila Zouari NOLISP, Paris, March 23rd 2007.
Simulations du VMike et évaluations comparatives.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Revenir aux basiques !. 1 Revenir aux basiques Processus Nécessité daméliorer la Maîtrise les Offres et Projets: lanalyse des causes racines montre un.
Talking about yourself
Copy into best: Unit 2 – Ma vie dado (teenage life) In this unit I will: 1. discuss __________________________ 2. discuss Facebook 3. describe _________________________.
ContractionsContractions How the French get around.
les fournitures scolaires masculin! féminin! un crayon un stylo
Status report SOLEIL April 2008
Coopération/Distribution DEA Informatique Nancy. Content 4 Introduction - Overview 4 Coordination of virtual teams : –explicit interaction model –explicit.
Université Des Sciences Et De La Technologie DOran Mohamed Boudiaf USTO République Algérienne Démocratique et Populaire Département de linformatique Projet.
50Hz Literature 2007 Literature Plan. 50 Hz Literature With new Product Introductions … –Applications Manual (part of product catalog) –Submittal Data.
Defence R&D Canada R et D pour la défense Canada Novel Concepts for the COP of the Future Denis Gouin Alexandre Bergeron-Guyard DRDC Valcartier.
Bao LY VAN Doctorant – INT
TM.
Une Amie Un Ami Français I.
* Google Confidential and Proprietary Khaled KOUBAA Public Policy & Gov't Relations Manager - North Africa Google, Inc. Research, Innovation and Entrepreneurship.
How to solve biological problems with math Mars 2012.
Computer Heritage: Problems and Perspectives at the Musée des arts et métiers Cyrille Foasso Modern Scientific Instrument Collection
EUROPEAN ASSOCIATION OF DEVELOPMENT RESEARCH AND TRAINING INSTITUTES ASSOCIATION EUROPÉENNE DES INSTITUTS DE RECHERCHE ET DE FORMATION EN MATIÈRE DE DÉVELOPPEMENT.
Indefinite articles, plural of nouns
Mardi 20 Novembre 2012 Recap I can
IAFACTORY | conseil en architecture de linformation | | |
PURCHASING PHASE REVIEW Cornerstones of Purchase baseline
Techniques de leau et calcul des réseaux séance 2a Michel Verbanck 2012.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
La pratique factuelle Années 90 un concept médical visant à optimiser les décisions cliniques face aux soins des patients Aujourdhui un concept évolutif,
Qu’est-ce qui te plaît? Chapitre 2.
Florian Bacher & Christophe Sourisse [ ] Seminar in Interactive Systems.
Présentation dun modèle dinterface adaptative dun système de diagnostique et dintervention industriel: ADAPTS (Adaptive Diagnostics And Personalized Technical.
Cest mercredi le neuf octobre Le plan! 1.Révisions 2.Vocabulaire 3.Jouer 4.Ecouter 5.Parler Il fait beau! Le but! Les couleurs!
1 Diffusion du savoir et mobilisation des connaissances Bilan de la réunion des partenaires du Domaine Justice, Police et Sécurité à Ottawa (14 novembre.
Thematic Alignment of Static Documents with Meeting Dialogs Dalila Mekhaldi Diva Group Department of Computer Science University of Fribourg.
Title of topic © 2011 wheresjenny.com Each and Every when to use ?
Le comparatif et le superlatif des irréguliers
INDICATOR DEFINITION An indicator describes the manifestation of a process of change resulting from the pursuit of an action. Un indicateur décrit la manifestation.
Branche Développement Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
VTHD PROJECT (Very High Broadband Network Service): French NGI initiative C. GUILLEMOT FT / BD / FTR&D / RTA
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Département InfRes Telecom-ParisTech / IMT (ENST)
Information Theory and Radar Waveform Design Mark R. bell September 1993 Sofia FENNI.
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Voici une liste de mots FLASH! Lis les aussi vite que tu lis ton nom 
VOICI UNE LISTE DE MOTS FLASH! LIS LES AUSSI VITE QUE TU LIS TON NOM Mots de haute fréquence pour la troisième année – un Power Point pour pratiquer et.
VOICI UNE LISTE DE MOTS FLASH! LIS LES AUSSI VITE QUE TU LIS TON NOM Mots de haute fréquence pour la sixième année – un Power Point pour pratiquer et développer.
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Reconnaissance de visage par vidéo
RULES OF THE GAME There are 2 rounds. Round 1 - One person from each team comes to the front of the room. Team 1 will give a one-word clue to their “guesser”
Répétez! Bonjour!. Je m’appelle ________. Et toi ? Tu t’appelles comment? Répétez!
VOICI UNE LISTE DE MOTS FLASH! LIS LES AUSSI VITE QUE TU LIS TON NOM Mots de haute fréquence pour la Deuxième année – un Power Point pour pratiquer et.
Stephen Gagné, DTM Laura Gagné, DTM.  Evaluation method  Test speaker  Break-out work groups  Evaluations  Evaluations of evaluations.
IP Multicast Text available on
IGTMD réunion du 4 Mai 2007 CC IN2P3 Lyon
Mon enfance Quand tu étais petit, tu étais comment?
Quantum Computer A New Era of Future Computing Ahmed WAFDI ??????
G. Peter Zhang Neurocomputing 50 (2003) 159–175 link Time series forecasting using a hybrid ARIMA and neural network model Presented by Trent Goughnour.
Information available in a capture history
Transcription de la présentation:

Gérard CHOLLET chollet@tsi.enst.fr Fusion Gérard CHOLLET chollet@tsi.enst.fr GET-ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13 http://www.tsi.enst.fr/~chollet

Plan Motivations, Applications Reconnaissance de formes Multi-capteurs Rehaussement du signal Parametres Scores Decisions Conclusions Perspectives

Introduction Reconnaissance des formes Pourquoi fusionner ? Que fusionner ? Des signaux issus de capteurs divers, Des parametres mesures sur ces signaux, Des scores calculés par des classificateurs, Des decisions prises par des classificateurs Comment fusionner ?

Reconnaissance de formes

Fusion de signaux Identiques ? Nombre de capteurs Types de capteurs Nombre de sources Exemples : Réseaux de microphones Stérovision Seïsmographe

Fusion de paramètres Issus d’un seul capteur Issus de plusieurs capteurs Modèles multi-flux Exemples : Reconnaissance de la parole Réseaux bayésiens

Fusion de scores

Fusion de décisions

Vector Quantization (VQ) SOONG, ROSENBERG 1987 Dictionnaire locuteur 1 Dictionnaire locuteur 2 Dictionnaire locuteur n “Bonjour” locuteur test Y Dictionnaire locuteur X best quant.

Hidden Markov Models (HMM) ROSENBERG 1990, TSENG 1992 “Bonjour” locuteur test Y “Bonjour” locuteur X “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n Best path

Ergodic HMM PORITZ 1982, SAVIC 1990 HMM locuteur 1 HMM locuteur n “Bonjour” locuteur test Y HMM locuteur X Best path

Gaussian Mixture Models (GMM) REYNOLDS 1995

HMM structure depends on the application

Gaussian Mixture Model Parametric representation of the probability distribution of observations:

Gaussian Mixture Models 8 Gaussians per mixture

Support Vector Machines and Speaker Verification Hybrid GMM-SVM system is proposed SVM scoring model trained on development data to classify true-target speakers access and impostors access, using new feature representation based on GMMs Modeling Scoring GMM SVM

SVM principles X y(X) Feature space Input space H Class(X) Ho Separating hyperplans H , with the optimal hyperplan Ho Ho H Class(X)

Results

Combining Speech Recognition and Speaker Verification. Speaker independent phone HMMs Selection of segments or segment classes which are speaker specific Preliminary evaluations are performed on the NIST extended data set (one hour of training data per speaker) Some developments were done during a 6 weeks workshop (SuperSID) during summer 2002

SuperSID experiments

GMM with cepstral features

Selection of nasals in words in -ing being everything getting anything thing something things going

Fusion

Fusion results

Audio-Visual Identity Verification A person speaking in front of a camera offers 2 modalities for identity verification (speech and face). The sequence of face images and the synchronisation of speech and lip movements could be exploited. Imposture is much more difficult than with single modalities. Many PCs, PDAs, mobile phones are equiped with a camera. Audio-Visual Identity Verification will offer non-intrusive security for e-commerce, e-banking,…

Examples of Speaking Faces Sequence of digits (PIN code) Free text

Fusion of Speech and Face (from thesis of Conrad Sanderson, aug. 2002)

An illustration Insecure Network Distant server: Access to private data Secured transactions Acquisition of biometric signals for each modality Scores are computed for each modality Fusion of scores and decision

Conclusions and Perspectives Speech is often the only usable biometric modality (over the telephone network). Interactive Voice Servers may use both text dependent and text independent approaches for improved verification accuracy. Evaluation campaigns and research workshops are efficient means to stimulate progress. Most PCs, PDAs and Mobile Phones will be equipped with cameras. Audio-Visual Identity Verification should find applications in e-Banking, e-Commerce, ….