Reconnaissance du locuteur

Slides:



Advertisements
Présentations similaires
Modélisation stochastique du signal photonique pour la spectrométrie g
Advertisements

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Recent Advances in the Automatic Recognition of Audiovisual Speech
Projet incitatif GET BIOMET : vérification multimodale de l’identité
GMM, distance entre GMMs, SVM pour la vérification du locuteur.
Gérard CHOLLET Fusion Gérard CHOLLET GET-ENST/CNRS-LTCI 46 rue Barrault PARIS cedex 13
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Eureka avril MAJORCALL – « Client Relation Management for Call Centers » Eurekâ Project !2990 Corebridge- -ENST-
SYstème de Messagerie Unifiée PArole et TEXte Revue de Projet RNRT Mardi 10 décembre 2002.
An Introduction to Biometric Verification of Identity
Some activities on Non-linear Speech Processing at ENST/CNRS-LTCI
Présenté par Gérard CHOLLET CNRS-LTCI, ENST-TSI
Identification automatique des langue
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L
Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire.
Reconnaissance de la parole
An overview of Automatic Speaker Recognition
THALES COMMUNICATIONS Projet RNRT SYMPATEX 14 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 01 octobre 2002.
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
June 15th, 2004 BioSecure1 BioSecure : Future of Biometrics and Evaluations Gérard CHOLLET CNRS-LTCI, GET-ENST European Biometric Forum European Biometric.
Une introduction à la vérification biométrique de l'identité
Interactions langagières et parolières dans une société de l’information Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS.
Une introduction à lauthentification biométrique Gérard CHOLLET Raphaël BLOUET
Le Projet BIOMET II Vérification biométrique multimodale de l’identité
THALES COMMUNICATIONS Projet RNRT SYMPATEX 11 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 13 juin Avril 2002.
Reconnaissance Automatique de la Parole
Simulations du VMike et évaluations comparatives.
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
TRAITEMENT DE TEXTE ET ENSEIGNEMENT DU FRANCAIS
Application de réseaux bayésiens à la détection de fumées polluantes
Colloque GRETSI, Paris, 8-11 septembre 2003 Sur la Décomposition Modale Empirique P. Flandrin (Cnrs - Éns Lyon) et P. Gonçalvès (Inrialpes)
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
La reconnaissance vocale
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
Directeur de thèse : Régine André-Obrecht
Reconnaissance de la parole
Common Gateway Interface
La voix IP : Mr.FERGOUGUI Boudouch Ali kmichou Ansar Atrassi Najoua
Bao LY VAN Doctorant – INT
Interaction audio sur le site web du LIA
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
Reconnaissance Vocale
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
En-tête: Ne pas modifier le style !
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Université d’Avignon et du pays du Vaucluse
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Séminaire 10 Juin 2008 Pervasive Learning Network : P-LearNet Institut TELECOM.
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Reconnaissance de visage par vidéo
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Dans l’axe Systèmes Sociotechniques Ambiants
Journée Des Doctorants 2004
la reconnaissance de visages
« Sûreté des transports », 5 mai 2008, Louahdi Khoudour Systèmes d’aide à l’audio et à la vidéo surveillance dans les systèmes de transport Louahdi Khoudour.
1 Systèmes d’aide à l’audio et à la vidéo surveillance dans les systèmes de transport “Sûreté des transports”, 05 mai 2008, L.Khoudour.
Transcription de la présentation:

Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO (chollet,blouet,renouard,esanchez)@tsi.enst.fr GET-ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13 http://www.tsi.enst.fr/~chollet

Nos affiliations ENST: Ecole Nationale Supérieure des Télécommunications http://www.enst.fr CNRS: Centre National de la Recherche Scientifique http://www.cnrs.fr LTCI: Laboratoire de Traitement et Communication de l’Information http://www.enst.fr/ura/ura.html

Activités de l’équipe « parole » Codage à très bas débit (400 bps), Analyse / Synthèse de la parole et visages parlants, Détection et synthèse des émotions, Reconnaissance automatique, Adaptation au locuteur Multilingue (français, anglais, mandarin, arabe) Identification de la langue, du dialecte, Reconnaissance du locuteur

vérification d’identité Quelques modalités en vérification d’identité PIN SECURED SPACE Bla-bla

Plan Quelques applications de la reconnaissance du locuteur. Avantages et inconvenients de la parole en vérification d’identité La reconnaissance audio-visuelle (visage parlant) Le savoir faire de l’ENST en reconnaissance du locuteur : Vérification du locuteur : Les projets CAVE et PICASSO (dépendant du texte) Le consortium ELISA, le projet ALIZE, les évaluations NIST (independent du texte) Le projet EUREKA !2340 MAJORDOME. Détection de locuteurs : le projet ESTER Perspectives

Applications de la reconnaissance du locuteur Vérification de l’identité (l’imposture délibérée est un risque) Identification en ensemble ouvert (avons-nous dejà entendu ce locuteur ? ) Identification en ensemble fermé (qui prend la parole dans une réunion ?) Recherche des passages où un locuteur prend la parole dans une base d’enregistrements audios Aide à la reconnaissance de la parole Les auditeurs ne sont pas meilleurs que des systèmes automatiques pour la plupart de ces tâches (sauf s’ils connaissent le locuteur depuis de nombreuses années)

Le signal de parole en vérification d’identité Avantages Applications téléphoniques, Coût du capteur (microphone et CAN) faible Possibilité d’intégration à une carte à puce Fusion naturelle avec le visage (parlant) Inconvenients Manque de discrétion Possibilité d’imitation, d’imposture Sensibilité aux bruits, aux distortions,… Variabilité temporelle

de vérification du locuteur Quelques protocoles de vérification du locuteur Typologie des approches : Dépendante du texte Mot de passe public Mot de passe privé Mot de passe personnalisé Lecture ou répétition d’une phrase proposée par le système (“text prompted”) Indépendante du texte Possibilité d’adaptation au client Evaluation (imposture délibérée)

Utilisation de modèles de Markov cachés (HMM)

Théorie de la détection

Detection Error Tradeoff (DET) Curve

CAVE – PICASSO http://www.picasso.ptt-telecom.nl/project/

Vérification du locuteur dépendante du texte dans le projet PICASSO Séquences de 16 chiffres Modèles de chiffres indépendants du locuteur Adaptation de ces modèles à la voix du client (phase d’apprentissage) Des taux d’égale erreur inférieurs à 1% sont possibles Mot de passe personnalisé Permet au client de choisir son mot de passe Imposture délibérée On suppose que l’imposteur a entendu le mot de passe et dispose d’enregistrements du client Il peut utiliser des techniques de transformation de la voix pour tromper le système

Vérification du locuteur indépendante du texte Le consortium ELISA, le projet Technolangue-ALIZE ENST, LIA, IRISA, DDL, Uni-Fribourg, Uni-Balamand... http://elisa.ddl.ish-lyon.cnrs.fr/ Le logiciel libre BECARS (Balamand-ENST Cedre Autom Rec of Speakers) Les évaluations NIST en vérification du locuteur http://www.nist.gov/speech/tests/spk/index.htm Gaussian Mixture Model, Réseaux Bayésiens Adaptation au client, Information mutuelle des gaussiennes Fusion avec des techniques segmentales (ALISP)

Modèle de mélange de Gaussiennes La probabilité d’une observation x est modélisée par une somme pondérée de Gaussiennes : 8 Gaussians per mixture

National Institute of Standards & Technology (NIST) Speaker Verification Evaluations Annual evaluation since 1995 Common paradigm for comparing technologies

GMM speaker modeling WORLD GMM MODEL TARGET GMM MODEL GMM MODELING WORLD DATA TARGET SPEAKER Front-end GMM MODELING WORLD GMM MODEL GMM model adaptation TARGET GMM MODEL

Baseline GMM method l WORLD GMM MODEL HYPOTH. TARGET GMM MOD. = Front-end WORLD GMM MODEL Test Speech = LLR SCORE

Les résultats en 2002

Visages parlants et vérification d’identité Le visage et la parole offrent des informations complémentaires sur l’identité de la personne. De nombreux PC, PDA et téléphones sont et seront équipés d’une caméra et d’un microphone Les situations d’imposture sont plus difficiles à réaliser.

Fusion Parole et Visage (thèse de Conrad Sanderson, août 2002)

Conclusions et Perspectives La parole permet une vérification d’identité à travers le téléphone. Combiner les approches dépendantes et indépendantes du texte améliore la fiabilité. Si l’on utilise le visage pour vérifier l’identité, il ne coûte pas cher d’ajouter la parole (et cela rapporte gros !). De plus en plus de PC, PDA et téléphones sont équipés d’un microphone et d’une caméra. La reconnaissance audio-visuelle devrait se généraliser.