La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. GET-ENST/CNRS-LTCI 46 rue.

Présentations similaires


Présentation au sujet: "Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. GET-ENST/CNRS-LTCI 46 rue."— Transcription de la présentation:

1 Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. GET-ENST/CNRS-LTCI 46 rue Barrault PARIS cedex 13

2 ENST: Ecole Nationale Supérieure des Télécommunications CNRS: Centre National de la Recherche Scientifique LTCI: Laboratoire de Traitement et Communication de lInformation Nos affiliations

3 Activités de léquipe « parole » Codage à très bas débit (400 bps), Analyse / Synthèse de la parole et visages parlants, Détection et synthèse des émotions, Reconnaissance automatique, Adaptation au locuteur Multilingue (français, anglais, mandarin, arabe) Identification de la langue, du dialecte, Reconnaissance du locuteur

4 Quelques modalités en vérification didentité Bla-bla SECURED SPACE PIN

5 Plan Quelques applications de la reconnaissance du locuteur. Avantages et inconvenients de la parole en vérification didentité La reconnaissance audio-visuelle (visage parlant) Le savoir faire de lENST en reconnaissance du locuteur : Vérification du locuteur : Les projets CAVE et PICASSO (dépendant du texte) Le consortium ELISA, le projet ALIZE, les évaluations NIST (independent du texte) Le projet EUREKA !2340 MAJORDOME. Détection de locuteurs : le projet ESTER Perspectives

6 Applications de la reconnaissance du locuteur Vérification de lidentité (limposture délibérée est un risque) Identification en ensemble ouvert (avons-nous dejà entendu ce locuteur ? ) Identification en ensemble fermé (qui prend la parole dans une réunion ?) Recherche des passages où un locuteur prend la parole dans une base denregistrements audios Aide à la reconnaissance de la parole Les auditeurs ne sont pas meilleurs que des systèmes automatiques pour la plupart de ces tâches (sauf sils connaissent le locuteur depuis de nombreuses années)

7 Le signal de parole en vérification didentité Avantages Applications téléphoniques, Coût du capteur (microphone et CAN) faible Possibilité dintégration à une carte à puce Fusion naturelle avec le visage (parlant) Inconvenients Manque de discrétion Possibilité dimitation, dimposture Sensibilité aux bruits, aux distortions,… Variabilité temporelle

8 Quelques protocoles de vérification du locuteur Typologie des approches : Dépendante du texte Mot de passe public Mot de passe privé Mot de passe personnalisé Lecture ou répétition dune phrase proposée par le système (text prompted) Indépendante du texte Possibilité dadaptation au client Evaluation (imposture délibérée)

9 Utilisation de modèles de Markov cachés (HMM)

10 Théorie de la détection

11 Detection Error Tradeoff (DET) Curve

12 CAVE – PICASSO

13 Vérification du locuteur dépendante du texte dans le projet PICASSO Séquences de 16 chiffres Modèles de chiffres indépendants du locuteur Adaptation de ces modèles à la voix du client (phase dapprentissage) Des taux dégale erreur inférieurs à 1% sont possibles Mot de passe personnalisé Permet au client de choisir son mot de passe Imposture délibérée On suppose que limposteur a entendu le mot de passe et dispose denregistrements du client Il peut utiliser des techniques de transformation de la voix pour tromper le système

14 Vérification du locuteur indépendante du texte Le consortium ELISA, le projet Technolangue-ALIZE ENST, LIA, IRISA, DDL, Uni-Fribourg, Uni-Balamand... Le logiciel libre BECARS (Balamand-ENST Cedre Autom Rec of Speakers) Les évaluations NIST en vérification du locuteur Gaussian Mixture Model, Réseaux Bayésiens Adaptation au client, Information mutuelle des gaussiennes Fusion avec des techniques segmentales (ALISP)

15 Modèle de mélange de Gaussiennes La probabilité dune observation x est modélisée par une somme pondérée de Gaussiennes : 8 Gaussians per mixture

16 National Institute of Standards & Technology (NIST) Speaker Verification Evaluations Annual evaluation since 1995 Common paradigm for comparing technologies

17 GMM speaker modeling Front-end GMM MODELING WORLD GMM MODEL Front-end GMM model adaptation TARGET GMM MODEL

18 Baseline GMM method HYPOTH. TARGET GMM MOD. Front-end WORLD GMM MODEL Test Speech LLR SCORE =

19 Les résultats en 2002

20 Visages parlants et vérification didentité Le visage et la parole offrent des informations complémentaires sur lidentité de la personne. De nombreux PC, PDA et téléphones sont et seront équipés dune caméra et dun microphone Les situations dimposture sont plus difficiles à réaliser.

21 Fusion Parole et Visage (thèse de Conrad Sanderson, août 2002)

22 Conclusions et Perspectives La parole permet une vérification didentité à travers le téléphone. Combiner les approches dépendantes et indépendantes du texte améliore la fiabilité. Si lon utilise le visage pour vérifier lidentité, il ne coûte pas cher dajouter la parole (et cela rapporte gros !). De plus en plus de PC, PDA et téléphones sont équipés dun microphone et dune caméra. La reconnaissance audio-visuelle devrait se généraliser.


Télécharger ppt "Reconnaissance du locuteur G. CHOLLET, R. BLOUET, S. RENOUARD, E. GET-ENST/CNRS-LTCI 46 rue."

Présentations similaires


Annonces Google