Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

Indexation Parole / Musique / Bruit
Image et apprentissage
Recent Advances in the Automatic Recognition of Audiovisual Speech
GMM, distance entre GMMs, SVM pour la vérification du locuteur.
SP1 : Transfert de technologie
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Reconnaissance du locuteur
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
June 15th, 2004 BioSecure1 BioSecure : Future of Biometrics and Evaluations Gérard CHOLLET CNRS-LTCI, GET-ENST European Biometric Forum European Biometric.
Interactions langagières et parolières dans une société de l’information Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS.
Reconnaissance Automatique de la Parole
Algorithme de Viterbi pour la reconnaissance de la parole
Simulations du VMike et évaluations comparatives.
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Dijana PETROVSKA-DELACRETAZ travail en commun avec
Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Décomposer les nombres à 2 chiffres
Application de réseaux bayésiens à la détection de fumées polluantes
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
Le remplacement moléculaire
1 Exploitation des données obtenues avec le logiciel réaction Problématique : Lentraînement a-t-il un effet sur le temps de réaction dun élève et de tous.
Détection dobjets cartographiques dans les images satellites Très Haute Résolution Guray Erus, Nicolas Loménie Université René Descartes – Paris5, Centre.
Reconnaissance de la parole
ARC RAPSODIS Reconnaissance Automatique de la Parole Suivie et Orientée par Des Informations Syntaxico-Sémantiques PAROLE – METISS – TALARIS – TEXMEX –
Concepts avancés en mathématiques et informatique appliquées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Décodage des informations
Evaluation de la qualité des documents anciens
Construction de modèles visuels
La segmentation
Reconnaissance Vocale
Les réseaux de neurones
Modélisation de la topologie avec le Graphe Génératif Gaussien
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Reconnaissance d’empreintes digitales
Serrure biométrique Reconnaissance dempreintes digitales Raphaël FROMONT – Pascal GRIMAUD – Nicolas MUNOZ Tuteur : M. Patrick ISOARDI.
Introduction à la reconnaissance:
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Résultats (2) Si l'on compare les résultats obtenus pour les classes où l'on ne prend pas en compte le voisement (ensembles #C2, #C3, #C4, #C5) à ceux.
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
S. Canu, laboratoire PSI, INSA de Rouen
Apprentissage « machine »
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Reconnaissance de chiffres manuscrits
Reconnaissance de visage par vidéo
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Knowledge discovery in Databases (KDD)
GPA-779 Application des systèmes experts et des réseaux de neurones.
Chloé Huetz Thèmes Organisations temporelles des décharges neuronales
Classification automatique des messages électroniques
Journée Des Doctorants 2004
Analyse critique de l’existant
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET

2 1. Vérification du locuteur  Phase d’apprentissage : données parole pour calculer les modèles des locuteurs  Phase de test : identité proclamée => on calcule la vraisemblance que ce modèle ait pu produire les données  Seuil => rejeter ou accepter

3 2. Méthodes globales versus méthodes segmentales  Approches actuelles globales, avec une modélisation de le fonction des densité de probabilité des données parole paramétrées  Expériences existantes montrent que des classes d’unités de parole différents (ex. phonèmes) ont des pouvoirs de classification différents  méthodes segmentales on pourrait exploiter cette différence  Mais :  besoin de méthode de segmentation de la parole  plus de données parole

4 3. Méthodes de segmentation possibles  Reconnaissance de la parole (grand vocabulaire), avec des modèles de phones entraînés sur des grands corpus annotés  Méthodes de segmentation utilisant seulement les données parole, nommées ALISP (Automatic Language Independent Speech Processing)  pas besoin de corpus annotés  parole segmentée en unités ALISP

5 3.1 Apprentissage non supervisé des unités ALISP Segmentation initiale Regroupement des segments en N classes Modélisation des N classes Décomposition temporelle Quantification vectorielle + distances cumulées Modélisation HMM

6 3.2 Décomposition temporelle exemple

7 4. Modélisation des locuteurs avec des Multiple Layer Perceptrons (MLP) Chaque MLP segmental est entraînée à discriminer les données du client des données de monde MLP sont utilisée pour leur pouvoir de classification discriminant

8 5. Conditions expérimentales  Base de données NIST–1998 (env. 500 locuteurs)  2 min de parole pour l’entraînement des modèles  30 sec pour les tests

9 6. Résultats: GMM globaux (état de l’art) et MLP globaux

Performances par classe

MLP globaux et MLP segmentaux

12 7. Résultats et perspectives  Modélisation segmentale avec des MLP, avec des unités ALISP est compétitive avec des GMM  Classification automatique en 8 classes : c’est probablement trop vague  Améliorations possibles :  réaliser une segmentation plus fine, puis regrouper des classes;  fusion des scores segmentaux