Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Patrick Perrot, Leila Zouari NOLISP, Paris, March 23rd 2007.

Slides:



Advertisements
Présentations similaires
RAPPORT et TAUX Objectif.
Advertisements

Département fédéral de lintérieur DFI Office fédéral de la statistique OFS Implementing the economic classification revision (NACE / ISIC) in the Business.
Le sondage LibQUAL à HEC Montréal Une première expérience réussie qui sintègre au processus de planification stratégique de la bibliothèque Le sondage.
(Nom du fichier) - D1 - 01/03/2000 FTR&D/VERIMAG TAXYS : a tool for the Development and Verification of RT Systems a joint project between France Telecom.
Indexation Parole / Musique / Bruit
1 La bibliométrie pour l'évaluation stratégique des institutions de recherche : usages et limites Indicators for strategic positioning of the research.
Recent Advances in the Automatic Recognition of Audiovisual Speech
Gérard CHOLLET Fusion Gérard CHOLLET GET-ENST/CNRS-LTCI 46 rue Barrault PARIS cedex 13
SP1 : Transfert de technologie
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
IST Proposal MobiNews Meeting - June 10th, 2003 “Automatic and Personalised Compilation of Broadcast News with Audio Playback on Mobile Devices” François.
SYstème de Messagerie Unifiée PArole et TEXte Revue de Projet RNRT Mardi 10 décembre 2002.
Some activities on Non-linear Speech Processing at ENST/CNRS-LTCI
Reconnaissance du locuteur
An overview of Automatic Speaker Recognition
THALES COMMUNICATIONS Projet RNRT SYMPATEX 14 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 01 octobre 2002.
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
June 15th, 2004 BioSecure1 BioSecure : Future of Biometrics and Evaluations Gérard CHOLLET CNRS-LTCI, GET-ENST European Biometric Forum European Biometric.
Une introduction à la vérification biométrique de l'identité
THALES COMMUNICATIONS Projet RNRT SYMPATEX 11 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 13 juin Avril 2002.
Simulations du VMike et évaluations comparatives.
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Environmental Data Warehouse Cemagref, UR TSCF, TR MOTIVE 2011 – projet Miriphyque.
Revenir aux basiques !. 1 Revenir aux basiques Processus Nécessité daméliorer la Maîtrise les Offres et Projets: lanalyse des causes racines montre un.
LES OUTILS POUR LA COMMUNICATION
Chez nous 6 6 UNITÉ Quit Cest quelquun que tu connais 22 LEÇON B Révision: Le passé composé p. 331 A Le verbe vivre p. 330 C Le pronom relatif qui p. 332.
interaction in the .LRN platform
Sortez les devoirs-we will go over tomorrow!!!
Time with minutes French II Le 30 Octobre.
Status report SOLEIL April 2008
Contexte scientifique
CHALOUPE Global change, dynamics of exploited marine biodiversity and viability of fisheries Funded by the French national Agency of research – Call 2005.
5 Contractions Les normes: Communication 1.1 – Understanding the spoken and written language Comparisons 4.1 – Understanding the nature of language through.
Université Des Sciences Et De La Technologie DOran Mohamed Boudiaf USTO République Algérienne Démocratique et Populaire Département de linformatique Projet.
Second part Album Keet.
Bao LY VAN Doctorant – INT
Français 2, 8 octobre 2012 Cinq minutes preparer á lorale 9-2. Ask me to tell the Ole goes fishing joke. Rassurer – to reassure or put someones mind at.
1 of of 40 UPDATE UPDATE ON TV ANTENNAS SINCE LAST BOARD MEETING SINCE LAST BOARD MEETING HELD ON FEBRUARY 25, 2010, YOUR BOARD HAS MADE MORE PROGRESS.
Recherche d’un même objet / scène
EUROPEAN ASSOCIATION OF DEVELOPMENT RESEARCH AND TRAINING INSTITUTES ASSOCIATION EUROPÉENNE DES INSTITUTS DE RECHERCHE ET DE FORMATION EN MATIÈRE DE DÉVELOPPEMENT.
Rethinking language education, a challenge to tradition Repenser l'éducation aux langues, un défi à la tradition H. G. Widdowson University of Vienna -
Magnets fiche projet / project sheet IAFACTORY THE MAGNETIC FACTORY magnets. IAFACTORY | conseil en architecture de linformation | |
INVESTMENT CLIMATEDEVELOPMENT IMPACT EVALUATION INITIATIVE Piloting the Entreprenant Status: In search of a successful formalization model BENIN Impact.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.
T°CT°C et Salinité. Figure 5.7 Upper: Zonal averages of heat transfer to the ocean by insolation QSW, and loss by longwave radiation QLW, sensible heat.
Passage entre quaternions et matrice des cosinus directeurs Transition from Quaternions to Direction Cosine Matrices.
Vendredi le 10 mai. May 6 th -10 th French Plans Mon. 5/6 Normal bells Tues. 5/7 1 st, 2 nd, 5 th, 7 th Wed. 5/8 4 th, 3 rd, 5 th, 6 th Thurs. 5/9 7th,6th,5th,4th.
Finger Rhyme 6 Summer Term Module 6 Culturethèque-ifru2013 May not be copied for commercial purposes.
Marketing électronique Cours 5 La personnalisation.
CLS algorithm Step 1: If all instances in C are positive, then create YES node and halt. If all instances in C are negative, create a NO node and halt.
Thematic Alignment of Static Documents with Meeting Dialogs Dalila Mekhaldi Diva Group Department of Computer Science University of Fribourg.
Les nombres.
How many of these flags do you recognise? Work with your partner to see if you know many – write them down - some will crop up shortly!
Branche Développement Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
VTHD PROJECT (Very High Broadband Network Service): French NGI initiative C. GUILLEMOT FT / BD / FTR&D / RTA
Z SILICON DRIFT DETECTOR IN ALICE When a particle crosses the thickness of SDD electrons are released. They drift under the effect of an applied electric.
Quelle heure est-il? What time is it ?.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Ministère de l’Éducation, du Loisir et du Sport Responsables des programmes FLS et ELA: Diane Alain et Michele Luchs Animateurs: Diane Alain et Michael.
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Reconnaissance de visage par vidéo
1 Linear Prediction. 2 Linear Prediction (Introduction) : The object of linear prediction is to estimate the output sequence from a linear combination.
Technology Module.  Technology is the application of knowledge and skills to make goods or to provide services.  It includes the tools and machines.
A PCA-based feature extraction method for face recognition — Adaptively weighted sub-pattern PCA (Aw-SpPCA) Group members: Keren Tan Weiming Chen Rong.
Transcription de la présentation:

Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Patrick Perrot, Leila Zouari NOLISP, Paris, March 23rd 2007

Page 2NOLISP 2007, PARIS 23 Mai 2007 Who are the actors ? nMany groups are active : INT – ARTEMIS INT – HANDICOM ENST / CNRS-LTCI ENST – Bretagne / SID nWhat are we doing : Maison IntelligenteMaison Intelligente, OUISPER, TéDéVi (ClipVideo)TéDéViClipVideo LABIAOLABIAO, MyLife3DMyLife3D Livre_lu, Aide aux malentendantsAide aux malentendants

Page 3NOLISP 2007, PARIS 23 Mai 2007 Codage/Compression par indexation nDébit : vers le 400 bits/s nEcoute –Original : –Analyse/Synthèse HNM : –Codage à très bas débit : nThèmes –Segmentation/Indexation dunités vocales (ALISP, polyphones), HMM –Analyse/synthèse HNM –Modifications de la voix (prosodie, timbre)

Page 4NOLISP 2007, PARIS 23 Mai 2007 Codage/Compression par indexation Entrée du signal de parole Analyse de la prosodie Analyse spectrale Codage des paramètres de prosodie Codage des paramètres de prosodie Paramètres de prosodie codés Reconnaissance HMM des RAU Reconnaissance HMM des RAU Coef LPCC Sélection des unités de synthèse: SAU Sélection des unités de synthèse: SAU Frontières des segments Indices des unités RAU Segments de parole Indices des unités SAU Indices des unités RAU Corpus de parole du codeur Sélection des unités de Synthèse: SAU Sélection des unités de Synthèse: SAU Segment sélectionné Corpus de parole du décodeur Analyse HNM Analyse HNM Modification de la prosodie Modification de la prosodie Synthèse HNM par concaténation Synthèse HNM par concaténation Sortie du signal synthétique de parole LPCC: HMM: RAU: SAU: HNM: Coefficient Cepstral de Prédiction Linéaire Hidden Markov Model Unité de Reconnaissance Unité de Synthèse Harmonic plus Noise Model

Page 5NOLISP 2007, PARIS 23 Mai 2007 Codage/Compression par indexation nApplications –Transmission (ex.: vers les mobiles) –Compression (ex.: livre lu) nEquipes –Permanents: M. Charbit, G. Chollet, E. Moulines –Thésard: S. Renouard

Page 6NOLISP 2007, PARIS 23 Mai 2007 nPartenariats –Projet RNRT : Sympatex, Thalès, Elan, ESIEE, –Projet GET : Maison Intelligente (aide aux handicapés) INT, ENST Br –Projet STRP: MobiNews (oct. 2003) Thalès, Elan, ESIEE, Radio France, Multitel, etc Codage/Compression par indexation

Page 7NOLISP 2007, PARIS 23 Mai 2007 nG. Baudoin, J. Cernocky, P. Gournay & G. Chollet, Codage de parole à bas et à très bas débit, Annales des Télécoms, nK.S.Lee, R.V.Cox, A very low bit rate speech coder based on a recognition/synthesis paradigm., Vol.9, n°5, pp: , in IEEE Transactions on Speech and Audio Processing, July nCharles du Jeu, Maurice Charbit, Gérard Chollet, Very-low-rate speech compression by indexation of polyphones, Eurospeech nD. Cadic, O. Cappé, M. Charbit, G. Chollet, E. Moulines, « Toolbox » danalyse/synthèse vocale par HNM, rapport stage (ENST). Codage/Compression par indexation

Page 8NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nCompulsory ? for: –Homeland/firms security: restricted accesses,… –Secured computer login –Secured on-line signature of contracts (e-Commerce)

Page 9NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nAvailable features –Face/Face features (lip, eyes) Face Modality –Speech Speech Modality –Speech Synchrony Synchrony Modality

Page 10NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nFace modality –Detection: Generative models (MPT toolbox) Temporal median Filtering Eyes detection within faces –Normalization: geometry + illumination

Page 11NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nFace modality –Selection: Keep only the most reliable detection results Based on the distance Rel between a detected zone and its projection over the eigenfaces space

Page 12NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nFace Modality: –Two verification strategies and one single comparison framework Global = Eigenfaces: –Calculation of a set of directions (eigenfaces) defining a projection space –Two faces are compared regarding their projection on the eigenfaces space. –Learning data: BIOMET (130 pers.) + BANCA (30 pers.)

Page 13NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nFace Modality: SIFT descriptors: –Keypoints extraction –Keypoints representation: 128-dimensional vector (gradient orientation histogramme,…) + 4-dimensional position vector SIFT descriptor (dim 128) Position (x,y) + scale + orientation (dim 4)

Page 14NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nFace Modality: SVD-based matching method: –Compare two videos V1 and V2 –Exclusive principle: One-to-one correspondences between »Faces (global) »Descriptors (local) –Principle: »Proximity matrix computation between faces or descriptors »Extraction of good pairings (made easy by SVD computation) –Scores: »One matching score between global representations »One matching score between local representations

Page 15NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nSpeech Modality: –GMM-based approach; One world model Each speaker model is derived from the World Model by MAP adaptation Speech verification score: derived from likelihood ratio

Page 16NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nSynchrony Modality: –Principle: synchrony between lips and speech carries identity information –Process: Computation of a synchrony model (CoIA analysis) for each person based on DCT (visual signal) and MFCC (speech signal) Comparison of the test sample with the synchrony model

Page 17NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nExperiments: –BANCA database: 52 persons divided into two groups (G1 and G2) 3 recording conditions 1 person 8 recordings (4 client accesses, 4 impostor accesses) Evaluation based on P protocol: 234 client accesses and 312 impostor accesses –Scores: 4 scores per access (PCA face, SIFT face, speech, synchrony) Score fusion based on RBF-SVM: hyperplan learned on G1/tested on G2 and conversely)

Page 18NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification nExperiments:

Page 19NOLISP 2007, PARIS 23 Mai 2007 Audiovisual identity verification V2 V1 Frame N Frame N+1 Frame N+2 Frame M Frame M+1 Frame M+2 SIFT