Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art - Multimodal Audio-vidéo Participants : Eurécom, LIA

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Introduction Combiner plusieurs modalités pour améliorer les performances;

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Introduction Voix/vidéo : modalités peu intrusives et facilement disponibles; Bimodalité audio-vidéo : –Fusion de deux systèmes → peu robuste –Extraction d’informations à partir des données de manière conjointe pour n’effectuer qu’un unique traitement

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Fusion : généralités Fusion à 3 niveaux différents : –Fusion des paramètres d'entrée (ex. paramètres acoustiques et dimension de la bouche) –Fusion des espaces de représentation (ex. fusion d'un HMM audio et un HMM vidéo) –Fusion des sorties: Niveau abstrait : liste de labels Niveau des rangs : classification des labels par ordre de confiance Niveau des scores : chaque modalité traitée de manière séparée jusqu’à obtention d’un score audio et un score vidéo

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Fusion : GMM Démonstrateur BioLogin : Système d’authentification biométrique bimodale Vérification de l’identité d’un client se présentant face à une caméra et prononcant une phrase Fusion des scores audio et vidéo Chaque module est basé sur des GMM (Gaussian Mixture Models)

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Fusion : HMM Combinaison de 2 HMM (audio et vidéo) pour obtenir un HMM à deux dimensions. –Apprentissage séparé des deux HMM –Combinaison des HMM par un processus prenant en compte les différentes natures des données (ex. produits des probabilités de transition des états)

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Fusion : HMM avec synchronisation temporelle Authentification bimodale basée sur les modèles de Markov cachés asynchrones : –Flux audio : phrase prononcée par une personne –Flux vidéo : visage de cette personne prononçant la phrase –Synchronisation des flux à partir des corrélations temporelles entre l’audio et la vidéo → Gain en robustesse dans un environnement bruité (Test sur XM2VTS)

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Classifieurs (Brunelli, Falavia) Quantification vectorielle sur les MFCC Détection du visage à partir de la vidéo puis normalisation Calcul d’une distance (norme L1) entre l’image de référence et les images extraites Application de 2 classifieurs audio et 3 vidéo Calcul d’une moyenne géométrique de scores pondérées (poids : fonction de la distribution des scores). Avantage : utilisation de plusieurs classifieurs permet de rejeter des données qui ne peuvent être classées avec une confiance suffisante.

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Classifieurs (Broun et Zhang) Extraction des données audio sous la forme de LPC (Linear Predictive Coefficients) Segmentation des données vidéo basée sur les couleurs, les paramètres géométriques des lèvres et de la bouche; Classifieurs polynomiaux sur données audio et vidéo Fusion au niveau des classes

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Corrélation audio- vidéo Décomposition du problème en deux étapes pour conserver de bonnes performances : –Détection de « playback/liveness » : corrélations entre la parole et les mouvements de lèvres –Reconnaissance du locuteur

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Corrélation audio- vidéo Extraction d’informations issues de 2 flux séparés → risque de redondance Intéressant d’évaluer cette redondance pour exploiter les relations entre les différents jeux de données Mesure des corrélations entre le tractus vocal, la position de plusieurs points au niveau de la bouche et la parole

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Analyse statistique de données CANCOR (Canonical Correlation Cancor) : analyse canonique des corrélations Maximisation de la corrélation entre deux jeux de données COIA ( Coinertia Analysis) : Méthode introduite pour résoudre des problèmes statistiques en écologie. Tient compte des relations inter intra-classes pour les différents jeux de données

Avignon, 14 novembre 2006http://biobimo.eurecom.fr COIA (Goecke) –Détection du visage puis du contour des lèvres –Extraction des paramètres sur l’ouverture de la bouche et sur les dimensions des lèvres –Extraction des coefficients MFCC et leurs dérivées du flux audio –Détermination du poids à accorder à chacune des données par une COIA –Reconnaissance à l’aide de HMM

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Test de « Liveness » (Chetty et Wagner) Extraction des coefficients MFCC du flux audio Données vidéo issues d’une PCA pratiquée sur une ROI autour des lèvres Construction d’un modèle GMM à partir de la concaténation des vecteurs audio et vidéo Test : –Comparaison du modèle du locuteur avec celui appris à l’entraînement –Comparaison à partir d’images fixes de la vidéo utilisées à la place de la séquence de test –Calcul d’un seuil du rapport bayésien pour déterminer si attaque

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Test de « Liveness » (Eveno, Besacier) Données extraites des flux audio et vidéo de nature différente donc traitées de manière différente Utilisation de la COIA Corrélation entre l’audio et la vidéo très variable en fonction des locuteurs mais aussi des phonèmes prononcés par un même locuteur Score de détection de « playback », basé sur l’évolution du coefficient de corrélation en décalant les signaux audio et vidéo Déterminer si attaque en fonction du décalage observé sur la courbe du cœfficient de COIA

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Lipreading Système de reconnaissance audio-vidéo de parole et non du locuteur –Calcul des MFCC à partir du flux audio –Vecteur vidéo pour chaque image : Coefficients de la FT de la ROI des lèvres pour certaines bandes de fréquence Coefficients issus d’une analyse linéaire discriminante de l’image sous-échantillonnée –Modélisation des phonèmes dans les domaines audio parallèlement aux visèmes vidéo –Modélisation des combinaisons multiphones –Reconnaissance par DTW

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -

Présentations similaires

Présentation au sujet: "Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -

Présentations similaires

Présentation au sujet: "Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back