Recent Advances in the Automatic Recognition of Audiovisual Speech

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

CARACTERISTIQUES D’UN ENSEMBLE DE FORCES
Non linéarités liées à la thermique
Distance inter-locuteur
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Indexation Parole / Musique / Bruit
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
1/30 Rendu par tracé de chemins ESSI2 George Drettakis http: //www-sop.imag.fr/reves/George.Drettakis/cours/ESSI2/index.html.
RECONNAISSANCE DE FORMES
Reconnaissance de la parole
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Reconnaissance Automatique de la Parole
Simulations du VMike et évaluations comparatives.
Les Prepositions.
1. Les caractéristiques de dispersion. 11. Utilité.
3. Analyse et estimation du mouvement dans la vidéo
1 Bases de sondages multiples et redressement des poids extrêmes Le cas de lenquête auprès des intervenants au domicile de personnes fragilisées (IAD –
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
Piecewise Affine Registration of Biological Images
Auteurs : P. Hellier C. Barillot E. Mémin P.Pérez
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Ecriture simplifiée d'une somme de relatifs
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
1 Analyse de la variance multivariée Michel Tenenhaus.
Modèle Linéaire Généralisé (Proc Genmod)
Identification des personnes par l’iris
Améliorer les performances du chiffrage à flot SYND
Des RRA à la diagnosticabilité
Application des algorithmes génétiques
Système coopératif pour l'aide à la conduite
Classification Multi Source En Intégrant La Texture
Applications du perceptron multicouche
Reconnaissance de visages
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Inversion / Res2dinv Thème 2 = « Organisation et fonctionnement hydrique des couvertures d’altération, des dépôts alluviaux et des sols » devient dans.
Construction de modèles visuels
1 1 ST Crolles 2 Université Montpellier II France FTFC 2003 Représentation Unifiée des Performances Temporelles dune Bibliothèque de Cellules Standards.
1.3 COORDONNÉES DES POINTS
Corrélation et régression linéaire simple
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Modeles Lineaires.
Mémoires associatives
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Modélisation de la topologie avec le Graphe Génératif Gaussien
Notre calendrier français MARS 2014
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Les Nombres! de 0 à 20.
Thierry Molinier > David Fofi >
Filtrage de Kalman et aperçu probabiliste
Échantillonnage (STT-2000) Section 3 Utilisation de variables auxiliaires. Version: 8 septembre 2003.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1 Modèle pédagogique d’un système d’apprentissage (SA)
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
9 paires séries de 3 étuis ( n° 1 à 27 )
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Rappels de statistiques descriptives
Présentation RFIA janvier 2002
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Reconnaissance de visage par vidéo
Méthode des moindres carrés (1)
Transcription de la présentation:

Recent Advances in the Automatic Recognition of Audiovisual Speech G. Potamianos, C. Neti, G. Gravier, A. Garg and A.W. Senior Proceedings of the IEEE, Vol. 91, NO. 9, September 2003 Leila Zouari, Fabian Brugger et Hervé Bredin

Objectif Améliorer les performances des systèmes de reconnaissance de la parole À l’aide de l’information visuelle En milieu bruité essentiellement

Sommaire Paramètres audiovisuels Modèles audiovisuels Indices de confiance Adaptation Expériences et résultats Nos premiers résultats sur BANCA

Paramètres audio 24 MFCCs Soustraction de la moyenne 100 échantillons par seconde Soustraction de la moyenne Ajout de l’information dynamique concaténation de 9 trames centrées sur la trame courante Réduction de la dimension LDA + MLLT Dimension finale : 60

Paramètres audio [2] Maximum Likelihood Linear Transformation Objectifs Réduire la dimension Transformer les données Pour vérifier au mieux la contrainte « covariance diagonale » En maximisant la vraisemblance des données originales dans l’espace transformé

Paramètres visuels Détection et poursuite du visage Sélection de la zone d’intérêt Extraction et traitement des paramètres

Paramètres visuels [2] Détection et poursuite du visage Initialisation : recherche exhaustive différentes tailles différentes positions Poursuite : recherche dans un voisinage même méthode Critères classification par LDA (visage/non-visage) distance à l’espace des visages

Paramètres visuels [3] LDA et DFFS Linear Discriminant Data Projection Visage / Non-Visage Minimiser la variance intra-classe SW Maximiser la variance inter-classe SB Trouver P maximisant Distance From Face Space Visage Eventuel Projection (PCA) Distance From Face Space eigenface 1 Espace des visages

Paramètres visuels [4] Région d’intérêt Localisation de points caractéristiques Carré autour de la bouche Normalisation Echelle Rotation Eclairage Masque

Paramètres visuels [4] Traitement des paramètres DCT 100 coefficients de plus grande énergie Interpolation linéaire même fréquence d’échantillonnage que l’audio soustraction de la moyenne Réduction de la dimension (LDA+MLLT) Ajout de l’information dynamique Concaténation de 15 trames centrées sur la trame courante Dimension finale : 41

Notations Classes : Flux : Observations : Probabilité d’émission : Probabilité de transition :

Fusion des paramètres Concaténation Réduction de la dimension LDA MLLT Modélisation HMM classique avec un flux Comme pour la reconnaissance de la parole seule

Fusion au niveau de la décision Principe Multistream HMM (mêmes classes) Indice de confiance Dépendant de la modalité seulement

Fusion au niveau de la décision Estimation des paramètres Paramètres à estimer : Estimation séparée Algorithme EM pour a et v Transition ou Estimation jointe Algorithme EM adapté Estimation des indices de confiance

Modélisation de l’asynchronisme Niveaux d’intégration Trois niveaux d’intégration : Tôt : état Tard : phrase (« rescoring » des n meilleures hypothèses) Intermédiaire : mot ou phone ou syllabe. Niveaux 2 et 3 : asynchronisme entre séquences d’états audio et vidéo

Etats composites Probabilités d’émission

Etats composites Probabilités de transition Hmms couplés : Hmms produit :

Modèles composites Estimation des paramètres 2 possibilités : Séparément pour les 2 flux Conjointement Remarques : Le deuxième schéma est préférable : modélise l’asynchronisme pendant l’apprentissage et le test. Partage des paramètres par flux recommandé : nombre important de paramètres et souvent faible quantité de données d’apprentissage.

Calcul des poids Indicateurs de fiabilité Les n meilleures vraisemblances d’une observation sont triées dans l’ordre descendant. Argument : rapport de vraisemblance entre n décisions de classification est informatif sur la discrimination des classes. Indicateur de dispersion des n meilleures hypothèses Indicateurs de fiabilité,sur une phrase, sont corrélés avec le wer

Calcul des poids Fonction sigmoïde fonction sigmoïde : pour lier les indicateurs de fiabilité et coefficients de pondération Wi , paramètres du sigmoïde à estimer. Pour pouvoir calculer les indicateurs de fiabilité à chaque état un alignement forcé préalable est réalisé.

Calcul des poids Estimation des Wi Deux critères : MCL : Maximum Conditional Likelihood MCE : Minimum classification error

Adaptation des paramètres Pourquoi : bases de données audiovisuelles rares et leur collecte est coûteuse Application: fusion discriminante des paramètres Techniques: issus du traitement de la parole : MLLR : maximum Likelihood Linear Regression MAP : maximum a posteriori Adaptation des transformations Adapter les matrices de transformation LDA et MLLT en les calculant avec les données d’apprentissage et d’adaptation. Ré estimation des paramètres

Expériences Bases de données : Modèles acoustiques : Phones contextuels à états liés (159 pour les digits et 2800 pour le LVCSR). 3 états par phone, 5 contextes * 2 Grammaire : Boucle de mots : digits Trigramme : LVCSR Environ. Tâche Durée (h) Studio LVCSR 44 Chiffres 10 Bureau 2

Résultats : vidéo Chiffres LVCSR WER Speaker independant 38.53 Multispeaker 26.57 Speaker adpted 16.77 wer Speaker independant 93.52 Speaker adapted 82.51

Résultats AV: Chiffres

Résultats AV : LVCSR

Résultats sur BANCA