Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMagali Gonzalez Modifié depuis plus de 11 années
1
Recent Advances in the Automatic Recognition of Audiovisual Speech
G. Potamianos, C. Neti, G. Gravier, A. Garg and A.W. Senior Proceedings of the IEEE, Vol. 91, NO. 9, September 2003 Leila Zouari, Fabian Brugger et Hervé Bredin
2
Objectif Améliorer les performances des systèmes de reconnaissance de la parole À l’aide de l’information visuelle En milieu bruité essentiellement
3
Sommaire Paramètres audiovisuels Modèles audiovisuels
Indices de confiance Adaptation Expériences et résultats Nos premiers résultats sur BANCA
4
Paramètres audio 24 MFCCs Soustraction de la moyenne
100 échantillons par seconde Soustraction de la moyenne Ajout de l’information dynamique concaténation de 9 trames centrées sur la trame courante Réduction de la dimension LDA + MLLT Dimension finale : 60
5
Paramètres audio [2] Maximum Likelihood Linear Transformation
Objectifs Réduire la dimension Transformer les données Pour vérifier au mieux la contrainte « covariance diagonale » En maximisant la vraisemblance des données originales dans l’espace transformé
6
Paramètres visuels Détection et poursuite du visage
Sélection de la zone d’intérêt Extraction et traitement des paramètres
7
Paramètres visuels [2] Détection et poursuite du visage
Initialisation : recherche exhaustive différentes tailles différentes positions Poursuite : recherche dans un voisinage même méthode Critères classification par LDA (visage/non-visage) distance à l’espace des visages
8
Paramètres visuels [3] LDA et DFFS
Linear Discriminant Data Projection Visage / Non-Visage Minimiser la variance intra-classe SW Maximiser la variance inter-classe SB Trouver P maximisant Distance From Face Space Visage Eventuel Projection (PCA) Distance From Face Space eigenface 1 Espace des visages
9
Paramètres visuels [4] Région d’intérêt
Localisation de points caractéristiques Carré autour de la bouche Normalisation Echelle Rotation Eclairage Masque
10
Paramètres visuels [4] Traitement des paramètres
DCT 100 coefficients de plus grande énergie Interpolation linéaire même fréquence d’échantillonnage que l’audio soustraction de la moyenne Réduction de la dimension (LDA+MLLT) Ajout de l’information dynamique Concaténation de 15 trames centrées sur la trame courante Dimension finale : 41
11
Notations Classes : Flux : Observations : Probabilité d’émission :
Probabilité de transition :
12
Fusion des paramètres Concaténation Réduction de la dimension
LDA MLLT Modélisation HMM classique avec un flux Comme pour la reconnaissance de la parole seule
13
Fusion au niveau de la décision Principe
Multistream HMM (mêmes classes) Indice de confiance Dépendant de la modalité seulement
14
Fusion au niveau de la décision Estimation des paramètres
Paramètres à estimer : Estimation séparée Algorithme EM pour a et v Transition ou Estimation jointe Algorithme EM adapté Estimation des indices de confiance
15
Modélisation de l’asynchronisme Niveaux d’intégration
Trois niveaux d’intégration : Tôt : état Tard : phrase (« rescoring » des n meilleures hypothèses) Intermédiaire : mot ou phone ou syllabe. Niveaux 2 et 3 : asynchronisme entre séquences d’états audio et vidéo
16
Etats composites Probabilités d’émission
17
Etats composites Probabilités de transition
Hmms couplés : Hmms produit :
18
Modèles composites Estimation des paramètres
2 possibilités : Séparément pour les 2 flux Conjointement Remarques : Le deuxième schéma est préférable : modélise l’asynchronisme pendant l’apprentissage et le test. Partage des paramètres par flux recommandé : nombre important de paramètres et souvent faible quantité de données d’apprentissage.
19
Calcul des poids Indicateurs de fiabilité
Les n meilleures vraisemblances d’une observation sont triées dans l’ordre descendant. Argument : rapport de vraisemblance entre n décisions de classification est informatif sur la discrimination des classes. Indicateur de dispersion des n meilleures hypothèses Indicateurs de fiabilité,sur une phrase, sont corrélés avec le wer
20
Calcul des poids Fonction sigmoïde
fonction sigmoïde : pour lier les indicateurs de fiabilité et coefficients de pondération Wi , paramètres du sigmoïde à estimer. Pour pouvoir calculer les indicateurs de fiabilité à chaque état un alignement forcé préalable est réalisé.
21
Calcul des poids Estimation des Wi
Deux critères : MCL : Maximum Conditional Likelihood MCE : Minimum classification error
22
Adaptation des paramètres
Pourquoi : bases de données audiovisuelles rares et leur collecte est coûteuse Application: fusion discriminante des paramètres Techniques: issus du traitement de la parole : MLLR : maximum Likelihood Linear Regression MAP : maximum a posteriori Adaptation des transformations Adapter les matrices de transformation LDA et MLLT en les calculant avec les données d’apprentissage et d’adaptation. Ré estimation des paramètres
23
Expériences Bases de données : Modèles acoustiques :
Phones contextuels à états liés (159 pour les digits et 2800 pour le LVCSR). 3 états par phone, 5 contextes * 2 Grammaire : Boucle de mots : digits Trigramme : LVCSR Environ. Tâche Durée (h) Studio LVCSR 44 Chiffres 10 Bureau 2
24
Résultats : vidéo Chiffres LVCSR WER Speaker independant 38.53
Multispeaker 26.57 Speaker adpted 16.77 wer Speaker independant 93.52 Speaker adapted 82.51
25
Résultats AV: Chiffres
26
Résultats AV : LVCSR
27
Résultats sur BANCA
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.