La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A.

Présentations similaires


Présentation au sujet: "Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A."— Transcription de la présentation:

1 Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A. Garg and A.W. Senior Proceedings of the IEEE, Vol. 91, NO. 9, September 2003

2 2 Objectif Améliorer les performances des systèmes de reconnaissance de la parole À laide de linformation visuelle En milieu bruité essentiellement

3 3 Sommaire Paramètres audiovisuels Modèles audiovisuels Indices de confiance Adaptation Expériences et résultats Nos premiers résultats sur BANCA

4 4 Paramètres audio 24 MFCCs 100 échantillons par seconde Soustraction de la moyenne Ajout de linformation dynamique concaténation de 9 trames centrées sur la trame courante Réduction de la dimension LDA + MLLT Dimension finale : 60

5 5 Paramètres audio [2] Maximum Likelihood Linear Transformation Objectifs Réduire la dimension Transformer les données Pour vérifier au mieux la contrainte « covariance diagonale » En maximisant la vraisemblance des données originales dans lespace transformé

6 6 Paramètres visuels Détection et poursuite du visage Sélection de la zone dintérêt Extraction et traitement des paramètres

7 7 Paramètres visuels [2] Détection et poursuite du visage Initialisation : recherche exhaustive différentes tailles différentes positions Poursuite : recherche dans un voisinage même méthode Critères classification par LDA (visage/non-visage) distance à lespace des visages

8 8 Linear Discriminant Data Projection Visage / Non-Visage Minimiser la variance intra-classe S W Maximiser la variance inter-classe S B Trouver P maximisant Visage Eventuel Espace des visages Distance From Face Space eigenface 1 Projection (PCA) Distance From Face Space Paramètres visuels [3] LDA et DFFS

9 9 Paramètres visuels [4] Région dintérêt Localisation de points caractéristiques Carré autour de la bouche Normalisation Echelle Rotation Eclairage Masque

10 10 Paramètres visuels [4] Traitement des paramètres DCT 100 coefficients de plus grande énergie Interpolation linéaire même fréquence déchantillonnage que laudio soustraction de la moyenne Réduction de la dimension (LDA+MLLT) Ajout de linformation dynamique Concaténation de 15 trames centrées sur la trame courante Réduction de la dimension (LDA+MLLT) Dimension finale : 41

11 11 Classes : Flux : Observations : Probabilité démission : Probabilité de transition : Notations

12 12 Fusion des paramètres Concaténation Réduction de la dimension LDA MLLT Modélisation HMM classique avec un flux Comme pour la reconnaissance de la parole seule

13 13 Fusion au niveau de la décision Principe Multistream HMM (mêmes classes) Indice de confiance Dépendant de la modalité seulement

14 14 Fusion au niveau de la décision Estimation des paramètres Paramètres à estimer : Estimation séparée Algorithme EM pour a et v Transition ou Estimation jointe Algorithme EM adapté Estimation des indices de confiance

15 15 Modélisation de lasynchronisme Niveaux dintégration Trois niveaux dintégration : Tôt : état Tard : phrase (« rescoring » des n meilleures hypothèses) Intermédiaire : mot ou phone ou syllabe. Niveaux 2 et 3 : asynchronisme entre séquences détats audio et vidéo

16 16 Etats composites Probabilités démission

17 17 Etats composites Probabilités de transition Hmms couplés : Hmms produit :

18 18 Modèles composites Estimation des paramètres 2 possibilités : Séparément pour les 2 flux Conjointement Remarques : Le deuxième schéma est préférable : modélise lasynchronisme pendant lapprentissage et le test. Partage des paramètres par flux recommandé : nombre important de paramètres et souvent faible quantité de données dapprentissage.

19 19 Calcul des poids Indicateurs de fiabilité Les n meilleures vraisemblances dune observation sont triées dans lordre descendant. o Argument : rapport de vraisemblance entre n décisions de classification est informatif sur la discrimination des classes. o Indicateur de dispersion des n meilleures hypothèses Indicateurs de fiabilité,sur une phrase, sont corrélés avec le wer

20 20 Calcul des poids Fonction sigmoïde fonction sigmoïde : pour lier les indicateurs de fiabilité et coefficients de pondération Wi, paramètres du sigmoïde à estimer. Pour pouvoir calculer les indicateurs de fiabilité à chaque état un alignement forcé préalable est réalisé.

21 21 Calcul des poids Estimation des Wi Deux critères : MCL : Maximum Conditional Likelihood MCE : Minimum classification error

22 22 Adaptation des paramètres Pourquoi : bases de données audiovisuelles rares et leur collecte est coûteuse Application: fusion discriminante des paramètres Techniques: issus du traitement de la parole : MLLR : maximum Likelihood Linear Regression MAP : maximum a posteriori Adaptation des transformations -Adapter les matrices de transformation LDA et MLLT en les calculant avec les données dapprentissage et dadaptation. -Ré estimation des paramètres

23 23 Expériences Bases de données : Modèles acoustiques : Phones contextuels à états liés (159 pour les digits et 2800 pour le LVCSR). 3 états par phone, 5 contextes * 2 Grammaire : Boucle de mots : digits Trigramme : LVCSR Environ.TâcheDurée (h) StudioLVCSR44 StudioChiffres10 BureauChiffres2

24 24 Résultats : vidéo Chiffres LVCSR wer Speaker independant93.52 Speaker adapted82.51 WER Speaker independant Multispeaker26.57 Speaker adpted16.77

25 25 Résultats AV: Chiffres

26 26 Résultats AV : LVCSR

27 27 Résultats sur BANCA


Télécharger ppt "Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A."

Présentations similaires


Annonces Google