Simulations du VMike et évaluations comparatives
Projet de recherche sur crédit incitatif GET 2005 Page 2 Reconnaissance AV de la parole
Projet de recherche sur crédit incitatif GET 2005 Page 3 Traitements audio Extraction du signal audio Détection des chiffres Reconnaissance des chiffres: Paramètres acoustiques : MFCC HMMs indépendants du contexte Décodage : algo. de Viterbi Bruitage de la parole Bruit : Babble Tests de reconnaissance
Projet de recherche sur crédit incitatif GET 2005 Page 4 Traitements Vidéo Extraction des vidéos Localisation des lèvres Interpolation des images (même cadence que la parole) Extraction des paramètres DCT et DCT2 (+LDA) Projections :PRO et PRO2 (+LDA) Tests de reconnaissance
Projet de recherche sur crédit incitatif GET 2005 Page 5 Techniques de fusion Fusion des paramètres : Concaténation Réduction de la dimension : LDA Modélisation HMM classique avec un seul flux Fusion des scores : Multistream HMM
Projet de recherche sur crédit incitatif GET 2005 Page 6 Résultats expérimentaux Fusion des paramètres
Projet de recherche sur crédit incitatif GET 2005 Page 7 Résultats expérimentaux Fusion des scores : -5db
Projet de recherche sur crédit incitatif GET 2005 Page 8 Bibliographie G. Potamianos, C. Neti, G. Gravier, A. Garp, A. W. Senior. Recent Advances in the Automatic Recognition of Audiovisuel Speech. In IEEE? Vol. 91, pages sept J.N. Gowdy, A. Subramanya, C. Bartels, and J. Bilmes. DBN-Based Multi-Stream Models for Audio-Visual Speech Recognition IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, May Montreal, Canada F. Brugger, L. Zouari, H. Bredin, A. Ameheaye, G. Chollet, D. Pastor et Y. Ni. Reconnaissance de la parole audiovisuelle par VMike. Accepté aux XVIèmes Journées dEtude sur la Parole. Dinard 2006.