Application des HMMs à la reconnaissance vocale

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
PRINCIPE SIMPLIFIE DE LA COMPRESSION MP3
Le Signal Vocal Notions sur l’audition Allure temporelle
Le Signal Vocal 1. Production du signal ; Modèles de production
(1) Laboratoires , Vallauris (06), France (2) Laboratoire , France
Recent Advances in the Automatic Recognition of Audiovisual Speech
SP1 : Transfert de technologie
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Reconnaissance de la parole
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Reconnaissance Automatique de la Parole
Algorithme de Viterbi pour la reconnaissance de la parole
Simulations du VMike et évaluations comparatives.
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Mesures dans le domaine fréquentiel
Reconnaissance automatique de la parole par unités sous-phonétiques
Reconnaissance de la parole
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
DEA instrumentation et commande
Application des algorithmes génétiques
Analyse fréquentielle
Classification Multi Source En Intégrant La Texture
Décodage des informations
Divers procédés de modulation sont utilisés dans le domaine hertzien et dans le domaine câblé pour transporter les informations numériques Ces techniques.
Reconnaissance de Yes/No à l’aide du HTK
Le cahier de charge d'un système de RAP
Une visite guidée dans le monde des ondelettes
DEA Perception et Traitement de l’Information
CLASSIFICATION DES SONS, “COMMENT CA MARCHE ?”
Modèles de Markov Cachés
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Reconnaissance Vocale
Mémoires associatives
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
RECONNAISSANCE DE FORMES
Présenter par : Mounir GRARI RAPPORT DE PROJET SOUS HTK
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Filtrage de Kalman et aperçu probabiliste
Application des HMMs à la reconnaissance vocale
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
Processus stochastiques
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
DU TRAITEMENT DU SIGNAL
LINGUISTIQUE APPLIQUÉE À L’ENSEIGNEMENT-APPRENTISSAGE DU FRANÇAIS
Stratégie de Codage Implant.
Présentation du marché obligataire
Reconnaissance automatique de la parole
Apprentissage « machine »
Juillet 2001  Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais.
Application des HMMs à la reconnaissance vocale
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Reconnaissance de visage par vidéo
Les signaux périodiques
Méthode des moindres carrés (1)
Reconnaissance de Yes/No à l’aide du HTK Adapté d’un tutoriel du HTK par Nicolas Moreau.
Projet GenoTo3D Apprentissage automatique appliqué à la prédiction de la structure tertiaire des protéines GenoTo3D Guermeur Y 1, Benabdelsem K 2, Bréhélin.
Le Traitement Automatique des Langues (TAL)
Journée Des Doctorants 2004
Traitements d'images et Vision par ordinateur
Pierre Dumouchel 20 juillet 2009
Application des HMMs à la reconnaissance vocale
Transcription de la présentation:

Application des HMMs à la reconnaissance vocale Adapté de Yannis Korilis, Christian St-Jean, Dave DeBarr, Bob Carpenter, Jennifer Chu-Carroll et plusieurs autres

Applications des HMM en audio Prétraitement Conversion du signal audio en un ensemble de vecteurs représentatifs Reconnaissance de la voix Décodage de la séquence de vecteurs acoustiques en une séquence de mots. Interprétation sémantique (traitement de la parole) Détermination de la signification des mots obtenus Synthèse de la voix Génération synthétique à partir d’une chaîne de mots-clés

Reconnaissance de la voix Étant donné un signal acoustique O, quelle est la phrase la plus probable se cachant derrière, parmi toutes les phrase d’un langage L?

Reconnaissance de la voix Étant donné un signal acoustique O, quelle est la phrase la plus probable se cachant derrière parmi toutes les phrase d’un langage L? On décompose O en une séquence de trames : O=o1, o2,…, ot On définit la phrase par une séquence de mots : W=w1, w2, …, wn Le problème de la reconnaissance vocale revient à trouver tel que

Reconnaissance de la voix Le signal brut provenant d’un microphone est divisé en segments non disjoints, chacun décrit par un vecteur caractéristique. Un segment (trame) dure 25-30 ms et est saisi à toutes les 10 ms.

Analyse spectrale Fréquence = ton; amplitude = volume Échantillonnage à ~8 kHz téléphone, ~16 kHz microphone Transformée de Fourier : structure d’une trame en termes de composantes de différentes fréquences. Succession des transformées de Fourier = spectrogramme Les zones sombres indiquent des maxima d’énergie (formants) s p ee ch l a b amplitude frequency

Extraction des traits acoustiques Banque de filtres Réduit le nombre de paramètre FFT à déterminer par filtrage suivant ~20 filtres triangulaires uniformément espacés dans l’échelle mel Chaque filtre fournit un coefficient qui donne l’énergie du signal dans la bande couverte par le filtre Échelle de fréquences mel Modélise la non-linéarité de la perception audio humaine au niveau des fréquences mel(f) = 2595 log10(1 + f / 700) À peu près linéaire jusqu’à 1kHz, ensuite compression logarithmique ... m1 m2 m3 m4 m5 m6 fréquence … coefficients

Vecteur des traits acoustiques Transformée en cosinus inverse du logarithme des coefficients tirés de la banque de filtres Donne les « Mel Frequency Cepstral Coefficients (MFCC) ». Seuls les ~12 premiers cœfficients sont retenus. Les MFCC sont presque indépendants (à l’encontre des cœfficients de la banque de filtres) On utilise aussi le Delta (vitesse / dérivée) et Delta2 (accélération / dérivée seconde) des MFCC (+ ~24 traits) Et aussi le logarithme de l’énergie de la trame et son Delta et Delta2, pour un total de 39 traits

Le problème de la reconnaissance Trouver la séquence la plus vraisemblable de « mots » w étant donnée une séquence d’observations acoustiques. On utilise le thèorème de Bayes pour créer un modèle génératif : ArgMaxw P(W|O) = ArgMaxw P(O|W) P(W) / P(O)  ArgMaxw P(O|W) P(W) Revient à considérer deux aspects : 1. Modèle linguistique : P(W) 2. Modèle acoustique : P(O|W)

Architecture de reconnaissance vocale Un HMM par phone ou phonème

HMM donne le modèle acoustique (P(O|W))

Modèle acoustique plus réaliste Coarticulation et variations dialectiques

Le modèle linguistique (P(W)) Il faut trouver P(W) la probabilité de la séquence W = w1 ,w2,…,wk L’application du th. De Bayes donne : P(W)=P(w1 ,w2,…,wk) = P(w1) P(w2|w1) P(w3|w1,w2) … P(wk|w1,…,wk-1) expression souvent simplifiée (bi-gramme): P(Wordi | Word1:i-1) = P(Wordi | Wordi-1)

Identification de la séquence d’états On veut trouver la meilleure séquence d’états W pour expliquer l’observation O : ArgMax w1,…,wm P(w1,…,wm | o1,…,on) Utiliser l’algorithme de Viterbi Max sur tous les états précédents r possibles Vraisemblance de r comme état précédent Probabilité de transition de r à s Acoustique associée à s pour l`observation o

Treillis du décodeur Viterbi input oi-1 oi oi+1 P1,1 P1,1 s1 s1 s1 fi(s1) fi+1(s1) fi-1(s1) P2,1 P1,2 ... s2 s2 s2 ... Pk,1 fi(s2) fi+1(s2) fi-1(s2) P1,k best path ... ... ... sk sk sk fi(sk) fi+1(sk) fi-1(sk) time ti-1 ti ti+1

Réseau de reconnaissance final Passe par la dèfinition d’une grammaire : /* * Task grammar */ $WORD = YES | NO; ( { START_SIL } [ $WORD ] { END_SIL } )

Reconnaissance de la parole Etape 1 : L'observable est le signal de parole Le HMM modélise un phonème en une suite d'états un HMM par phonème Etape 2 : L'observable est une suite de phonèmes le HMM modélise un mot en une suite de phonèmes Un HMM par mot du dictionnaire Etape 3 : L'observable est une suite de mots Le HMM modélise une phrase en une suite de mots

Reconnaissance du texte écrit Etape 1 : L'observable est le signal issu d’une tablette graphique Le HMM modélise une lettre en une suite d'états un HMM par lettre Etape 2 : L'observable est une suite de lettres le HMM modélise un mot en une suite de lettres Un HMM par mot du dictionnaire Etape 3 : L'observable est une suite de mots Le HMM modélise une phrase en une suite de mots

Conclusions HMM = technique de référence dans de nombreux domaines Bons résultats malgré les hypothèses (indép., stationnarité) Apprentissage coûteux Il existe : D’autres méthodes d’apprentissage (ex: RNA) D’autres principes d’apprentissage existent (spécialisation/généralisation) Autres architectures (factorial HMM, input/output HMM, parallel LR HMM, etc ...) Autres modèles (ex: HMM auto-regressif)

Quelques références [BGC00] L. Bréhelin, O. Gascuel, G. Caraux, Hidden Markov Models with patterns and their application to intregated circuit testing, ECML 2000. [Bier97] C. Biernacki, Choix de modèles en classification, thèse de l ’Université Technologique de Compiègne,1997. [BPSW70] L-E Baum, T. Petrie, G. Soules and N. Weiss, A maximization technique occuring in statistical analysis of probabilistic functions in Markov chains, The annals of Mathematical Statistics, 41(1):164-171,1970. [DEKM98] R. Durbin,S Eddy, A, Krogh, G Mitchison, Biological sequence analysis probabilistic models of proteins and nucleic acids. Cambridge University Press, 1998. [KHB88] A. Kundu, Y. He, P. Bahl, Recognition of handwritten word: First and second order Hidden Markov Model based approach, in the proceedings of CVPR 88, pp 457-462,1988. [Rab89] L.R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition,In the proceedings of IEEE, 77(2):257-285,1989. [Raph98] C. Raphael, Automatic segmentation of acoustic musicals signals using Hidden Markov Models. IEEE PAMI, 21(4):360-370,1998.

Outils et tutorials Hidden Markov Model Toolkit (HTK) Démo en français http://htk.eng.cam.ac.uk/ Démo en français http://asi.insa-rouen.fr/~aprevel/stats/HTK/gauche.htm