Application des HMMs à la reconnaissance vocale

Slides:



Advertisements
Présentations similaires
Application des HMMs à la reconnaissance vocale
Advertisements

Application des HMMs à la reconnaissance vocale
Application des HMMs à la reconnaissance vocale
Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Géométrie Différentielle – Cubiques d'Hermite Introduction aux courbes paramétriques et à la géométrie différentielle.
Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
Les objectifs de connaissance : Les objectifs de savoir-faire : - Connaître les règles de nomenclature des composés organiques (alcanes, alcools, aldéhydes,
Cours COMPOSANTES DES VECTEURS Dimitri Zuchowski et Marc-Élie Lapointe.
1 Reconnaissance automatique de la parole Exposé sur les différentes méthodes d’analyse acoustique Présenter par : Mounir GRARI Najlae KORIKACHE.
2 Outils de l’analyse textuelle « CORENLP » Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Ibn Khaldoun – Tiaret faculté.
La spécialité math en TS
La technologie des mémoires
temporelle – fréquentielle –Stabilité diagrammes de Bode / Nyquist
Outils de Recherche Opérationnelle en Génie MTH 8414
CEMTEC Comment scénariser l’éclairage d’un escalier ?
Traitements et interprétation des données gravimétriques
Coloration de graphe, backtracking, branch and bound
Modélisation mathématique des systèmes asservis
Outils méthodologiques
Thème 1 : Ondes et Matière.
SNMP - Comment calculer l'utilisation de la Bande passante
« Easy tag » (nouvelle version)
Mesures vibratoires et modales Analyseur FFT OROS Chapitre 2
André Maïsseu et WANG Xingquan Université Versailles-Saint-Quentin-en-Yvelines France L’approche floue en tant qu’outil de la modélisation.
Principes de programmation (suite)
Plans d’expériences: Plans factoriels
Virtualisation d’applications mobiles dans un réseau de Cloudlets
ECHANTILLONNAGE.
Technologies de l’intelligence d’affaires Séance 14
Apprendre des mots au cycle 2 Quelle progression ?
Mesure de température par radiométrie photothermique
INTELLIGENCE ARTIFICIELLE
Prof Realize par: M.R.KAFI -BAZZINE SLIMANE -AMARA AISSA -OUMAYA HAMZA
Les hélices des protéines transmembranaires
Une expérimentation en géographie, au lycée
Introduction aux statistiques Intervalles de confiance
Regroupement contextuel de cimes dans les images aéroportées
Spécialité Sciences Physiques.
Divers procédés de modulation sont utilisés dans le domaine hertzien et dans le domaine câblé pour transporter les informations numériques Ces techniques.
Réseaux de neurones appliqués à la reconnaissance de caractères
Deuxième partie LE DOSSIER TECHNIQUE DU MARINGOUIN.
Chapitre 7: Groupage.
POL1803: Analyse des techniques quantitatives
Pierre Dumouchel 20 juillet 2009
LOG770 Annexe A Éléments de probabilité
Chapitre 3 : Caractéristiques de tendance centrale
Gestion du bruit : entendre, être entendu et se concentrer
Programmation Android Première application Android
Programme financé par l’Union européenne
L’imputation rationnelle des charges fixes
Transformation linéaires
Information sur survies des patients en dialyse péritonéale, en France métropolitaine dans le RDPLF Année 2016.
TELECOMMUNICATIONS COMMUNICATIONS NUMERIQUES ET ANALOGIQUES
De Scratch à Python : une transition douce… COMMUNICATION
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
Un Mécanisme d‘Adaptation Guidé par le Contexte en Utilisant une Représentation par Objets Manuele Kirsch Pinheiro Laboratoire LSR – IMAG, Équipe SIGMA.
Les signaux périodiques
Jean-Sébastien Provençal
Reconnaissance de formes: lettres/chiffres
Travaux Pratiques de physique
Construire et utiliser un banc de filtres
Créer un filtre sur mesure (pour compresser)
Traitement automatique de la parole
Exploiter le WEB Etape no5.
Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.
Processus stochastiques
Estimation des conditions initiales par inversion
Franck VIOLLET Direction des risques de marché et de modèle HSBC-CCF
Les données structurées et leur traitement
Transcription de la présentation:

Application des HMMs à la reconnaissance vocale Adapté de Yannis Korilis, Christian St-Jean, Dave DeBarr, Bob Carpenter, Jennifer Chu-Carroll et plusieurs autres

Trois domaines d’application majeurs Reconnaissance vocale Décodage d’un signal vocal en une séquence de mots. Traitement de la parole Détermination de la signification d’une séquence de mots Synthèse de la voix Génération d’un signal vocal synthétique à partir d’une chaîne de mots-clés

Le problème de la reconnaissance vocale pad bad spat signal sonore observable Mot sous jacent = ? Étant donné un signal acoustique O (observation), quelle est le phonème/mot/phrase le plus probable représenté (séquence d’états cachés) parmi les possibilités d’un langage L?

Le principe de reconnaissance On décompose O en une séquence de trames temporelles qui se recouvrent On convertit chaque trame en un ensemble de traits On définit une association entre séquences de traits et résultat recherché Plusieurs approches possibles, dont les HMM

Segmentation du signal d’entrée Le signal brut temporel est segmenté en trames qui se recouvrent, chacune pouvant être décrite par en ensemble de traits acoustiques Une trame dure 15-30 ms et est saisie à toutes les 10 ms

Traits acoustiques par formants Fréquence = ton; amplitude = volume Échantillonnage de la voix à ~8 kHz et de la musique à ~16+ kHz Transformée de Fourier d’une trame => composition en termes de composantes de différentes fréquences Succession des transformées de Fourier = spectrogramme Les zones sombres indiquent des maxima d’énergie (formants) s p ee ch l a b amplitude frequency

... Traits acoustiques par bandes spectrales Banque de filtres Réduit le nombre de paramètre FFT à déterminer par filtrage suivant ~20 filtres triangulaires uniformément espacés dans l’échelle mel Chaque filtre fournit un coefficient qui donne l’énergie du signal dans la bande couverte par le filtre Échelle de fréquences mel Modélise la non-linéarité de la perception humaine de l’audio au niveau des fréquences mel(f) = 2595 log10(1 + f / 700) À peu près linéaire jusqu’à 1kHz, ensuite compression logarithmique ... m1 m2 m3 m4 m5 m6 … fréquence coefficients

Vecteur des traits acoustiques Transformée en cosinus inverse du logarithme des coefficients tirés de la banque de filtres Donne les « Mel Frequency Cepstral Coefficients (MFCC) ». En pratique, seuls les ~12 premiers coefficients sont retenus. Les MFCC sont presque indépendants (à l’encontre des coefficients de la banque de filtres) On utilise aussi le delta (vitesse/dérivée) et delta2 (accélération/dérivée seconde) des MFCC (+ ~24 traits) Et aussi le logarithme de l’énergie de la trame et son delta et delta2, pour un total possible de 39 traits

Le problème de la reconnaissance Trouver la séquence de « mots » W la plus vraisemblable étant donnée une séquence d’observations acoustiques O On utilise le théorème de Bayes pour créer un modèle génératif : ArgMaxw P(W|O) = ArgMaxw P(O|W) P(W) / P(O)   ArgMaxw P(O|W) P(W) Revient à considérer deux aspects : 1. Modèle linguistique : P(W) 2. Modèle acoustique : P(O|W) ArgMaxw

Architecture de reconnaissance vocale HMM Traits acoustiques Statistiques Un HMM par phone ou phonème !

HMM donne le modèle acoustique

Modèle acoustique plus réaliste Coarticulation et variations dialectiques

Le modèle linguistique (P(W)) Il faut trouver la probabilité P(W) de la séquence W = w1 ,w2,…,wk L’application du th. De Bayes donne : P(W)=P(w1 ,w2,…,wk) = P(w1) P(w2|w1) P(w3|w1,w2) … P(wk|w1,…,wk-1) expression souvent simplifiée (bi-gramme): P(Wordi | Word1:i-1) = P(Wordi | Wordi-1)

Identification de la séquence d’états On veut la meilleure séquence d’états W pour expliquer O : ArgMax w1,…,wm P(w1,…,wm | o1,…,on) Utiliser l’algorithme de Viterbi Max sur tous les états précédents r possibles Vraisemblance de r comme état précédent Probabilité de transition de r à s Acoustique associée à s pour l’observation o

Treillis du décodeur Viterbi input oi-1 oi oi+1 P1,1 P1,1 s1 s1 s1 fi(s1) fi+1(s1) fi-1(s1) P2,1 P1,2 ... s2 s2 s2 ... Pk,1 fi(s2) fi+1(s2) fi-1(s2) P1,k best path ... ... ... sk sk sk fi(sk) fi+1(sk) fi-1(sk) time ti-1 ti ti+1

Réseau de reconnaissance final Passe par la définition d’une grammaire : /* * Task grammar */ $WORD = YES | NO; ( { START_SIL } [ $WORD ] { END_SIL } )

Extension à la reconnaissance de la parole Etape 1 : L'observable est le signal de parole Le HMM modélise un phonème comme une suite d'états un HMM par phonème Etape 2 : L'observable est une suite de phonèmes le HMM modélise un mot comme une suite de phonèmes Un HMM par mot du dictionnaire Etape 3 : L'observable est une suite de mots Le HMM modélise une phrase comme une suite de mots

Reconnaissance du texte écrit Etape 1 : L'observable est le signal issu d’une tablette graphique Le HMM modélise une lettre en une suite d'états un HMM par lettre Etape 2 : L'observable est une suite de lettres le HMM modélise un mot en une suite de lettres Un HMM par mot du dictionnaire Etape 3 : L'observable est une suite de mots Le HMM modélise une phrase en une suite de mots

Conclusions HMM = technique de référence dans de nombreux domaines Bons résultats malgré les hypothèses (indép., stationnarité) Apprentissage coûteux Il existe : D’autres principes d’apprentissage (spécialisation/généralisation) Autres architectures (factorial HMM, input/output HMM, parallel LR HMM, etc ...) Autres modèles (ex: HMM auto-regressif) La détermination des probabilités est un sérieux problème! Les réseaux de neurones (profonds et autres) offrent des solutions, sinon une méthodologie alternative

Quelques références [BPSW70] L-E Baum, T. Petrie, G. Soules and N. Weiss, A maximization technique occuring in statistical analysis of probabilistic functions in Markov chains, The annals of Mathematical Statistics, 41(1):164-171,1970. [DEKM98] R. Durbin,S Eddy, A, Krogh, G Mitchison, Biological sequence analysis probabilistic models of proteins and nucleic acids. Cambridge University Press, 1998. [KHB88] A. Kundu, Y. He, P. Bahl, Recognition of handwritten word: First and second order Hidden Markov Model based approach, in the proceedings of CVPR 88, pp 457-462,1988. [Rab89] L.R. Rabiner, A tutorial on Hidden Markov Models and selected applications in speech recognition,In the proceedings of IEEE, 77(2):257-285,1989.

Outils et tutoriels Hidden Markov Model Toolkit (HTK) http://htk.eng.cam.ac.uk/