La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

Présentations similaires


Présentation au sujet: "1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,"— Transcription de la présentation:

1 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction, Historique, Domaines dapplications 2.Extraction de paramètres 3.Comparaison de représentations temps-fréquence 4.DTW : Dynamic Time Warping (anamorphose T-F) 5.Modèles stochastiques (HMM, Réseaux Bayésiens) 6.Modèles de langage 7.Evaluation 8.Conclusions

2 2 Références bibliographiques : Reconnaissance Automatique de la Parole

3 3 Histoire de la Reconnaissance Automatique de la Parole

4 4 Systèmes de reco. de parole et type de parole De facile …. Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée … difficile

5 5 Systèmes de reco. de parole et taille du vocabulaire Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000)

6 6 Systèmes de reco. de parole et dépendance au locuteur Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques dun locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec nimporte quel utilisateur

7 7 Systèmes de reco. de parole et environnement dutilisation Parole large-bande (ordinateur, etc.) Environnement calme (bureau + micro-casque) Parole bande-étroite avec distorsion (téléphone, etc.) Bruit de fond

8 8 Profil des utilisateurs potentiels Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération

9 9 Systèmes de reco. de parole: deux exemples Dictée vocale Parole continue Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs dordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public

10 10 Dimensions et difficultés en RAP Taille du vocabulaire, perplexité, facteur de branchement, Environnement sonore (prise de son), distorsions, pertes, bande passante (téléphonique, élargie, HiFi,…) Nombre de locuteurs concernés, motivation des locuteurs, Possibilités dapprentissage, dadaptation, Nombre de langues, accents, … Ergonomie de linterface vocale,

11 11 Variabilité intra- et inter-locuteur

12 12 Variabilité intra-locuteur

13 13 En résumé: pourquoi a-t-on besoin de modèles stochastiques ? Variabilité des signaux parole: due aux personnes Intra- et inter-locuteur Mode délocution Taille du vocabulaire Conditions dues à lenvironnement Prise du son Mode de transmission

14 14 Comment faire la reco ? Comment extraire automatiquement linformation lexicale (transcription textuelle) contenue dans un flux de parole ? Méthodes de reconnaissance de forme: on compare deux formes (p.ex. avec la méthode de DTW) Pour simple à implémenter Contre Besoin dun grand nombre de comparaisons Méthodes statistiques: on utilise un max de données aussi variables que possible pour construire le modèle Contre Modélisation statistique plus complexe Pour Si les données pour construire les modèles sont bien choisies on obtient des modèles qui représentent bien des signaux à tester

15 15 Rappel sur la réalité physique des signaux parole Signal quasi-stationnaire par tranches denviron ms (la durée moyenne dun phonème) Exemple: amplitude du signal parole en fonction du temps

16 16 Rappel sur lextraction de paramètres caractéristiques du signal En analyse les signaux sur des fenêtres danalyse pour avoir: Une abstraction plus grande Une réduction de la redondance Exemple: paramètres Mel Frequency Cepstral Coefficients (MFCC) On aura une estimation des fréquence présentes dans le signal autour des plages centrales des L filtres danalyse, Si L=16 => un vecteur paramétrique de dim. 16 toutes les 10ms

17 17 Comment faire ? Hypothèse: le signal parole est une suite dévénements quasi- stationnaires On va estimer les observations à priori des classes à partir des signaux (bases de données parole) annotés textuellement Pour les parties quasi-stationnaires, il faut trouver une loi de modélisation : des mélanges de Gaussiennes Pour modéliser lévolution temporelle on va utiliser les chaînes (modèles) de Markov cachés Hidden Markov Models : HMM

18 18 Modèles de Markov … non cachés Modélisation des suites temporelles avec un effet mémoire minimal (léchantillon en temps t dépends seulement de celui en t-1) Cest très restrictif, mais donne des résultas acceptables Ex. évolution du temps journalier: on a 3 observables (états): pluvieux, nuageux, ensoleillé; n=1,2, 3 évolution des observables au cours du temps t a ij = proba. de transition de létat i à linstant t-1 vers létat j à linstant t a ij = P ( j (t) | i(t-1) ) A= [a ij ] avec somme proba. sur chaque ligne de la matrice = 1 (on doit se trouver qqpart) π i = proba. initiale que la chaîne commence en létat i

19 19 suite Markov non cachés O = une suite dobservations (états) = aux instants t = P ( Observable | modèle ) = P ( O | M ) = = π 3 (a 33 ) 2 a 31 a 11 a 13 a 32 a 23 Les états sont observables

20 20 Modèles de Markov cachés ou « Hidden Markov Models » HMM = acronyme que lon va utilisé Exemple des saisons états = configurations cachés = saisons ; observables = (pluie, nuageux, ensoleillé) Les états sont cachés A chaque état correspond une fonction de distribution des probabilités (« probability density fonction » = pdf ) des observables mesurables

21 21 Rappel théorie des probabilité Données imprévisibles et/ou bruités => probabilités (statistiques) fournissent le formalisme mathématique pour les décrire et analyser. Étapes pour lévaluation des modèles en fonction de leur représentativité (ex. taux de reconnaissance obtenu) par la probabilité (vraisemblance) on exprime le degré de confiance sur le résultat dune expérience incertaine on a : lespace de toutes les observables possible (S) un événement A = sous ensemble de S Proba(A i ) =fréquence relative des A sur un grand nombre dessais = Na / Ns Avec: P valeur positive entre 0 et 1 N événements disjoints A 1, …. A n qui forment une partition de S sss leur unions = S P (A 1 U ….U A n ) = P(A i )

22 22 rappel Règle de Bayes Probabilité jointe: P(AB) = N AB / N S Proba. conditionnelle de A étant donné que B a eu lieu = P(A | B) = P(AB) / P(B) = ( N AB / N S ) (N B / N S ) comme P(AB) = P(BA) = P(A | B) P(B) = P(B | A) P(A) pour Ai partitions de S, on a des probabilités marginales La loi de Bayes est utilisée pour faire la classification de formes: elle introduit le concept de prise de décision sur la base des connaissances à posteriori obtenues au travers des observations mesurables, et en utilisant les connaissances à priori sur toutes les classes possibles (partitions) Pour le classifieur de Bayes on a dabord besoin destimer les probabilités des classes à priori (des observables étant donné des classes Avec Bayes on peut construire un classifieur en ayant des données qui appartiennent aux classes définies.

23 23 Reco. parole avec des HMM On utilise des modèles de Markov cachés pour modéliser des signaux parole, qui représentent une suite dobservations. La séquence des observations (vecteurs de paramètres) est généré par un automate stochastique à nombre fini détats. Il est construit à partir dun ensemble détats stationnaires régis par des lois statistiques. ou le signal parole est formé dune suite de segments stationnaires, avec tout les vecteurs associés à un même état étant supposés avoir été générés par un même état. Les Modèles de Markov Cachés (HMM : Hidden Markov Models) sont les plus utilisés.

24 24 suite HMM Si lon suppose que lon peut modéliser le signal de parole par des séquences dévénements quasi stationnaires, alors: on peut estimer les observations à priori des classes à partir des signaux annotés pour les parties quasi-stationnaires on utilise une loi de distibution de proba (mélanges de Gaussiennes) pour modéliser lévolution temporelle : modèles (chaînes) de Markov cachés (cest la suite des états qui est cachée)

25 25 Loi de Bayes La loi de Bayes est utilise pour faire la classification de formes: elle introduit le concept de prise de décision sur la base des connaissances à posteriori obtenues au travers des observations mesurables, et en utilisant les connaissances à priori sur toutes les classes possibles (partitions) Pour le classifieur de Bayes on a dabord besoin destimer les probabilités des classes à priori (des observables étant donné des classes Avec Bayes on peut construire un classifieur en ayant des données qui appartiennent aux classes définies.

26 26 Notations on a une séquence (suite) dobservations O { o 1, …, o n, …. o T } cas discret: les appartiennent à un alphabet fini (ensemble des symboles) V = { v 1, …, v i, …. v v } (par ex: obtenus par quantification vectorielle) cas continu: les appartiennent a lensemble R d, lorsque les observables sont des vecteurs de dimension d Un modèle HMM, notée M est composé de S états { q 1, …, q i, …. q n } une distribution initiale des états π i des proba. de transition entre ces états, matrice A= [a ij ] des proba. démission b des observables pour chaque état matrice B = b i [q s ], avec i = 1, …., v

27 27 Modèle de Markov caché : principe

28 28 Les problèmes à résoudre : Pour appliquer le formalisme des HMM à la reconnaissance de parole il faut résoudre les problèmes suivants: Choix (inférence) de larchitecture des modèles Apprentissage ou entraînement (« train ») et/ou adaptation Estimation des probabilités de transition entre états Estimation des probabilités dobservation (par ex: mélange de gaussiennes) Décodage ou meilleure suite des états

29 29 Problème 1: estimation des proba., calculer P (O | M) étant donné un modèle M et une suite dobservations O, comment calculer la proba. que cette séquence a été générée par le modèle M on suppose connues: les vraisemblances locales (proba émission pour chaque état) les proba. de transition On cherche à calculer la vraisemblances de la suite complète observée, à partir des vraisemblances locales Si on a plusieurs modèles, on peut faire la classification, et trouver le modèle qui correspond le mieux aux observations (celui qui a la proba. maximale)

30 30 Problème 2: Décodage ou meilleure suite détats découvrir la partie cachée du modèle (trouver la suite détats qui explique le mieux possible la séquence dobservations) Étant donné un ensemble détats et une séquences dobservations O, comment trouver la meilleure séquence détats de façon à maximiser la probabilité que cette séquence détats ait émis la séquence dobservations Ce problème est lié au problème précédent: P(O|M)

31 31 Problème 3 : Entrainement On essaie doptimiser les paramètres du modèle de façon quils décrivent le mieux possibles les observations On a besoin dexemples dentraînement qui sont déjà annotés (classés) Cest le problème le plus difficile à résoudre: celui dadapter de manière optimale les paramètres du modèle aux exemples déjà classés (nos donnés dentraînement ou apprentissage, différents de ceux de test) difficulté majeure: jongler entre la quantité de donnés disponibles pour créer les modèles, la complexité des modèles nécessaire pour modéliser les phénomènes qui nous intéressent; si suffisamment de données dentraînement mais mauvais modèles => mauvais résultats si modèles réalistes mais pas assez de données pour les entraîner => mauvais résultats il faut trouver la bonne adéquation entre quantité de données pour lentraînement et complexité des modèles comment: essais successifs de modélisation et classification « trials and errors »

32 32 Solution pour lévaluation: récurrence avant ou « forward algorithm » Pour calculer la proba P(O|M) une solution possible est de faire la somme des proba sur toutes les séquences possibles (énumérer toutes les séquences possibles et calculer les probas associés) => trop de séquences => calculs éventuellement possibles seulement pour des seqences courtes Algo forward récursif On dénote α(i) comme la proba partielle que le HMM se trouve dans létat i a linstant t, et que lon a atteint a ce moment la séquence dobservables partielle peut être calculée de manière récursive (voir photocopies) initialisation induction finalisation

33 33 Décodage: algo de Viterbi Idem algo forward mais on prend en considération que les proba maximales

34 34 Estimation des paramètres HMM: algo de Baum et Welsh combinaison de lalgo forward et backward (défini de manière similaire mais pour le chemin inverse) Pratiquement on peut approximer les proba de transition de létat m vers état n (m n) par P ( q m | q n ) = ( nombre de transitions m n ) / ( nombre de fois que létat m a été visité ) De manière similaire on peut approximer les proba démission des symboles

35 35 Combinaison de ces algos pour entraîner des modèles HMM pour la reco: étape dinitialisation 1.On se fixe une topologie 2.On va partir avec une segmentation initiale uniforme (on divise le nombre dobservations par le nombre détats) 3.On calcule les proba de transitions associés avec algo de Baum- Welsh, et des proba demission 4.On calcule avec cela une proba forward 5.On change la séquence détats (nouvelle segmentation) 6.On calcule les nouvelles proba correspondant à cette nouvelle séquence détats (transitions et emission ) 7.Si proba avec nouvelle segmentation > proba avec ancienne segmentation => 8.on prend cette nouvelle segmentation 9.on revient au point 5 (jusquà lobtention des variations des proba minimales)

36 36 Re-estimation On répete ce que lon a fait pour linitialisation, mais pour lensemble des donées dentrainement On obtient des modèles réestimés …

37 37 Modèles de Markov cachés gauche-droit (de Bakis) meilleur chemin Mot 2 Mot 1 Mot n Mot inconnu Y Mot X

38 38 Il existe des autres topologies ergodique: toutes les transitions entre les états sont possibles (on perd la notion de suite dans le temps) Gauche-droit avec des sauts détats

39 39 HMM type utilisé pour la reco de phonèmes Chaque phonème composé de trois états a 00 a 11 a 22 a 01 a 12 b 1 ( k ) b 0 ( k ) b 2 ( k )

40 40 Viterbi : exemple

41 41 Le modèle hiérarchique

42 42 Le modèle hiérarchique : exemple

43 43 Modèles phonétiques (1)

44 44 Modèles phonétiques (2) Le mot « american »

45 45 Modèles contextuels

46 46 Modèles de langage A un instant donné, tous les mots nont pas la même probabilité de présence : Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »

47 47 Modèle acoustique + Modèle de langage

48 48 Performances

49 49 Recherches actuelles


Télécharger ppt "1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,"

Présentations similaires


Annonces Google