La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Dominique Vaufreydaz, ESSLLI 2002 1 ASR and scalability Dominique Vaufreydaz ESSLLI02.

Présentations similaires


Présentation au sujet: "Dominique Vaufreydaz, ESSLLI 2002 1 ASR and scalability Dominique Vaufreydaz ESSLLI02."— Transcription de la présentation:

1 Dominique Vaufreydaz, ESSLLI 2002 1 ASR and scalability Dominique Vaufreydaz ESSLLI02

2 Dominique Vaufreydaz, ESSLLI 2002 2 ASR and scalability State-of-the-art speech recognition –general overview –acoustic modelling –language modelling Web-trained language models –scalability of Web data ? –Nespole! example –results State-of-the-art speech recognition –general overview –acoustic modelling –language modelling Web-trained language models –scalability of Web data ? –Nespole! example –results

3 Dominique Vaufreydaz, ESSLLI 2002 3 Automatic speech recognition SpeechAcoustic parameters Phonetically labelled signals Training Recognition Language model(s) Acoustic models Decoding Training Text corpus Acoustic parameters used: - Mel-scaled Frequency Cepstral Coefficients (MFCC) - Energy - Zero crossing - Linear Predictive Coding (LPC) - Perceptual Linear Predictive (PLP) et Rasta-PLP - etc. and of these parameters State-of-the-art speech recognition - general overview

4 Dominique Vaufreydaz, ESSLLI 2002 4 Hidden Markov Models Two different stochastic processes –X: a first order hidden Markov chain for temporal variability –Y: an observable process, for spectral variability HMM can be described with = (A, B, ): –Matrix A: transition probabilities from one state to another a i,j p(X t = j | X t-1 = i) –Matrix B: distribution probabilities of observations b i,j (y) p(Y t = y | X t-1 = i, X t = j) In continuous speech recognition, these probabilities are multigaussian mixtures defined with: the mean vector the covariance matrix the weights of each gaussian –Matrix : probabilities to reach a state from the initial state i p(X 0 = i) State-of-the-art speech recognition - acoustic modelling

5 Dominique Vaufreydaz, ESSLLI 2002 5 Acoustic units Different kinds of system –context independent systems: phonemes (or other units) –context dependent systems: allophones, i.e. units in context. More robust but use more memory and CPU. The availability of enough training data determines the choice between context dependent/independent models and the number of different allophones. HMM topology for each unit –usually, a bakis model (left/rigth first order model) with a i,j = 0 if j < i S1S1 S2S2 S3S3 a 11 a 22 a 33 a 12 a 23 a 13 State-of-the-art speech recognition - acoustic modelling

6 Dominique Vaufreydaz, ESSLLI 2002 6 Train acoustic models Estimation and iterative reestimation of the model parameters –need an acoustic corpus: matching the future recognition condition (speech quality, noise environment, etc.) annotated in acoustic units, i.e. a sequence of acoustic observations O. –use Baum-Welch or Expectation-Modification (EM) algorithms find = (A, B, ) to maximise P(O| ) State-of-the-art speech recognition - acoustic modelling

7 Dominique Vaufreydaz, ESSLLI 2002 7 Acoustic Model Adaptation Having enough training data for these new acoustic condition –train a new model with these data –train a multicondition model with all your data Having a numerical way to simulate new condition (from clean speech to G723 speech for example) –transcode your data and train a new or multicondition model Having only few adaptation data –use adaptation algorithms like: Maximum Likelihood Linear Regression (MLLR) Maximum A Posteriori (MAP) Bayesian Predictive Adaptation (BPA) etc. State-of-the-art speech recognition - acoustic modelling

8 Dominique Vaufreydaz, ESSLLI 2002 8 Statistical language models –more robust than grammar for large vocabulary and dialog systems –not only a yes/no answer n-gram models: considering n-1 words as context –mostly n is 3: need text corpora to compute these probabilities State-of-the-art speech recognition - language modelling

9 Dominique Vaufreydaz, ESSLLI 2002 9 Compute a language model 1 – « Wizard of Oz » experiments délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Transcriptions 2 – train a language model délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 Pentat euque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Language model LM tools délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 language model Adaptation tools State-of-the-art speech recognition - language modelling A third way using all the available data on the Web ???

10 Dominique Vaufreydaz, ESSLLI 2002 10 ASR and scalability State-of-the-art speech recognition –general overview –acoustic modelling –language modelling Web-trained language models –scalability of Web data ? –Nespole! example –results

11 Dominique Vaufreydaz, ESSLLI 2002 11 Scalability using the Web ? Huge amount a data on many topics –~200000 different French lexical forms –different kinds of text well-written text in professional pages for example pseudo dialog forms in personal Web pages « Euh... bonjour, euh... c'est l'Institut Macareux... euh... c'est pour un sondage (anonyme, quoi... hein) ! » Size of the training set is steadily increasing with the vocabulary size Web-trained language models - scalability of Web data ?

12 Dominique Vaufreydaz, ESSLLI 2002 12 Specific vocabulary definition Recording real dialogs in real condition (see « Data Collection in Nespole! ») –5 different scenarios recorded through NetMeeting –191 dialogs in 4 languages including 31 French ones manually transcribed extracted French vocabulary contains 2056 words Add CStar-II vocabulary –a specific tourist vocabulary was previously defined for the CStar-II project vocabulary grows up to 2500 words Web-trained language models - Nespole! example

13 Dominique Vaufreydaz, ESSLLI 2002 13 Increase vocabulary coverage - lexical OOV - WebFr4 délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 ABU délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 BDLex délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Specific vocabulary délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Words frequency délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 20K vocabulary + 1 - compute words counts 2 – add most frequent words Web-trained language models - Nespole! example

14 Dominique Vaufreydaz, ESSLLI 2002 14 WebFr4 délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Multi-words délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 20K vocabulary + 3 - compute 5-gram on short words 5 – add most frequent multi-words délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 20K vocabulary délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Final vocabulary (5 letters and 3 phonemes maximum) Increase vocabulary coverage - short words - Web-trained language models - Nespole! example

15 Dominique Vaufreydaz, ESSLLI 2002 15 Trigram language model WebFr4 5 - compute 3-gram Language Models délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Final vocabulary (20,540 words) Minimal block length filter (length=5) Il mordait en ce moment de fort bon appétit dans un morceau de pain. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Bien dirigée, la boulette rebondit presque à la hauteur de la croisée. Cet inconnu traversait la cour d'une maison située rue Vivienne, où. Cette exclamation échappait à un clerc appartenant au genre de ceu. Il mordait en ce moment de fort bon appétit dans un morceau de pain. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Il en arracha un peu de mie pour faire une boulette. Il la lança railleusement par le vasistas d'une fenêtre sur laquelle il s'appuyait. Bien dirigée, la boulette rebondit presque à la hauteur de la croisée, Cet inconnu traversait la cour d'une maison. 1,587,142,200 words corpus Adapted LM tools délissasses 1 croquantes 42 emmènerais 9 emmènerait 26 badgé 19 badge 3439 faillirent 52 pentateuque 309 tabloïde 17 tabloïds 117 attendriraient 5 agatisé 1 portiques 1165 accusais 18 accusait 662 bioclimats 4 circonscriras 2 Final LM 1,960,813 bigrams 6,413,376 trigrams Web-trained language models - Nespole! example

16 Dominique Vaufreydaz, ESSLLI 2002 16 Results Web-trained language models - results On the CStar-II task (~3000 words) On the Nespole! Task (20524 words)

17 Dominique Vaufreydaz, ESSLLI 2002 17 Laboratoire CLIPS CLIPS Communication Langagière et Interaction Personne Système Fédération IMAG […]

18 Dominique Vaufreydaz, ESSLLI 2002 18 rue de la bibliothèque b est un laboratoire de grenoble le centre national de la un laboratoire et un centre vous pouvez également faire des de mots sur tout le nous avons aussi un peu si vous ne trouvez pas ce que vous cherchez ici également la liste de nos organisée par le laboratoire clips est de plus en plus important mais aussi à toute personne tout savoir sur le programme la sélection de la semaine sur le site web de la sur le site de la pour profiter de ce site il est sinon vous pouvez visiter une de haut niveau dans les domaines chaque année un programme est pour accéder directement au programme et la chimie de la matière juillet à grenoble saint martin semaine de juillet à grenoble saint martin


Télécharger ppt "Dominique Vaufreydaz, ESSLLI 2002 1 ASR and scalability Dominique Vaufreydaz ESSLLI02."

Présentations similaires


Annonces Google