La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

Présentations similaires


Présentation au sujet: "1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,"— Transcription de la présentation:

1 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction, Historique, Domaines dapplications 2.Extraction de paramètres 3.Comparaison de représentations temps-fréquence 4.DTW : Dynamic Time Warping (anamorphose T-F) 5.Modèles stochastiques (HMM, Réseaux Bayésiens) 6.Modèles de langage 7.Evaluation 8.Conclusions

2 2 Références bibliographiques : Reconnaissance Automatique de la Parole

3 3 Histoire de la Reconnaissance Automatique de la Parole

4 4 Type de parole Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée

5 5 Taille du vocabulaire Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000)

6 6 Dépendance au locuteur Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques dun locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec nimporte quel utilisateur

7 7 Environnement dutilisation Parole large-bande (ordinateur, etc.) Parole bande-étroite avec distorsion (téléphone, etc.) Environnement calme (bureau + micro-casque) Bruit de fond

8 8 Profil des utilisateurs potentiels Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération

9 9 Deux exemples Dictée vocale Parole continue Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs dordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public

10 10 Dimensions et difficultés en RAP Taille du vocabulaire, perplexité, facteur de branchement, Environnement sonore (prise de son), distortions, pertes, bande passante (téléphonique, élargie, HiFi,…) Nombre de locuteurs concernés, motivation des locuteurs, Possibilités dapprentissage, dadaptation, Nombre de langues, accents, … Ergonomie de linterface vocale,

11 11 Variabilité intra- et inter-locuteur

12 12 Variabilité intra-locuteur

13 13 Modèles probabilistes La séquence des observations (vecteurs de paramètres) est généré par un automate stochastique à nombre fini détats. Les Modèles de Markov Cachés (HMM : Hidden Markov Models) sont les plus utilisés.

14 14 Modèle de Markov caché : principe

15 15 Modèles de Markov cachés (HMM) meilleur chemin Mot 2 Mot 1 Mot n Mot inconnu Y Mot X

16 16 Viterbi : exemple

17 17 Le modèle hiérarchique

18 18 Le modèle hiérarchique : exemple

19 19 Modèles phonétiques (1)

20 20 Modèles phonétiques (2) Le mot « américain »

21 21 Modèles contextuels

22 Codeurs segmentaux Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales. Résultats similaires dans l'implémentation des systèmes dépendant du locuteur. Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.

23 23 Modèles de langage A un instant donné, tous les mots nont pas la même probabilité de présence : Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »

24 24 Modèle acoustique + Modèle de langage

25 25 Performances

26 26 Recherche actuelle


Télécharger ppt "1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,"

Présentations similaires


Annonces Google