Reconnaissance Automatique de la Parole

Reconnaissance Automatique de la Parole
Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole Introduction, Historique, Domaines d’applications Extraction de paramètres Comparaison de représentations temps-fréquence DTW : Dynamic Time Warping (anamorphose T-F) Modèles stochastiques (HMM, Réseaux Bayésiens) Modèles de langage Evaluation Conclusions

Références bibliographiques : Reconnaissance Automatique de la Parole

Histoire de la Reconnaissance Automatique de la Parole

Type de parole Mots isolés Mots connectés Détection de mots clés
Parole contrainte Parole continue Parole spontanée

Taille du vocabulaire Quelques mots (5 – 50)
Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000)

Dépendance au locuteur
Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques d’un locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec n’importe quel utilisateur

Environnement d’utilisation
Parole large-bande (ordinateur, etc.) Parole bande-étroite avec distorsion (téléphone, etc.) Environnement calme (bureau + micro-casque) Bruit de fond

Profil des utilisateurs potentiels
Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération

Deux exemples Dictée vocale Service téléphonique Parole continue
Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs d’ordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public

Dimensions et difficultés en RAP
Taille du vocabulaire, perplexité, facteur de branchement, Environnement sonore (prise de son), distortions, pertes, bande passante (téléphonique, élargie, HiFi,…) Nombre de locuteurs concernés, motivation des locuteurs, Possibilités d’apprentissage, d’adaptation, Nombre de langues, accents, … Ergonomie de l’interface vocale,

Variabilité intra- et inter-locuteur

Variabilité intra-locuteur

Modèles probabilistes
La séquence des observations (vecteurs de paramètres) est généré par un automate stochastique à nombre fini d’états. Les Modèles de Markov Cachés (HMM : Hidden Markov Models) sont les plus utilisés.

Modèle de Markov caché : principe

Modèles de Markov cachés (HMM)
Mot inconnu Y Mot X Mot 1 Mot 2 Mot n meilleur chemin

Viterbi : exemple

Le modèle hiérarchique

Le modèle hiérarchique : exemple

Modèles phonétiques (1)

Modèles phonétiques (2)
Le mot « américain »

Modèles contextuels

8.3 Codeurs segmentaux Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales. Résultats similaires dans l'implémentation des systèmes dépendant du locuteur. Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.

Modèles de langage A un instant donné, tous les mots n’ont pas la même probabilité de présence : Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »

Modèle acoustique + Modèle de langage

Performances

Recherche actuelle

Reconnaissance Automatique de la Parole

Présentations similaires

Présentation au sujet: "Reconnaissance Automatique de la Parole"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Reconnaissance Automatique de la Parole

Présentations similaires

Présentation au sujet: "Reconnaissance Automatique de la Parole"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back