Reconnaissance de mots isolés Et Reconnaissance de mots connectés. Applications Reconnaissance de mots isolés Et Reconnaissance de mots connectés. application : reco. de mots isolés
Reconnaissance de mots isolés un système de reconnaissance comprend deux modules : - Le processeur acoustique qui paramétrise le signal, - Le décodeur linguistique qui décode les informations envoyées par le processeur acoustique. On ne s'intéressera ici qu'au module de décodage, application : reco. de mots isolés
application : reco. de mots isolés les premiers systèmes de reconnaissance se sont limités à la reconnaissance de mots isolés : la prononciation des mots est séparée par des pauses de durée supérieure à quelques dixièmes de seconde (120 ms). La démarche poursuivie pour identifier les mots isolés se fait en deux phases : - la phase d'apprentissage : chaque mot est prononcé plusieurs fois de manière à couvrir les différentes conditions de l'application (multilocuteur,....) , - la phase de reconnaissance ; elle consiste à chercher la référence , qui est la plus proche de l'image acoustique du mot prononcé T. application : reco. de mots isolés
application : reco. de mots isolés L'utilisation des MMCs en reconnaissance de mots isolés dépend de l'application considérée Si le nombre de mots du vocabulaire est limité (<100 mots), le principe de l'utilisation consiste à : - construire un modèle de Markov acoustique pour chaque mot M du vocabulaire V, - en phase de reconnaissance,si est l'observation acoustique correspondant au mot inconnu M, Le décodeur linguistique choisit le mot reconnu vérifiant application : reco. de mots isolés
application : reco. de mots isolés Le mot reconnu s'obtient en cherchant parmi tous les mots M du vocabulaire celui dont le modèle acoustique est le plus vraisemblable connaissant les observations reçues. D'après la règle de Bayes, la formule devient : application : reco. de mots isolés
application : reco. de mots isolés Si l'on suppose que tous les mots M ont la même probabilité d'être prononcés, est une constante, Pr(Y) ne dépend pas de M, on obtient la formule suivante : représente la probabilité d'observer Y quand le mot prononcé est M, c'est à dire la vraisemblance de la suite d'observations ; ce calcul est effectué avec l'algorithme de Baum-Welch. application : reco. de mots isolés
application : reco. de mots isolés Conclusion Pour la reconnaissance de mots isolés, vocabulaire limité, il faut : - construire, a priori, les modèles , - optimiser par apprentissage les valeurs des paramètres de ces modèles, - utiliser la relation pour déterminer le mot optimal lors de la reconnaissance. application : reco. de mots isolés
Reconnaissance de mots connectés Pour la reconnaissance des mots connectés, on emploie les mêmes techniques que celles utilisées pour la reconnaissance des mots isolés, d'autres difficultés viennent s'y ajouter comme le phénomène de coarticulation entre mots adjacents, le traitement des mots connectés nécessite la définition d'une syntaxe et les mots appartiennent à un vocabulaire limité. appli : reco. de mots connectés
Reconnaissance de mots connectés Pour la reconnaissance de mots connectés, on ne peut traiter individuellement chaque mot à identifier, en lui associant un modèle acoustique spécifique, car une telle démarche nécessiterait une grande quantité de parole pour l'apprentissage des paramètres et des temps de calculs prohibitifs. appli : reco. de mots connectés
appli : reco. de mots connectés Un choix courant consiste à représenter phonétiquement les mots à partir d'unités phonétiques. Le système considère la phrase comme étant une concaténation d'unités phonétiques appli : reco. de mots connectés
appli : reco. de mots connectés Pour tenir compte, et d'une manière efficace, de toutes les informations relatives aux différents niveaux : linguistiques, niveau syntaxique, niveau acoustico-phonétique, il est courant d'organiser un MMC de manière hiérarchique à partir d'unités élémentaires. Au niveau syntaxique, la phrase est décrite sous la forme d'une concaténation des modèles de mots. Au niveau lexical chaque mot du vocabulaire est représenté par une séquence d'unités phonétiques et traité comme une concaténation des modèles acoustiques. Au niveau acoustico-phonétique, un modèle acoustique markovien est associé à chaque unité phonétique. Un modèle global peut être obtenu en compilant l'ensemble des modèles. appli : reco. de mots connectés
appl : reco. de mots connectés La construction hiérarchique du réseau global permet de prendre en compte, les différentes variantes de prononciation d'une phrase, qui résultent soit : des variations phonologiques, c'est à dire des prononciations optionnelles de certains sons composant la phrase, des variations allophoniques, c'est à dire des modifications acoustiques du phonème en contexte. Au niveau phonologique sont introduites des règles intra-mot (à l'intérieur des mots) et inter-mot (aux frontières entre mots) afin de prendre en compte les phénomènes d'insertion, d'assimilation et de coarticulation. appl : reco. de mots connectés
appli : reco. de mots connectés Au niveau phonétique et lors de la construction des réseaux acoustiques, on tient compte de la décomposition d'un son en phases élémentaires. Par exemple, si on considère une plosive non voisée, on peut lui associer le réseau suivant : appli : reco. de mots connectés
appli: reco. de mots connectés Conclusion Pour réaliser un système de reconnaissance de mots connectés, basé sur les MMC, il faut : construire un réseau dont la topologie reflète les phrases, mots du vocabulaire ou unités élémentaires à traiter, réaliser un apprentissage des paramètres des réseaux acoustiques, effectuer la reconnaissance à l'aide de l'algorithme de Viterbi. appli: reco. de mots connectés
Reconnaissance de parole continue grand vocabulaire Pour la reconnaissance de parole continue à grand vocabulaire, il est impossible d'apprendre un modèle pour chacun des mots du vocabulaire (l'espace mémoire nécessaire et le temps de calcul seraient prohibitifs ). Il est donc nécessaire d'utiliser des unités phonétiques de taille plus courte que le mot. Ces unités peuvent être des phonèmes, des allophones, des diphones, des syllabes,… appli : reco. parole continue
appli : reco. parole continue Modèle de langage Une reconnaissance acoustique même parfaite ne suffit pas pour obtenir une transcription correcte de la phrase. Une suite particulière de 9 phonèmes peut être transcrite en Français en 32000 suites de mots différentes orthographiquement corrects ; quelques une seulement sont des phrases syntaxiquement correctes. Il est donc nécessaire d'intégrer des modèles de langage dans les systèmes de RAP continue grand vocabulaire. appli : reco. parole continue
appli : reco. parole continue Modèle de langage La modélisation du langage doit permettre l'estimation de la probabilité qu'une suite de mots soit prononcée. Étant donnée une suite de n mots la probabilité d'émission de la séquence w= est donnée par la formule suivante : appli : reco. parole continue
appli : reco. de parle continue En pratique on suppose que la probabilité d'émission d'un mot dépend seulement des "k" derniers mots . Les modèles bigramme(k=1) ou trigramme(k=2) sont les plus utilisés. Dans le cas k=2 la formule devient : Les meilleurs systèmes de reconnaissance intègrent des modèles de langage trigrammes. appli : reco. de parle continue
Choix de l'unité phonétique Le choix de l'unité phonétique est déterminant. On peut utiliser des unités comme la syllabe, le diphone, le pseudo-diphone, le phonème, mais ces unités sont incapables de modéliser les variations dues aux contextes. Pour remédier à cet inconvénient, des systèmes utilisent les allophones qui modélisent chaque phonème en tenant compte de son contexte. application : reco. de mots isolés