La reconnaissance vocale BOUCHER Julie Sciences du langage DEUG 1 La reconnaissance vocale ILPGA, « Sorbonne Nouvelle », Paris 3 Td Informatique Le 10/05/04
Sommaire L’historique de la reconnaissance vocale Les principes de fonctionnement Application de la reconnaissance vocale
A quoi ressemble la reconnaissance vocale : « Parlez à votre ordinateur et il retranscrit vos paroles à l’écran » La reconnaissance vocale sert à retranscrire les mots prononcés par un locuteur lors de traitement de textes. Cette fonction permet à l’utilisateur un gain de temps considérable. Nous pouvons établir un lien avec ce que nous sommes entrain d’étudier c’est-à-dire le TAL, qui recouvre de nombreuses activités liées à l’analyse de la parole, à son codage, sa transmission…
L’historique de la reconnaissance vocale Les dates clés : 1952 : reconnaissance des 10 chiffres, par un dispositif câblé. 1965 : reconnaissance de phonèmes en parole continue. 1968 : reconnaissance de mots isolés (jusqu’à 500 mots). 1969 : utilisation d’informations linguistiques. 1971 : lancement de projets aux USA pour tester la fiabilité de la compréhension automatique de la parole continue avec du bruit de fond. 1972 : premier appareil commercialisé de reconnaissance de mots. 1988 :apparition de la première machine à dicter par mots isolés. 1994 : IBM lance son premier système de reconnaissance vocale sur PC. 1997 : lancement de la dictée vocale en continue par IBM.
Les principes de fonctionnement ANALYSE DU SIGNAL DE LA PAROLE Analyse acoustique Décodeur Parole émise dans un casque Transcription orthographique écran
Description du schéma Le locuteur émet une phrase, une fois le son émis, il est capté par un microphone. Le signal vocal est ensuite numérisé à l’aide d’un convertisseur analogique-numérique. Le paramétrage du signal permet d’avoir une empreinte. Le décodage consiste à décrire le signal acoustique en termes d’unités linguistiques. Il a pour but de segmenter le signal, l’identification des différents segments se fait en fonction des contraintes phonétiques et linguistiques. Lorsque tout cela est effectué la reconnaissance en elle-même peut commencer.
LES MOTS ISOLES « Tout les mots prononcés sont séparés par des silences de durée supérieures à quelques dixièmes de seconde ». La phase d’apprentissage : Le locuteur prononce l’ensemble du vocabulaire souvent plusieurs fois afin de créer un dictionnaire de référence. La phase de reconnaissance : Le locuteur un mot énoncé auparavant. Pour reconnaître les mots émis par le locuteur il y a trois parties : Le CAPTEUR permettant d’appréhender le phonème physique considéré, nous dans notre cas c’est le microphone.Un signal est émis au microphone lorsque le locuteur parle. La PARAMETRISATION des formes qui nous donne une empreinte c’est-à-dire la caractéristique du son (Temps/Fréquence/Intensité). Et enfin l’IDENTIFICATION des formes.
La parole continue : « C’est un discours de phrases où les mots s’enchaînent sans moyen de se séparer, contrairement aux mots isolés ». 1ère approche : ASCENCANTE Reconstruction de la phrase à partir du signal. On se contente de le décrypter, cette approche est souvent utilisée pour un vocabulaire très restreint. 2ème approche : DESCENDANTE Une sorte de prédiction du mot qu’il va falloir reconnaître. Cette approche permet à ne pas avoir à tester tout le dictionnaire de la machine.
Application de la reconnaissance vocale : Je vais vous monter quelques unes des applications de la reconnaissance vocale. Tout d’abord il ne faut pas encore se dire que la commande vocale va remplacer le clavier, mais plutôt la considérer comme un moyen complémentaire d’interaction entre l’homme et la machine. Chaque application a ses propres caractéristiques et ses performances : Débit du flux de la parole. Pause entre les mots (mots isolés) ou non (parole continue). Taille du vocabulaire reconnu. Acceptation du bruit de fond.
La reconnaissance ailleurs que dans l’ordinateur : Avionique / Automobile : Dans les avions il y a un domaine d’application important en ce qui concerne les commandes vocales. Tout cela pour permettre aux pilotes de commander par la voix diverses commandes (radar, radio…) En ce qui concerne les automobiles, il y a le GPS, qui permet au conducteur d’avoir à sa disposition la connaissance du trajet, ainsi que l’évolution de la circulation, tout ceci marqué par des messages vocaux. Télécommunication : Reconnaissance du nom sur les téléphones après avoir été mémorisé. Les répertoires vocaux représentent aujourd’hui 50% du marché mondiale des services à commandes vocales.
Les serveurs IBM et Dragon Naturally Speaking : IMB : Avec un taux de reconnaissance à 97%, la dictée d’IBM est assez performante avec pour cadence 70 à 100 mots par minute. Par contre ce logiciel est incapable de retrouver le découpage des mots par leur sens comme pourrait le faire le cerveau humain. Dragon Naturally Speaking : Ce logiciel est à la pointe de la technologie qui est marquée par une avancée très significative. Il permet une diction la plus naturelle possible, sans avoir à marquer de pauses entre les mots avec une cadence d’environ 130 mots par minute et même voir plus. Il possède un dictionnaire très varié (240000 mots) qui recouvre un vocabulaire accessible à tous. Et surtout, il peut accueillir plusieurs locuteurs.