Reconnaissance de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Objectifs Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Les sources de variabilité LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Les facteurs intra-locuteurs : co-articulation, variation dans la prononciation, etc. Les facteurs inter-locuteurs : physiologie, age, sexe, psychologie, familiarité avec l’application, etc. L’environnement : bruit, micro, canal de transmission, présence d’autres locuteurs, etc. LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Variabilité intra- et inter-locuteur LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Variabilité intra-locuteur LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Typologie des systèmes LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Type de parole Taille du vocabulaire Niveau de dépendance par rapport aux locuteurs Environnement d’utilisation Profil des utilisateurs potentiels LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Type de parole Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Taille du vocabulaire Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Dépendance au locuteur LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques d’un locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec n’importe quel utilisateur LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Environnement d’utilisation LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Parole large-bande (ordinateur, etc.) Parole bande-étroite avec distorsion (téléphone, etc.) Environnement calme (bureau + micro-casque) Bruit de fond LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Profil des utilisateurs potentiels Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Deux exemples Dictée vocale Parole continue Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs d’ordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Système de reconnaissance de mots LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Programmation dynamique (DTW) Mot 1 Mot 2 Mot n Mot inconnu Y Mot X meilleur chemin LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Contraintes locales LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Contraintes locales : exemple LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèle de Markov caché : principe LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèles de Markov cachés (HMM) Mot inconnu Y Mot X Mot 1 Mot 2 Mot n meilleur chemin LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Viterbi : exemple LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Algorithme de Viterbi : exercice LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Le modèle hiérarchique LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Le modèle hiérarchique : exemple LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèles phonétiques (1) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèles phonétiques (2) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Le mot « américain » LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Modèles contextuels LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Modèles de langage A un instant donné, tous les mots n’ont pas la même probabilité de présence : Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles » LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Modèle acoustique + Modèle de langage LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Les n meilleures phrases LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
Treillis de mots / Graphe de mots LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Graphe de mots (2) LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Performances LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE Recherche actuelle LE TRAITEMENT AUTOMATIQUE DE LA PAROLE