Traitement automatique de la langue DESA ANITS Année scolaire 05/06
Plan du cours Initiation à la parole Bases en traitement du signal de parole Modélisation statistique pour le traitement automatique de la parole Méthodes d’évaluation Axes de recherche en traitement automatique de la parole Synthèse de la parole traitement automatique des textes écrits
Objectifs : Les technologies vocales ont connu, ces dernières années, un très important développement : d’une part, il est maintenant reconnu que la parole, moyen le plus naturel de commnunication entre hommes, doit être considérée comme un moyen de communication homme-machine privilégié. d’autre part, les systèmes automatiques, qu’il s’agisse de systèmes de reconnaissance de parole ou de synthèse de parole, ou de traitement de textes ont acquis des performances suffisantes pour envisager leur intégration dans des systèmes interactifs.
Objectifs Le traitement automatique de la parole est un domaine de recherche pluridisciplinaire : Il utilise des notions empruntées au traitement de signal, à la linguistique ( phonétique, phonologie,…), à la statistique et à l’informatique. Il reste que nombre de problèmes restent ouverts : parole spontanée, parole naturelle, recherche d’informations dans des documents sonores…), l’identification de (locuteur, langue), commandes vocales en milieu bruité,… et la recherche peut y trouver nombre d’études.
Objectifs Ce cours a pour but de donner les fondements théoriques du traitement automatique de la parole. Les bases théoriques de la reconnaissance de la parole. La présentation de l’état de l’art dans ce domaine permettra de comprendre les limites scientifiques et de mettre en évidence les problèmes actuels.
Historique On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole : 1952 : reconnaissance des 10 chiffres, pour un monolocuteur , par un dispositif électronique câblé 1960 : utilisation des méthodes numériques 1965 : reconnaissance de phonèmes en parole continue 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu’à 500 mots) 1969 : utilisation d’informations linguistiques
Historique 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables 1972 : premier appareil commercialisé de reconnaissance de mots 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM 1978 : commercialisation d’un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés
Historique 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration) spécifiques du traitement de la parole 1981 : système de reconnaissance de mots sur un circuit VLSI 1983 : première mondiale de commande vocale à bord d’un avion de chasse en France 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel
Historique 1988 : apparition des premières machines à dicter par mots isolés 1989 : recrudescence des modèles connexionnistes neuromimétiques 1990 : premières véritables applications de dialogue oral homme-machine 1994 : IBM lance son premier système de reconnaissance vocale sur PC 1997 : lancement de la dictée vocale en continu par IBM
Quelques segments d’un signal
Quelques propriétés du signal de parole La parole est quasi-stationnaire La parole est 70% du temps (pseudo-)périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée (0-8000 Hz essentiellement)
Fonctionnement acoustique de l’appareil vocal Système acoustique = excitateur + résonateur Trois modes de fonctionnement Excitation glottique du conduit vocal Excitation du conduit vocal en un point de constriction par un bruit d’écoulement Excitation du conduit vocal par une impulsion acoustique
Les organes de la parole
Qu’est-ce qu’un son ? Son = phénomène vibratoire qui se propagent à une certaine vitesse dans un milieu élastique (en général l’air). son = bruit onde sonore apériodique vibrations non périodiques CONSONNES périodique vibrations périodiques se répètent de façon identique dans le temps VOYELLES impulsionnelle OCCLUSIVES continue FRICATIVES
Transcription phonétique du français
Classes majeures de sons (1) CONSONNES : occlusives (ou plosives) vs. fricatives (ou constrictives) liquides (latérale ou vibrante) & nasales (1) MODE D’ARTICULATION (i.e. selon que le son est produit par la fermeture momentanée ou par le rétrécissement du conduit vocal) OCCLUSIVES = l’air qui provient des poumons est bloqué dans les cavités supra-glottiques (moment de l’occlusion), avant d’être brutalement expulsé (moment de l’explosion) FRICATIVES = l’air qui provient des poumons est engagé dans un conduit (selon la localisation vocal rétréci ( fermé) (2) LIEU D’ARTICULATION des articulateurs, notamment de la langue) 7 lieux possibles : labial – dental – alvéolaire – palatale – vélaire – uvulaire - pharyngal
Classes majeures de sons (2) VOYELLES : résultent du libre passage du flux laryngé dans les cavités supra-glottiques théorie de la source (flux laryngé) & du filtre (résonateurs cavités supra-glottiques). Voyelles orales ou nasales (mode d’articulation) Voyelles antérieures vs. postérieures (lieu d’articulation) Voyelles ouvertes vs. fermées (degré d’aperture) timbre
Phonétique acoustique Echelle de fréquences correspondant aux sons de parole : de 16 à 16.000 Hz 16 kHz Plus la fréquence est élevée plus le son est aigu amplitude = intensité pression fréquence = nbr. d’oscillations / sec.
Analyse spectrale Analyse tri-dimensionnelle montrant la configuration fréquentielle d’un son (ou d’une séquence de sons) dans le temps spectrogramme ou sonagramme de l’acoustique au visuel Formant = zone de fréquences de plus grande intensité (varient en fonction des sons) F1 : axe ouvert ~ fermé F2 : avant ~ arrière F3 : étiré ~ arrondi
Analyse spectrale amplitude degré de noirceur fréquences (Hz) Temps (ms) amplitude degré de noirceur fréquences (Hz) F1 F2 F3
Caractéristiques acoustiques des consonnes occlusives zones de plus grande intensité pour
Caractéristiques acoustiques des consonnes fricatives zones de plus grande intensité
Caractéristiques acoustiques des segments vocaliques & valeurs formantiques moyennes 350 1600 2250 350 900 2500 500 2000 2750 500 1500 2500 500 1000 2500 750 1300 2300 800 1200 2400 F1 F2 F3 fréquences (Hz)
Liquides & Vibrantes cf. présence de transitions formantiques voyelles
Nasales Présence d’anti-formants (correspondant au résonateur nasal)
Les cas particuliers : les semi-voyelles transitions formantiques dynamiques
Transcription phonétique du français
Description acoustique de la parole
Voyelles orales françaises
Triangle vocalique
Représentation acoustique (ex. 1
Représentation acoustique (ex. 2)
Les limites de l’oreille L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée