Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Traitement automatique de la langue
DESA ANITS Année scolaire 05/06
2
Plan du cours Initiation à la parole
Bases en traitement du signal de parole Modélisation statistique pour le traitement automatique de la parole Méthodes d’évaluation Axes de recherche en traitement automatique de la parole Synthèse de la parole traitement automatique des textes écrits
3
Objectifs : Les technologies vocales ont connu, ces dernières années, un très important développement : d’une part, il est maintenant reconnu que la parole, moyen le plus naturel de commnunication entre hommes, doit être considérée comme un moyen de communication homme-machine privilégié. d’autre part, les systèmes automatiques, qu’il s’agisse de systèmes de reconnaissance de parole ou de synthèse de parole, ou de traitement de textes ont acquis des performances suffisantes pour envisager leur intégration dans des systèmes interactifs.
4
Objectifs Le traitement automatique de la parole est un domaine de recherche pluridisciplinaire : Il utilise des notions empruntées au traitement de signal, à la linguistique ( phonétique, phonologie,…), à la statistique et à l’informatique. Il reste que nombre de problèmes restent ouverts : parole spontanée, parole naturelle, recherche d’informations dans des documents sonores…), l’identification de (locuteur, langue), commandes vocales en milieu bruité,… et la recherche peut y trouver nombre d’études.
5
Objectifs Ce cours a pour but de donner les fondements théoriques du traitement automatique de la parole. Les bases théoriques de la reconnaissance de la parole. La présentation de l’état de l’art dans ce domaine permettra de comprendre les limites scientifiques et de mettre en évidence les problèmes actuels.
6
Historique On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole : 1952 : reconnaissance des 10 chiffres, pour un monolocuteur , par un dispositif électronique câblé 1960 : utilisation des méthodes numériques 1965 : reconnaissance de phonèmes en parole continue 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu’à 500 mots) 1969 : utilisation d’informations linguistiques
7
Historique 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables 1972 : premier appareil commercialisé de reconnaissance de mots 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM 1978 : commercialisation d’un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés
8
Historique 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration) spécifiques du traitement de la parole 1981 : système de reconnaissance de mots sur un circuit VLSI 1983 : première mondiale de commande vocale à bord d’un avion de chasse en France 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel
9
Historique 1988 : apparition des premières machines à dicter par mots isolés 1989 : recrudescence des modèles connexionnistes neuromimétiques 1990 : premières véritables applications de dialogue oral homme-machine 1994 : IBM lance son premier système de reconnaissance vocale sur PC 1997 : lancement de la dictée vocale en continu par IBM
10
Quelques segments d’un signal
11
Quelques propriétés du signal de parole
La parole est quasi-stationnaire La parole est 70% du temps (pseudo-)périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée ( Hz essentiellement)
12
Fonctionnement acoustique de l’appareil vocal
Système acoustique = excitateur + résonateur Trois modes de fonctionnement Excitation glottique du conduit vocal Excitation du conduit vocal en un point de constriction par un bruit d’écoulement Excitation du conduit vocal par une impulsion acoustique
13
Les organes de la parole
14
Qu’est-ce qu’un son ? Son = phénomène vibratoire qui se propagent à une certaine vitesse dans un milieu élastique (en général l’air). son = bruit onde sonore apériodique vibrations non périodiques CONSONNES périodique vibrations périodiques se répètent de façon identique dans le temps VOYELLES impulsionnelle OCCLUSIVES continue FRICATIVES
15
Transcription phonétique du français
16
Classes majeures de sons (1)
CONSONNES : occlusives (ou plosives) vs. fricatives (ou constrictives) liquides (latérale ou vibrante) & nasales (1) MODE D’ARTICULATION (i.e. selon que le son est produit par la fermeture momentanée ou par le rétrécissement du conduit vocal) OCCLUSIVES = l’air qui provient des poumons est bloqué dans les cavités supra-glottiques (moment de l’occlusion), avant d’être brutalement expulsé (moment de l’explosion) FRICATIVES = l’air qui provient des poumons est engagé dans un conduit (selon la localisation vocal rétréci ( fermé) (2) LIEU D’ARTICULATION des articulateurs, notamment de la langue) 7 lieux possibles : labial – dental – alvéolaire – palatale – vélaire – uvulaire - pharyngal
17
Classes majeures de sons (2)
VOYELLES : résultent du libre passage du flux laryngé dans les cavités supra-glottiques théorie de la source (flux laryngé) & du filtre (résonateurs cavités supra-glottiques). Voyelles orales ou nasales (mode d’articulation) Voyelles antérieures vs. postérieures (lieu d’articulation) Voyelles ouvertes vs. fermées (degré d’aperture) timbre
18
Phonétique acoustique
Echelle de fréquences correspondant aux sons de parole : de 16 à Hz 16 kHz Plus la fréquence est élevée plus le son est aigu amplitude = intensité pression fréquence = nbr. d’oscillations / sec.
19
Analyse spectrale Analyse tri-dimensionnelle montrant la configuration fréquentielle d’un son (ou d’une séquence de sons) dans le temps spectrogramme ou sonagramme de l’acoustique au visuel Formant = zone de fréquences de plus grande intensité (varient en fonction des sons) F1 : axe ouvert ~ fermé F2 : avant ~ arrière F3 : étiré ~ arrondi
20
Analyse spectrale amplitude degré de noirceur fréquences (Hz)
Temps (ms) amplitude degré de noirceur fréquences (Hz) F1 F2 F3
21
Caractéristiques acoustiques des consonnes occlusives zones de plus grande intensité pour
22
Caractéristiques acoustiques des consonnes fricatives zones de plus grande intensité
23
Caractéristiques acoustiques des segments vocaliques & valeurs formantiques moyennes
F1 F F3 fréquences (Hz)
24
Liquides & Vibrantes cf. présence de transitions formantiques voyelles
25
Nasales Présence d’anti-formants (correspondant au résonateur nasal)
26
Les cas particuliers : les semi-voyelles
transitions formantiques dynamiques
27
Transcription phonétique du français
28
Description acoustique de la parole
29
Voyelles orales françaises
30
Triangle vocalique
31
Représentation acoustique (ex. 1
32
Représentation acoustique (ex. 2)
33
Les limites de l’oreille
L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.