La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Traitement automatique de la langue

Présentations similaires


Présentation au sujet: "Traitement automatique de la langue"— Transcription de la présentation:

1 Traitement automatique de la langue
DESA ANITS Année scolaire 05/06

2 Plan du cours Initiation à la parole
Bases en traitement du signal de parole  Modélisation statistique pour le traitement automatique de la parole Méthodes d’évaluation Axes de recherche en traitement automatique de la parole Synthèse de la parole traitement automatique des textes écrits

3 Objectifs : Les technologies vocales ont connu, ces dernières années, un très important développement : d’une part, il est maintenant reconnu que la parole, moyen le plus naturel de commnunication entre hommes, doit être considérée comme un moyen de communication homme-machine privilégié. d’autre part, les systèmes automatiques, qu’il s’agisse de systèmes de reconnaissance de parole ou de synthèse de parole, ou de traitement de textes ont acquis des performances suffisantes pour envisager leur intégration dans des systèmes interactifs.

4 Objectifs  Le traitement automatique de la parole est un domaine de recherche pluridisciplinaire : Il utilise des notions empruntées au traitement de signal, à la linguistique ( phonétique, phonologie,…), à la statistique et à l’informatique. Il reste que nombre de problèmes restent ouverts : parole spontanée, parole naturelle, recherche d’informations dans des documents sonores…), l’identification de (locuteur, langue), commandes vocales en milieu bruité,… et la recherche peut y trouver nombre d’études.

5 Objectifs  Ce cours a pour but de donner les fondements théoriques du traitement automatique de la parole. Les bases théoriques de la reconnaissance de la parole. La présentation de l’état de l’art dans ce domaine permettra de comprendre les limites scientifiques et de mettre en évidence les problèmes actuels.

6 Historique On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole : 1952 : reconnaissance des 10 chiffres, pour un monolocuteur , par un dispositif électronique câblé 1960 : utilisation des méthodes numériques 1965 : reconnaissance de phonèmes en parole continue 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu’à 500 mots) 1969 : utilisation d’informations linguistiques

7 Historique 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables 1972 : premier appareil commercialisé de reconnaissance de mots 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM 1978 : commercialisation d’un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés

8 Historique 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration) spécifiques du traitement de la parole 1981 : système de reconnaissance de mots sur un circuit VLSI 1983 : première mondiale de commande vocale à bord d’un avion de chasse en France 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel

9 Historique 1988 : apparition des premières machines à dicter par mots isolés 1989 : recrudescence des modèles connexionnistes neuromimétiques 1990 : premières véritables applications de dialogue oral homme-machine 1994 : IBM lance son premier système de reconnaissance vocale sur PC 1997 : lancement de la dictée vocale en continu par IBM 

10 Quelques segments d’un signal

11 Quelques propriétés du signal de parole
La parole est quasi-stationnaire La parole est 70% du temps (pseudo-)périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée ( Hz essentiellement)

12 Fonctionnement acoustique de l’appareil vocal
Système acoustique = excitateur + résonateur Trois modes de fonctionnement Excitation glottique du conduit vocal Excitation du conduit vocal en un point de constriction par un bruit d’écoulement Excitation du conduit vocal par une impulsion acoustique

13 Les organes de la parole

14 Qu’est-ce qu’un son ? Son = phénomène vibratoire qui se propagent à une certaine vitesse dans un milieu élastique (en général l’air). son = bruit  onde sonore apériodique  vibrations non périodiques CONSONNES périodique  vibrations périodiques se répètent de façon identique dans le temps VOYELLES impulsionnelle OCCLUSIVES continue FRICATIVES

15 Transcription phonétique du français

16 Classes majeures de sons (1)
CONSONNES : occlusives (ou plosives) vs. fricatives (ou constrictives) liquides (latérale ou vibrante) & nasales (1) MODE D’ARTICULATION (i.e. selon que le son est produit par la fermeture momentanée ou par le rétrécissement du conduit vocal)  OCCLUSIVES = l’air qui provient des poumons est bloqué dans les cavités supra-glottiques (moment de l’occlusion), avant d’être brutalement expulsé (moment de l’explosion) FRICATIVES = l’air qui provient des poumons est engagé dans un conduit (selon la localisation vocal rétréci ( fermé) (2) LIEU D’ARTICULATION des articulateurs, notamment de la langue) 7 lieux possibles : labial – dental – alvéolaire – palatale – vélaire – uvulaire - pharyngal

17 Classes majeures de sons (2)
VOYELLES : résultent du libre passage du flux laryngé dans les cavités supra-glottiques  théorie de la source (flux laryngé) & du filtre (résonateurs  cavités supra-glottiques). Voyelles orales ou nasales (mode d’articulation) Voyelles antérieures vs. postérieures (lieu d’articulation) Voyelles ouvertes vs. fermées (degré d’aperture) timbre

18 Phonétique acoustique
Echelle de fréquences correspondant aux sons de parole : de 16 à Hz  16 kHz Plus la fréquence est élevée plus le son est aigu amplitude = intensité pression fréquence = nbr. d’oscillations / sec.

19 Analyse spectrale Analyse tri-dimensionnelle montrant la configuration fréquentielle d’un son (ou d’une séquence de sons) dans le temps  spectrogramme ou sonagramme  de l’acoustique au visuel Formant = zone de fréquences de plus grande intensité (varient en fonction des sons) F1 : axe ouvert ~ fermé F2 : avant ~ arrière F3 : étiré ~ arrondi

20 Analyse spectrale  amplitude  degré de noirceur fréquences (Hz)
Temps (ms) amplitude  degré de noirceur fréquences (Hz) F1 F2 F3

21 Caractéristiques acoustiques des consonnes occlusives  zones de plus grande intensité pour

22 Caractéristiques acoustiques des consonnes fricatives  zones de plus grande intensité

23 Caractéristiques acoustiques des segments vocaliques & valeurs formantiques moyennes
F1 F F3 fréquences (Hz)

24 Liquides & Vibrantes  cf. présence de transitions formantiques  voyelles

25 Nasales Présence d’anti-formants (correspondant au résonateur nasal)

26 Les cas particuliers : les semi-voyelles
 transitions formantiques dynamiques

27 Transcription phonétique du français

28 Description acoustique de la parole

29 Voyelles orales françaises

30 Triangle vocalique

31 Représentation acoustique (ex. 1

32 Représentation acoustique (ex. 2)

33 Les limites de l’oreille
L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée

34

35


Télécharger ppt "Traitement automatique de la langue"

Présentations similaires


Annonces Google