Le cahier de charge d'un système de RAP

Slides:



Advertisements
Présentations similaires
Bratec Martin ..
Advertisements

NOTIFICATION ÉLECTRONIQUE
Fragilité : une notion fragile ?
SEMINAIRE DU 10 AVRIL 2010 programmation du futur Hôtel de Ville
Phono-sémantique différentielle des monosyllabes italiens
MAGGIO 1967 BOLOGNA - CERVIA ANOMALIES DU SOMMEIL CHEZ L'HOMME
droit + pub = ? vincent gautrais professeur agrégé – avocat
Transcription de la présentation:

Le cahier de charge d'un système de RAP Afin de concevoir un système de reconnaissance automatique de la parole (RAP) aussi correct que possible, il convient: d'une part de comprendre en quoi le signal de parole est réellement complexe, c'est à dire connaître l'objet ou l'observation d'entrée, d'autre part de définir correctement la tâche du système, c'est à dire les contraintes imposées et les performances attendues.

Complexité du signal de parole Redondance Influence de l'environnement Influence du locuteur Influence du contexte

Redondance Le signal acoustique est très redondant, il faut donc un traitement préalable, avant toute tentative de reconnaissance, pour extraire l'information pertinente sans la dégrader. on cherche une représentation plus compacte du signal, à l'aide de paramètres résultant d'une analyse spectrale ou auto-régressive.

Influence de l'environnement Parmi les facteurs de variabilité liés à l'environnement on peut citer : - l'acoustique de la pièce, - la présence de bruit, - la qualité de l'équipement ( la ligne téléphonique et /ou du microphone ) et la position de ce dernier par rapport au locuteur

Influence du locuteur On distingue deux sources de variabilités : - la variabilité inter locuteur observable lors d'un changement de locuteur, - la variabilité intra locuteur :

la variabilité inter locuteur ces variabilités sont liées, aux caractéristiques suivantes : • age et sexe : l'appareil phonatoire dépend des différences physiologiques entre locuteurs, qui se traduisent par une production acoustique différente (les voix d'hommes, de femmes et d'enfants). accent : dans chaque pays on peut remarquer la présence d'accents régionaux. vitesse d'élocution : elle caractérise la vitesse à laquelle une personne parle. articulation : elle caractérise la prononciation correcte des sons. des facteurs extra-linguistiques, par exemple l'attitude du locuteur à l'égard du message ( le doute, l'ironie, la conviction,...).

la variabilité intra locuteur : on observe des modifications du signal de parole, même en se restreignant à un seul locuteur : les conditions psychologiques (stress, émotion) ou physiques (fatigue, rhume) modifient les propriétés prosodiques et spectrales du signal acoustique.

Influence du contexte La réalisation acoustique d'un son (phonème, mot,...) dépend de son environnement immédiat : les sons qui précèdent et ceux qui suivent influent fortement la production d'un son en raison de l'anticipation ou la rétention du geste articulatoire. Il s'en suit que la forme acoustique d'un son, et plus particulièrement ses zones transitoires sont dépendantes des traits articulatoires des sons adjacents, c'est le phénomène de coarticulation

Difficultés liées à l'application considérée Selon les critères et le mode de fonctionnement que doit satisfaire un système de reconnaissance, différents facteurs de complexité sont en jeu. Citons les plus importants : indépendance ou dépendance du locuteur, mots isolés ou parole continue, vocabulaire, syntaxe du langage,

Indépendance ou dépendance du locuteur - monolocuteur : le système de reconnaissance est adapté à la voix d'un seul locuteur. - multilocuteur : plusieurs locuteurs peuvent utiliser le système de reconnaissance, mais ils sont connus dès l'apprentissage. - indépendant du locuteur : n'importe quel locuteur peut utiliser le système de reconnaissance.

Mots isolés ou parole continue Mots isolés : chaque mot est prononcé en marquant des pauses, le mode d'élocution dit "mots isolés", réduit la complexité du problème : les frontières entre les mots sont données et les problèmes de coarticulation inter-mots (liaisons) éliminés. Parole continue, les variations contextuelles sont plus importantes. Les systèmes de reconnaissance de parole continue intègre un modèle de langage pour estimer la probabilité qu'une suite de mots soit prononcée. La difficulté d'un langage est fonction du nombre de mots possibles à chaque étape de la reconnaissance.

Vocabulaire Le vocabulaire est l'ensemble des mots que le système est capable de reconnaître. Il est caractérisé par sa taille et sa nature : - la taille peut varier d'une dizaine de mots à plusieurs dizaines de milliers de mots. Un système conçu pour un vocabulaire restreint sera très performant par rapport à un système conçu pour un vocabulaire très étendu, dans ce dernier cas, le système aura plus de références à gérer et il aura aussi plus de comparaisons à faire. - si les mots constituant le vocabulaire sont phonétiquement très proches, il sera beaucoup plus difficile de les distinguer les uns des autres que s'ils sont différents, même si la taille du vocabulaire est très restreinte. Observons aussi que pour des mots très courts, le risque d'erreurs lors de la comparaison est grand.

Syntaxe du langage Elle spécifie les contraintes à respecter par les suites de mots prononcées. La prise en compte de la structure syntaxique du langage à reconnaître permet de limiter à chaque instant le nombre de mots au sous-ensemble de mots syntaxiquement corrects. La syntaxe peut être, inexistante dans ce cas tout mot est candidat après n'importe quel autre, comme elle peut être trop rigide, dans ce cas, aux erreurs de reconnaissance s'ajoutent les erreurs dûes au non respect de la syntaxe. Certains syntaxes sont naturelles comme celle qui régit les nombres, d'autres sont créées spécifiquement pour une application donnée.

Approches en reconnaissance automatique de la parole L'objectif d'un système de RAP est d'identifier, à partir de l'onde vocale, le message linguistique sous-jacent. Dans un système de RAP on peut distinguer deux parties : - un module analyse acoustique, appelé aussi paramétrisation. Son rôle consiste à extraire du signal de parole une suite de vecteurs d'observations qui contiennent les informations caractéristiques et pertinentes du signal, tout en éliminant la redondance. - un module décodage des informations son rôle est la comparaison des informations, issues de l'analyse acoustique, aux informations de référence pour déterminer ensuite la phrase prononcée.

Système de reconnaissance de la parole

Analyse acoustique Le signal de parole présente, dans le domaine temporel, une redondance qui rend indispensable un traitement préalable à toute tentative de reconnaissance. Les méthodes d'analyse acoustique se décomposent en trois étapes : Un filtrage analogique en sortie du microphone Une conversion analogique/numérique Un calcul des coefficients

Filtrage analogique Comme l'information acoustique pertinente du signal de parole se situe principalement dans la bande passante [50 Hz, 8 kHz], ce filtrage élimine tous les composants du signal en dehors de cette bande passante.

Echantillonnage Si on note par x(t) un signal continu, l’échantillonnage de x(t) est l’application qui fait correspondre au signal x(t) un signal discret ou numérisé (x1, x2,...,xn,...) avec xn=x(tn) .

Conversion analogique/numérique La fréquence d'échantillonnage doit être égale, d'après le théorème de Shannon, au moins au double de la fréquence la plus élevée de la bande passante. Les fréquences utilisées en général sont 8 kHz si la parole est enregistrée à travers une ligne téléphonique, car la bande passante est [50 Hz, 3.3 kHz], ou 16 kHz si la parole est enregistrée au laboratoire avec une bande passante [50 Hz, 8 kHz].

Un calcul des coefficients Une fois le signal de parole échantillonné et numérisé les méthodes d’analyses acoustiques le traitent par bloc d’échantillons de longueur fixe (20 à 40 ms); il y a recouvrement entre les blocs successifs traités. En sortie de l'analyse acoustique, le signal est représenté par une suite d'observations, chaque observation est un vecteur de coefficients acoustiques associés à la trame paramétrisée ou trame acoustique.

Fenêtrage

Analyse acoustique du signal de parole

Différents niveaux de paramétrisation Niveau mot Niveau phonétique Niveau acoustique

Paramètres prosodiques la « musique » de la parole. Ils sont constitués de la hauteur de la voix (mesurée à l’aide de la fréquence fondamentale), de l’intensité de la voix (mesurée par l’énergie du signal de parole), le rythme de la voix (représenté à l’aide de paramètres de durées)

Quelques définitions Fréquence fondamentale: la fréquence des cordes vocales Energie Formants: fréquence de résonnance du conduit vocal Taux de passage par zéro:

Paramétrisation au niveau mot Durée du mot Energie du mot

Paramétrisation au niveau phonétique Durée du phonème Energie du phonème Taux de passage par zéro Fréquence fondamentale du phonème Formants …

Durée du phonème Parmi les facteurs de variabilité de la durée d'un phonème, on peut citer : le type de la parole dont il est extrait : parole spontanée/lue, continue/mot isolé, la vitesse d'élocution, le mot, la phrase contenant le phonème : les durées des phonèmes diminuent si le nombre de syllabes augmente, la durée dépend aussi de la position du phonème dans le mot (début, fin de mot), les phonèmes adjacents,

Energie du signal L’énergie correspond à la puissance du signal. Elle est souvent évaluée sur plusieurs trames de signal successives pour pouvoir mettre en évidence des variations. La formule de calcul de ce paramètre est : E(fenêtre)     Energie d’un phonème

Paramétrisation au niveau acoustique MFCCs LPCCs Energie …

Méthodes d'analyse acoustique Il existe trois types de méthodes d'analyse acoustique utilisées dans des systèmes de reconnaissance de la parole : les méthodes basées sur des modèles d'audition et de perception comme certains vocodeurs à canaux. les méthodes non paramétriques comme l'analyse par la transformée de Fourier. les méthodes paramétriques basées sur un modèle simple de production de la parole (source/conduit).

Les modèles de perception le principe de ces modèles consiste à définir des bandes critiques de perception, correspondant à la distribution fréquentielle de l'oreille humaine. Les coefficients sont les énergies en sorties d'un banc de filtre calibré à partir de ces résultats. Dans les systèmes de RAP traditionnels, les modèles de perception restent peu utilisés.

schéma général d'un vocodeur L'estimation du spectre est donnée par la suite des valeurs w1… wn , correspondant aux énergies sortant à un instant donné des n canaux du vocodeur.

méthodes non paramétriques La principale technique est basée sur l'analyse par la transformé de Fourier discrète, implémentée grâce à son algorithme de calcul rapide, à savoir la FFT ( Fast Fourier Transform), permet d'obtenir des spectres en temps réel. L'analyse par FFT se fait en trois étapes : - Un filtre de pré-accentuation est appliqué afin d'égaliser les aigus toujours plus faibles que les graves en énergie. - Un fenêtrage de type Hamming est effectué sur chaque bloc d'analyse pour limiter les effets de bords lors du calcul du spectre. - Une FFT est calculée ; l'expérience a montré que la phase de la transformée de Fourier numérique du signal ne contient pas d'information pertinente pour la reconnaissance de la parole, on ne retient donc que son module que l'on appelle spectre d'amplitude.