La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

S.S.I., ESSI1, dimanche 9 mai 2004 Page 1 Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni.

Présentations similaires


Présentation au sujet: "S.S.I., ESSI1, dimanche 9 mai 2004 Page 1 Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni."— Transcription de la présentation:

1

2 S.S.I., ESSI1, dimanche 9 mai 2004 Page 1 Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni Contenu de la séance :  Le langage parlé est constitué de phonèmes  Il y a des phonèmes voisés et des phonèmes non voisés,  Les phonèmes voisés sont quasi-périodiques et leur spectre présente des résonances et des anti résonances  L’analyse du signal vocal avec la FFT impose des durées allant de 10 à 30 milliseconde, ce qui limite la résolution  La technique des fenêtres OLA permet d’enchainer les phonèmes et de créer l’intonation de la voix ou prosodie 1.Le traitement de la parole, M. Kunt, R. Boite, Presses Polytechniques Romandes, 1987 2.Introduction au traitement automatique de la parole, Thierry Dutoit, Faculté Polytechnique de Mons, 2000 3.http://tcts.fpms.ac.be/, en plus du cours précédent, ce site contient de nombreuses adresses utiles et intéressantes.http://tcts.fpms.ac.be/ Références utilisées :

3 S.S.I., ESSI1, dimanche 9 mai 2004 Page 2 Le langage parlé se compose de phonèmes Pour lire à voix haute un texte ou une chaîne de caractères, un ordinateur devra enchaîner des phonèmes, et leur donner une intonation.  la langue française contient 37 phonèmes, la langue anglaise plus de 40 phonèmes, …  Avec l’alphabet phonétique SAMPA (utilisé par MBROLA), écrire le mot ‘bonjour’ phonétiquement : SAMPAEXAMPLES iidiot, ami eému, été Eperdu, maison aalarme, patte Abâton, patte Oobstacle, corps oauditeur, beau ucoupable, loup ypunir, élu 2creuser, deux 9malheureux, peur @petite, fortement e~peinture, matin a~vantardise, temps o~rondeur, bon 9~lundi, brun jpiétiner, choyer wquoi, fouine Hhuile, nuage Note: 'h' (halte,hop) is not defined. SAMPAEXAMPLES Hhuile, nuage ppatte, repas, cap ttête, net kcarte, écaille, bec bbête, habile, robe ddire, rondeur, chaud ggauche, égal, bague ffeu, affiche, chef ssoeur, assez, passe Schanter, machine, poche vvent, inventer, rêve zzéro, raisonner, rose Zjardin, manger, piège llong, élire, bal Rrond, charriot, sentir mmadame, aimer, pomme nnous, punir, bonne N ping, pong _(silence marker)

4 S.S.I., ESSI1, dimanche 9 mai 2004 Page 3 Dans le signal de parole, on différencie des phonèmes voisés et des phonèmes non voisés  Les phonèmes voisés sont quasi périodiques, au contraire des phonèmes non voisés on trouve ces deux types dans le diagramme ci-dessus.  En réalité, les phonèmes non voisés n’utilisent pas les cordes vocales, comme quand on siffle et qu’on utilise la bouche comme une cavité résonante :  C’est le cas de certains phonèmes, ‘s’ et ‘f’ entre autres,  C’est aussi le cas quand on chuchote.

5 S.S.I., ESSI1, dimanche 9 mai 2004 Page 4 Le spectre d’un signal voisé présente des résonances et des antirésonances.  quasi périodicité ou pitch de période P (seconde) et de fréquence F0=1/P (Hz)  durée d’analyse limitée à 10ms à 30 ms (le spectre du signal vocal est non stationnaire)  formants F0, F1, F2 et éventuellement F3.  spectre constitué d’harmoniques de F0 = 1/P modulés par les résonances et les anti résonances de l’appareil phonatoire

6 S.S.I., ESSI1, dimanche 9 mai 2004 Page 5 La position relative des formants est un moyen de différencier les phonèmes voisés

7 S.S.I., ESSI1, dimanche 9 mai 2004 Page 6 On peut distinguer phonèmes voisés et phonèmes non voisés avec le spectre Pourquoi utiliser un filtre préaccentuateur ?

8 S.S.I., ESSI1, dimanche 9 mai 2004 Page 7 Pour analyser un signal vocal avec la FFT, il faut respecter un ensemble de contraintes  Le spectre est périodique, de période fe  On découpe une fenêtre d’analyse de durée D=N/fe ou de N points  Le nombre de points N limite la résolution fe/N de la FFT (largeur des lo- bes de la FFT)  Exemple: pour 10ms de signal vocal et pour fe=8kHz, on a N=80 et fe/N=100Hz  Spectre à bande étroite : pour D=30ms, la résolution devient 33,3Hz

9 S.S.I., ESSI1, dimanche 9 mai 2004 Page 8 Lire une phrase, c’est (1) enchaîner des phonèmes et (2) y ajouter une intonation  Pour lire à voix haute un texte écrit, il ne suffit pas de le traduire en phonèmes et de synthétiser les sons associés aux phonèmes, il faut en plus :  enchaîner les phonèmes de manière fluide  y ajouter une intonation, ou prosodie pour éviter la ‘voix du robot’.  Enchaîner les phonèmes à la manière fluide d’un locuteur humain est un problème trop difficile, on enregistre plutôt des diphones :  un diphone est la liaison de deux phonè- mes voisins ; par exemple, voici les cinq diphones du mot ‘salut’ : _s + sa + al + lu + u_ ( _ est le silence)  mais le nombre de diphones possibles avec 38 phonèmes est 38 2 (plus important).  Créer la prosodie, c’est moduler le pitch P au cours du temps, selon la ponctuation par exemple,  en augmentant F0 pour une interrogation ou une virgule (la voix devient plus aigüe)  en diminuant F0 pour un point final (c’est- à-dire que la voix devient plus grave).

10 S.S.I., ESSI1, dimanche 9 mai 2004 Page 9 La technique des fenêtres OLA permet à la fois d’enchaîner les phonèmes et de créer la prosodie  OLA (pour OverLap and Add) est utilisée entre autres dans MBROLA.  on enregistre un locuteur (homme, femme, français, anglais, …) dont on isole les diphones.  on découpe les diphones au moyen de fenêtres de durée 2*P entrelacées (voir ci-dessous),  on constitue ensuite les sons par addition de ces fenêtres entrelacées pour obtenir la fusion des diphones  en faisant varier l’intervalle de temps entre les fenêtres, on fait varier P et on crée facilement la prosodie

11 S.S.I., ESSI1, dimanche 9 mai 2004 Page 10 Voici comment MBROLA code la prosodie La syntaxe d’une ligne suit le schéma suivant phonème durée [%durée F0] n fois Les variations de la fréquence F0=1/P où P est le pitch sont linéaires. Ainsi : u 96 29 123 81 128 spécifie une durée de 96 ms, et à 29% de la durée, on a F0=123Hz, à 81% de la durée, on aura F0 = 128Hz

12 S.S.I., ESSI1, dimanche 9 mai 2004 Page 11 Le fonctionnement de l’appareil phonatoire explique les caractéristiques du signal vocal Les observations précédentes conduisent à modé- liser la phonation par le filtre 1/A(z) ci-dessous dont l’entrée est soit : 1. une suite d’impulsions périodiques (cas voisé) 2. un bruit blanc (cas non voisé)

13 S.S.I., ESSI1, dimanche 9 mai 2004 Page 12 La fréquence d’échantillonnage fe doit être choisie en fonction de l’appareil auditif  Définition du son en décibel, on convient que le 0dB est le seuil d’audition 10 -12 W/m 2  Quelles sont les limites de l’audition ?  Quelle est la zone de fréquence la plus audible ?  Quel est le seuil de dou- leur, volume sonore insupportable ?

14 S.S.I., ESSI1, dimanche 9 mai 2004 Page 13 Étapes de conversion texte parole

15 S.S.I., ESSI1, dimanche 9 mai 2004 Page 14 Loi de répartition du signal vocal


Télécharger ppt "S.S.I., ESSI1, dimanche 9 mai 2004 Page 1 Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni."

Présentations similaires


Annonces Google