S.S.I., ESSI1, dimanche 9 mai 2004 Page 1 Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni.

Slides:



Advertisements
Présentations similaires
LANGUES VIVANTES à l’Ecole Primaire
Advertisements

La recherche documentaire
Synthèse de parole MBROLA The aim of the MBROLA project, initiated by the TCTS Lab of the Faculté Polytechnique de Mons (Belgium), is to obtain a set of.
1 Jean-Paul Stromboni, mars 2005, Révision des cinq premières séances S.S.I. Jean-Paul Stromboni, mars 2005, ESSI1 Elève : ______________________ groupe.
S.S.I., ESSI1, lundi 9 mai 2005 Page 1 Comment compresser avec le spectre Séance 10, 1 heure Version : lundi 9 mai 2005 Auteur : Jean-Paul Stromboni Contenu.
S.S.I., ESSI1, samedi 10 avril 2004 Page 1 Comment tailler les filtres sur mesure Séance 8, nouvelle application des filtres, 1 heure Version : samedi.
Comment calculer le spectre d’un signal audio
Cours 5 – Comment bien échantillonner le signal audio
Comment décimer les sons numériques
1 Jean-Paul Stromboni, octobre 2007, SI3 Réviser le devoir surveillé n°1 du cours S.S.I.I. Jean-Paul Stromboni, octobre 2007, SI3 Elève : ______________________.
Calcul de la composition fréquentielle du signal audio
1 Jean-Paul Stromboni, mars 2005, Révision des cinq premières séances S.S.I. Jean-Paul Stromboni, mars 2005, ESSI1 Elève : ______________________ groupe.
Les étapes de conception d’un site web
Technologie des équipements
Le publipostage La fonction de fusion permet de créer des documents identiques dans les grandes lignes que l’on personnalise automatiquement à chaque destinataires.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Comment créer des filtres « simples »
Cours S.S.I., SI1, avril 2007 – Comment utiliser les outils déjà présentés. Page 1 Comment utiliser les outils déjà présentés dans le cours S.S.I. et pourquoi.
Traitement Automatique de la Langue:
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
S.S.I.I., , n°7 : Construire et utiliser un banc de filtres Page 1 Construire et utiliser un banc de filtres pour analyser le spectre dun signal.
SSII : séance finale , lundi 9/01/2012 Page 1 Voici quelques questions pour assimiler la seconde partie du cours S.S.I.I., spectre, filtrage, banc.
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Traitement du signal TD0 : Introduction.
Le cahier de charge d'un système de RAP
Amplification par détection synchrone
1 par Jean-Paul Stromboni, octobre 2008 Un autobilan pour réviser le devoir surveillé n°1 du cours S.S.I.I., par Jean-Paul Stromboni, octobre 2008 Elève.
1 Jean-Paul Stromboni, octobre 2007, SI3 Réviser le devoir surveillé n°1 du cours S.S.I.I. Jean-Paul Stromboni, octobre 2007, SI3 Elève : ______________________.
Conscience phonologique
S.S.I., ESSI1, le 8 février 2004 Page 1 Numériser le signal audio Séance 2, cours, 1 heure auteur : Jean-Paul Stromboni Idées clefs de la séance De nombreuses.
1 Introduction au module S.S.I. Signaux et Systèmes pour lInformatique le thème et les motivations du module S.S.I. les connaissances et le savoir faire.
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
Jeopardy $100 ArticulationVoyelles 1Voyelles 2Acoustique 1Acoustique 2 $200 $300 $400 $500 $400 $300 $200 $100 $500 $400 $300 $200 $100 $500 $400 $300.
Consonnes Transcription Norme et variation Mécanique phonatoire
L'audition.
‘The Voice Company’ Du texte à la Parole
Intensité – Ondes sonores
Excel (Partie 2).
LANGUE ET COMMUNICATION
- Allez sur Google et tapez ``SKYPE`` dans la zone de recherche
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Jeopardy L’amplitudeLa fréquenceLe corpsLes usages Méli-mélo 100 $ 200 $ 300 $ 400 $ 500 $ 100 $ 200 $ 300 $ 400 $ 500 $ Jeopardy Final.
Allez sur Bonjour! Je vous présente class dojo, un site qui permet une gestion de classe plus facile et surtout beaucoup.
Caractéristiques des sons
1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.
Polices de caractère Un seul caractère sauf pour les titres
Juillet 2001  Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
GEORGETA BĂDĂU CRÉATION ET GESTION D’UN BLOG AVEC LA PLATE-FORME LEWEBPEDAGOGIQUE.COM Séance no.2.
Presented by Initiation à un logiciel de courriel en ligne (Laposte.net) Niveau 2.
Activités langagières Les questions à se poser. ACTIVITÉS LANGAGIÈRES DE COMMUNICATION: PRODUCTION ORALE EN CONTINU 2 Dote-t-on l’élève de stratégies.
Retour sur les filtres et bancs de filtres Jean-Paul Stromboni, décembre 2007.
S.S.I.I., , cours n°9 : Compresser avec un banc de filtres Page 1 Compresser avec un banc de filtres Contenu de cette séance : T.D. n° 9 : application.
Calcul de la composition fréquentielle du signal audio
1 23 mars 2004, Jean-Paul Stromboni Signaux et Systèmes pour l’Informaticien Bilan essais erreurs des six premières séances Module SSI d’ESSI 1– 23 mars.
MAITRISE DE LA LANGUE FRANCAISE A LA MATERNELLE
La Prononciation LA PHONÉTIQUE.
Chapitre 3 suite Acoustique musicale
Emetteurs et récepteurs sonores c-Caractéristiques et traitement du son.
Acoustique musicale.
SSII, séance n°13, bilan du cours 15 décembre 2015 Dernière séance 2015 Résumé des chapitres et notions abordées en 2015.
Les ondes.
Comment mon Iphone peut-il reconnaître mes paroles?
MOT DE PASSE SECURITAIRE
Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.
CONVERTISSEURS AN et NA. CONVERSION ANALOGIQUE/NUMERIQUE.
Transcription de la présentation:

S.S.I., ESSI1, dimanche 9 mai 2004 Page 1 Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni Contenu de la séance :  Le langage parlé est constitué de phonèmes  Il y a des phonèmes voisés et des phonèmes non voisés,  Les phonèmes voisés sont quasi-périodiques et leur spectre présente des résonances et des anti résonances  L’analyse du signal vocal avec la FFT impose des durées allant de 10 à 30 milliseconde, ce qui limite la résolution  La technique des fenêtres OLA permet d’enchainer les phonèmes et de créer l’intonation de la voix ou prosodie 1.Le traitement de la parole, M. Kunt, R. Boite, Presses Polytechniques Romandes, Introduction au traitement automatique de la parole, Thierry Dutoit, Faculté Polytechnique de Mons, en plus du cours précédent, ce site contient de nombreuses adresses utiles et intéressantes. Références utilisées :

S.S.I., ESSI1, dimanche 9 mai 2004 Page 2 Le langage parlé se compose de phonèmes Pour lire à voix haute un texte ou une chaîne de caractères, un ordinateur devra enchaîner des phonèmes, et leur donner une intonation.  la langue française contient 37 phonèmes, la langue anglaise plus de 40 phonèmes, …  Avec l’alphabet phonétique SAMPA (utilisé par MBROLA), écrire le mot ‘bonjour’ phonétiquement : SAMPAEXAMPLES iidiot, ami eému, été Eperdu, maison aalarme, patte Abâton, patte Oobstacle, corps oauditeur, beau ucoupable, loup ypunir, élu 2creuser, deux 9malheureux, fortement e~peinture, matin a~vantardise, temps o~rondeur, bon 9~lundi, brun jpiétiner, choyer wquoi, fouine Hhuile, nuage Note: 'h' (halte,hop) is not defined. SAMPAEXAMPLES Hhuile, nuage ppatte, repas, cap ttête, net kcarte, écaille, bec bbête, habile, robe ddire, rondeur, chaud ggauche, égal, bague ffeu, affiche, chef ssoeur, assez, passe Schanter, machine, poche vvent, inventer, rêve zzéro, raisonner, rose Zjardin, manger, piège llong, élire, bal Rrond, charriot, sentir mmadame, aimer, pomme nnous, punir, bonne N ping, pong _(silence marker)

S.S.I., ESSI1, dimanche 9 mai 2004 Page 3 Dans le signal de parole, on différencie des phonèmes voisés et des phonèmes non voisés  Les phonèmes voisés sont quasi périodiques, au contraire des phonèmes non voisés on trouve ces deux types dans le diagramme ci-dessus.  En réalité, les phonèmes non voisés n’utilisent pas les cordes vocales, comme quand on siffle et qu’on utilise la bouche comme une cavité résonante :  C’est le cas de certains phonèmes, ‘s’ et ‘f’ entre autres,  C’est aussi le cas quand on chuchote.

S.S.I., ESSI1, dimanche 9 mai 2004 Page 4 Le spectre d’un signal voisé présente des résonances et des antirésonances.  quasi périodicité ou pitch de période P (seconde) et de fréquence F0=1/P (Hz)  durée d’analyse limitée à 10ms à 30 ms (le spectre du signal vocal est non stationnaire)  formants F0, F1, F2 et éventuellement F3.  spectre constitué d’harmoniques de F0 = 1/P modulés par les résonances et les anti résonances de l’appareil phonatoire

S.S.I., ESSI1, dimanche 9 mai 2004 Page 5 La position relative des formants est un moyen de différencier les phonèmes voisés

S.S.I., ESSI1, dimanche 9 mai 2004 Page 6 On peut distinguer phonèmes voisés et phonèmes non voisés avec le spectre Pourquoi utiliser un filtre préaccentuateur ?

S.S.I., ESSI1, dimanche 9 mai 2004 Page 7 Pour analyser un signal vocal avec la FFT, il faut respecter un ensemble de contraintes  Le spectre est périodique, de période fe  On découpe une fenêtre d’analyse de durée D=N/fe ou de N points  Le nombre de points N limite la résolution fe/N de la FFT (largeur des lo- bes de la FFT)  Exemple: pour 10ms de signal vocal et pour fe=8kHz, on a N=80 et fe/N=100Hz  Spectre à bande étroite : pour D=30ms, la résolution devient 33,3Hz

S.S.I., ESSI1, dimanche 9 mai 2004 Page 8 Lire une phrase, c’est (1) enchaîner des phonèmes et (2) y ajouter une intonation  Pour lire à voix haute un texte écrit, il ne suffit pas de le traduire en phonèmes et de synthétiser les sons associés aux phonèmes, il faut en plus :  enchaîner les phonèmes de manière fluide  y ajouter une intonation, ou prosodie pour éviter la ‘voix du robot’.  Enchaîner les phonèmes à la manière fluide d’un locuteur humain est un problème trop difficile, on enregistre plutôt des diphones :  un diphone est la liaison de deux phonè- mes voisins ; par exemple, voici les cinq diphones du mot ‘salut’ : _s + sa + al + lu + u_ ( _ est le silence)  mais le nombre de diphones possibles avec 38 phonèmes est 38 2 (plus important).  Créer la prosodie, c’est moduler le pitch P au cours du temps, selon la ponctuation par exemple,  en augmentant F0 pour une interrogation ou une virgule (la voix devient plus aigüe)  en diminuant F0 pour un point final (c’est- à-dire que la voix devient plus grave).

S.S.I., ESSI1, dimanche 9 mai 2004 Page 9 La technique des fenêtres OLA permet à la fois d’enchaîner les phonèmes et de créer la prosodie  OLA (pour OverLap and Add) est utilisée entre autres dans MBROLA.  on enregistre un locuteur (homme, femme, français, anglais, …) dont on isole les diphones.  on découpe les diphones au moyen de fenêtres de durée 2*P entrelacées (voir ci-dessous),  on constitue ensuite les sons par addition de ces fenêtres entrelacées pour obtenir la fusion des diphones  en faisant varier l’intervalle de temps entre les fenêtres, on fait varier P et on crée facilement la prosodie

S.S.I., ESSI1, dimanche 9 mai 2004 Page 10 Voici comment MBROLA code la prosodie La syntaxe d’une ligne suit le schéma suivant phonème durée [%durée F0] n fois Les variations de la fréquence F0=1/P où P est le pitch sont linéaires. Ainsi : u spécifie une durée de 96 ms, et à 29% de la durée, on a F0=123Hz, à 81% de la durée, on aura F0 = 128Hz

S.S.I., ESSI1, dimanche 9 mai 2004 Page 11 Le fonctionnement de l’appareil phonatoire explique les caractéristiques du signal vocal Les observations précédentes conduisent à modé- liser la phonation par le filtre 1/A(z) ci-dessous dont l’entrée est soit : 1. une suite d’impulsions périodiques (cas voisé) 2. un bruit blanc (cas non voisé)

S.S.I., ESSI1, dimanche 9 mai 2004 Page 12 La fréquence d’échantillonnage fe doit être choisie en fonction de l’appareil auditif  Définition du son en décibel, on convient que le 0dB est le seuil d’audition W/m 2  Quelles sont les limites de l’audition ?  Quelle est la zone de fréquence la plus audible ?  Quel est le seuil de dou- leur, volume sonore insupportable ?

S.S.I., ESSI1, dimanche 9 mai 2004 Page 13 Étapes de conversion texte parole

S.S.I., ESSI1, dimanche 9 mai 2004 Page 14 Loi de répartition du signal vocal