Le Signal Vocal 1. Production du signal ; Modèles de production

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Ma surprise du Zoo.
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Réseau ATB du CClin Paris-Nord – résultats 2011 LL, 22/11/ Réseau antibiotiques du CClin Paris-Nord : Résultats 2011 Coordination: Dr François LHÉRITEAU.
Analyse temps-fréquence
PRINCIPE SIMPLIFIE DE LA COMPRESSION MP3
Le Signal Vocal Notions sur l’audition Allure temporelle
Pour voir où nous en sommes dans le cours S.S.I.
Reconnaissance de la parole
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Codage de la parole Ivan Magrin-Chagnolleau, CNRS
Reconnaissance Automatique de la Parole
Les numéros 70 –
Les numéros
Les identités remarquables
Séries de Fourier Tout signal périodique (T) de puissance finie peut être décomposé en une somme de sinus et de cosinus. An=0 1(4/) 1+ 3 (4/3)
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
COTE DIVOIRE IMAGES DES ATROCITES COMMISES PAR ALASSANE DRAMANE OUATARA, SORO GUILAUMES ET LEURS HOMMES 1.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Application des algorithmes génétiques
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.
Cours de physique générale I Ph 11
Décodage des informations
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Session 7 1 IST/VIH/SIDA.
Le Concours de Conaissance Francais I novembre 2012.
Titre : Implémentation des éléments finis sous Matlab
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
Partie 1: Ondes et Particules.
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Numérisation et codage de l’information Codage de la parole
Nom:____________ Prénom: ___________
Exercice de vérification 1 p
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Traitement de la parole : Synthèse et reconnaissance
Reconnaissance automatique de la parole
Juillet 2001  Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Transcription de la présentation:

Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur l’audition 3. Allure temporelle Analyse en fréquence Typologie des signaux (phonèmes) Représentation Temps-Fréquence, spectrogramme Détection de la mélodie, de l’intonation Analyse « cepstrale » et par prédiction linéaire 4. Transmission (compression) 5. Principe de la synthèse de parole 6. Données utilisées en reconnaissance de parole http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdf http://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html

1. Production du signal ; Modèles de production http://perso.club-internet.fr/mantonio/condvoc.htm

1. Production du signal http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html

1. Production du signal http://perso.club-internet.fr/mantonio/condvoc.htm

Production du signal les cordes vocales temps http://perso.club-internet.fr/mantonio/condvoc.htm http://mucybermu.over-blog.com/pages/Anatomie_de_la_voix-2436886.html

Wolfgang von Kempelen (1770) 1. Production du signal Wolfgang von Kempelen (1770) http://www.ling.su.se/staff/hartmut/kemplne.htm http://alexandria.tue.nl/extra2/200512836.pdf

The speech organ of Professor Faber from 1846 1. Production du signal The speech organ of Professor Faber from 1846 (from the Journal of the Acoustical Society of America [3]). http://alexandria.tue.nl/extra2/200512836.pdf

Analyse et Synthèse du Signal Vocal 1. Production du signal Analyse et Synthèse du Signal Vocal vers les années 1950/1960 : développement de l’électronique vocoders à canaux : reproduire l’évolution de l’amplitude du signal dans quelques dizaines de bandes spectrales vocoders à formants : trouver les 3 à 5 maxima du spectre à court terme et reproduire ces fréquences avec les amplitudes associées vers les années 1960/1970 : développement de l’informatique traitement numérique et beaucoup plus de souplesse, par exemple prédiction linéaire

guimbarde, chants diphoniques, arc à bouche, didgeridoo 1. Production du signal clics en langue xhosa en Afrique du sud

Synthèse numérique (ou équivalent analogique) 1. Production du signal Synthèse numérique (ou équivalent analogique) Signal synthétisé Impulsions des cordes vocales (intonation) ou bruit (fricatives) Filtre récursif Filtre linéaire variant lentement dans le temps représentant les évolutions temporelles des résonances du conduit vocal (Sa réponse en fréquence correspond au spectre du signal vocal)

temps Cordes vocales intonation Conduit vocal résonances Signal sonore 1. Production du signal temps Cordes vocales intonation Conduit vocal résonances Signal sonore synthétique fréquence

2. Audition http://www.cochlea.org http://www.iurc.montp.inserm.fr/cric/audition/ http://www.cochlea.org

2. Audition http://www.iurc.montp.inserm.fr/cric/audition/

2. Audition bruit excessif = dommages irrémédiables

Phénomène de masquage (mp3) 2. Audition Phénomène de masquage (mp3) x(n) = sinusoïde masquante q(n) = sinusoïde masquée fréquence fréquence Sx(f) = DSP du signal Sm(f) = Seuil de masquage http://tsi.enst.fr/~moreau/activites_enseignement.html

Analyse spectrale à court terme 3. Analyse, description et typologie des signaux Analyse spectrale à court terme temps fréquence spectre 2500 Hz 50 ms Spectre (log) Spectre échelle mel 3000 Hz 2500 Hz fréquence fréquence Hz

Spectre de la portion analysée : formants Signal vocal temps Zoom quasi périodicité de l’ordre de 5 à 10 ms suivant l’intonation temps Spectre de la portion analysée : formants harmoniques de la fréquence fondamentale fréquence

spectre 3. Analyse Deux secondes de signal temporel Analyse d ’une portion de 100 ms temps Module de la transformée de Fourier fondamental Formants (résonnances) harmoniques fréquence spectre

Allure temporelle des signaux 3. Analyse Allure temporelle des signaux Voyelles et consonnes voisées a, e, oe, i, o, u, ou, é, è, l, r Voyelle et consonnes nasalisées m, n, on, an, in, un Fricatives f, s, ch Fricatives voisées v, z, j Plosives p, t, k Plosives voisées b, d, g +sons « doubles », diphtongues, ... w, ll mais il y a une grande variabilité même pour un locuteur en fonction du contexte du son prononcé, de l’intonation, de l’état de santé, etc...

‘ eu ’ ‘ a ’ ‘ o ’ ‘ ai ’ 3. Analyse temps temps fréquence fréquence

3. Analyse ‘ i ’ ‘ u ’ temps temps fréquence fréquence

‘ (ll)an ’ ‘ on ’ ‘ in ’ 3. Analyse temps temps fréquence fréquence

(a)ll ‘ m ’ ‘ n ’ 3. Analyse temps temps fréquence fréquence temps

‘ po ’ ‘ ta ’ ‘ co ’ ‘ b ’ ‘ d ’ ‘ g ’ 3. Analyse temps temps temps fréquence fréquence fréquence ‘ b ’ ‘ d ’ ‘ g ’ temps temps temps fréquence fréquence fréquence

‘ f ’ ‘ s ’ ‘ ch ’ ‘ v ’ ‘ z ’ ‘ j ’ 3. Analyse temps temps temps fréquence fréquence fréquence ‘ v ’ ‘ z ’ ‘ j ’ temps temps temps fréquence fréquence fréquence

spectrogramme 3. Analyse fréquence perspective temps amplitude chronogramme

Spectrogramme, sonogramme, sonagramme 3. Analyse Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme fréquence amplitude fréquence temps temps

3. Analyse ph o n e t i c i an fréquence temps

- Analyse de la fréquence fondamentale chant, intonation Le « cepstre » - Analyse de la fréquence fondamentale chant, intonation - Paramètres de base pour la reconnaissance variations lentes du spectre périodicité des harmoniques « temps » fréquence déconvolution source (harmoniques) / conduit (enveloppe)

Analyse de la fréquence fondamentale chant, intonation . 4 temps fréquence fondamental harmoniques

Analyse de la mélodie (pitch) fondamental fréquence Passe bas temps harmoniques fréquence Passe bande démodulation temps fondamental retrouvé par démodulation fréquence Passe bas sur le résultat temps

4. Codage de la parole : différents débits en fonction des applications et de la qualité acceptée Codage à bas débit (moins de 15kbits/s) : prédiction linéaire Codage à débit moyen : 16 à 32 kbits/s : modulation delta Téléphonie : 8bits x 8000 éch./s = 64 kbits/s Haute fidélité 16bits x 44100 éch./s = 700 kbits/ MP3 = 144 kbits/s

Échantillonnage à 8kHz quantification sur 8 bits 4. Codage Téléphonie numérique Échantillonnage à 8kHz quantification sur 8 bits Réduire la dynamique Loi « mu »

Codage par modulation delta (parole) pour les débits de 16 à 32 kBits/s Quantification de la différence entre le signal et sa prédiction + _ Transmission Synthèse Analyse

Principe du codage MP3 4. Codage Filtrage des signaux dans différentes bandes de fréquences T. Cos et codage T. Cos et codage T. Cos et codage Emission des données T. Cos et codage T. Cos et codage Sélection des canaux utiles (effet de masquage) 1er codage T. Fourier

Analyse par prédiction linéaire 4. Codage Analyse par prédiction linéaire Canal vocal Impusions (cordes vocales) Signal Synthétique Bruit (pour les fricatives) Filtre récursif évoluant « lentement » au cours du temps et dont la réponse en fréquence est celle du spectre à court terme

- Calcul de 11 coefficients de corrélation 4. Codage - Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons) - Application de l ’algorithme de Levinson pour obtenir les coefficients du filtre récursif (sous la forme d ’un filtre en treillis) - Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteur qui en déduit la synthèse du signal

Codage par prédiction linéaire analyse transmission synthèse calcul de corrélation algorithme de Levinson signal analysé signal synthétisé filtre non récursif A(z) coefficients du filtre A(z) filtre récursif 1/A(z) recherche de périodicité L (max de corrélation) e(t)e(t+L) signal résiduel e(t) signal résiduel e(t) v(t)=e(t)-r.e(t-L) e(t)=v(t)+r.e(t-L) L v(t) v(t) quantification recherche d’un élément ressemblant à un tronçon de v(t) dans un dictionnaire reconstruction de v(t) à partir des d(n) étape de compression d(n) d(n)

Analyse par prédiction linéaire 4. Codage Analyse par prédiction linéaire Spectre de la portion de signal analysé fréquence Réponse en fréquence du filtre récursif modélisant le signal vocal

Code Excited Linear Prediction (CELP) 4. Codage Code Excited Linear Prediction (CELP) Dictionnaire de signaux élémentaires Prédiction à long terme (intonation) Modèle du conduit vocal génération du signal d’entrée du filtre (cordes vocales, bruit)

Illustration de l ’application de la prédiction linéaire 4. Codage Illustration de l ’application de la prédiction linéaire au codage de la parole en téléphonie fréquence temps (Ech 11025 Hz) temps

Réponse impulsionnelle du filtre non récursif A(z) Signal modélisé 4. Codage Corrélation : r(n) Coefficients de A(z) Algo de Levinson ou Schur temps temps Réponse impulsionnelle du filtre non récursif A(z) Signal modélisé Réponse impulsionnelle du filtre récursif 1/A(z) temps

Réponse impulsionnelle du filtre récursif 1/A(z) modélisant amplitude 4. Codage Signal analysé Réponse impulsionnelle du filtre récursif 1/A(z) modélisant la production de ce signal temps Zéros de A(z) (pôles de 1/A(z)) Réponse en fréquence du filtre récursif 1/A(z)) fréquence

Signal résiduel à coder - Recherche de la périodicité (pitch : 4. Codage Spectre du signal résiduel L temps Signal résiduel à coder - Recherche de la périodicité (pitch : prédiction à long terme on code x(t)-x(t-L) : estimer L - Quantification vectorielle fréquence (~ bruit blanc) On découpe le signal résiduel en tronçons comparaison à des formes de signal mémorisées dont on transmet le numéro + transmission des coefs du filtre temps

5. Synthèse de son ; diphones Difficultés: Enchainement de sons élémentaires Intonation naturelle

Synthèse de parole Découpe d’un son élémentaire (p. ex. diphone) mbrola http://tcts.fpms.ac.be/synthesis/ Découpe d’un son élémentaire (p. ex. diphone) en période de longueur double de la période du pitch . Chacun des ~1000 diphones (33x33) est découpé en 10 ou 20 sons élémentaires de 100 à 200 échantillons

On peut rajouter ces tronçons après les avoir décalés 5. Synthèse On peut rajouter ces tronçons après les avoir décalés et amplifiés en fonction de la mélodie, de l ’intonation, ... Plus aigu : diminuer Plus grave : augmenter Modification de l ’amplitude en changeant

6. Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés Hidden Markov Models 1. Introduction 2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage 3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate http://htk.eng.cam.ac.uk/

2. Automates utilisés dans les modèles de Markov cachés 6. Reconnaissance 2. Automates utilisés dans les modèles de Markov cachés mesures n’ n états m’ m (Probabilités) transition Séquence d’états : Séquence de mesures : probabilité de transition de l’état m’ à l’état m probabilité de mesurer ‘n’ quand l’automate est dans l’état m probabilité que l’état initial soit m

Les trois problèmes : 6. Reconnaissance Séquence d’états : Séquence de mesures : 1. Reconnaissance : Y donné quelle est la S la plus probable ? 2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ? 3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)

Algorithme de Viterbi 6. Reconnaissance Obtention de la séquence la plus probable Algorithme de Viterbi Calcul par récurrence de Initialisation Récurrence Fin de l’algorithme Etat m « Treillis » pour représenter l ’évolution de l ’automate au cours du temps temps

Probabilité d’observation d’une séquence Y avec (a,b,d) 6. Reconnaissance Probabilité d’observation d’une séquence Y avec (a,b,d) Calcul à t croissant Utilisé pour comparer la pertinence de différents automates (un automate est associé à un mot) (aussi utilisé dans les « turbocodes en détection d ’erreurs »

Apprentissage de mots (cf. notes de cours) 6. Reconnaissance Apprentissage de mots (cf. notes de cours) Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m) (lourd : nécessite de nombreuses réalisations deY) Automate usuel (Bakis) Défauts de rythmes (doublement ou suppression d’une étape) voir aussi le « dynamic time warping » t’ t

3. Mise en forme des données mesurées sur la parole 6. Reconnaissance 3. Mise en forme des données mesurées sur la parole F o n e t i ch i an Associer à une portion de signal vocal (~20ms) une mesure y(t) : - Analyse spectrale à court terme un vecteur (dim 20) - Quantification vectorielle

Analyse spectrale à court terme 6. Reconnaissance Analyse spectrale à court terme Fréquence centrale du filtre linéaire exponentielle Echelle Mel Banc de filtres

Coefficients cepstraux 6. Reconnaissance Coefficients cepstraux Energie en sortie des différents filtres : C(n) Peuvent être liés aux coefficients de la prédiction linéaire

« expectation maximization » 6. Reconnaissance les HMM nécessitent une quantification (assez grossière) des données traitées Passer des c(k) aux y (mesures) Quantification vectorielle Trouver des représentants pour des nuages de points Choisir des centres de classes Assigner à cette classe les points voisins Prendre comme centre de classe le barycentre des points d’une classe réitérer jusqu ’à convergence « expectation maximization »

Toutefois, beaucoup de réglages et de variantes… 6. Reconnaissance Toutefois, beaucoup de réglages et de variantes… Recherche : « comprendre » le signal vocal et l ’information qu ’il contient (et non se contenter d ’une « simple » comparaison) Comprendre le fonctionnement de la cochlée et du système nerveux auditif http://www.cochlea.org/spe/cerveau-auditif-2.html