La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux.

Présentations similaires


Présentation au sujet: "1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux."— Transcription de la présentation:

1 1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux (phonèmes) Représentation Temps-Fréquence, spectrogramme Détection de la mélodie, de lintonation Analyse « cepstrale » et par prédiction linéaire 4. Transmission (compression) 5. Principe de la synthèse de parole 6. Données utilisées en reconnaissance de parole

2 2 1. Production du signal ; Modèles de production

3 3 1. Production du signal

4 4 1. Production du signal

5 5 temps 1.Production du signal les cordes vocales

6 6 Wolfgang von Kempelen (1770) 1. Production du signal

7 7 The speech organ of Professor Faber from 1846 (from the Journal of the Acoustical Society of America [3]). 1. Production du signal

8 8 vocoders à canaux : reproduire lévolution de lamplitude du signal dans quelques dizaines de bandes spectrales vocoders à formants : trouver les 3 à 5 maxima du spectre à court terme et reproduire ces fréquences avec les amplitudes associées vers les années 1950/1960 : développement de lélectronique vers les années 1960/1970 : développement de linformatique traitement numérique et beaucoup plus de souplesse, par exemple prédiction linéaire Analyse et Synthèse du Signal Vocal 1. Production du signal

9 9 guimbarde, chants diphoniques, arc à bouche, didgeridoo clics en langue xhosa en Afrique du sud 1. Production du signal

10 10 Synthèse numérique (ou équivalent analogique) Filtre récursif Filtre linéaire variant lentement dans le temps représentant les évolutions temporelles des résonances du conduit vocal Impulsions des cordes vocales (intonation) ou bruit (fricatives) (Sa réponse en fréquence correspond au spectre du signal vocal) Signal synthétisé 1. Production du signal

11 11 temps fréquence Cordes vocales intonation Conduit vocal résonances Signal sonore synthétique 1. Production du signal

12 Audition

13 Audition

14 14 bruit excessif = dommages irrémédiables 2. Audition

15 15 Phénomène de masquage (mp3) x(n) = sinusoïde masquante q(n) = sinusoïde masquée Sx(f) = DSP du signal Sm(f) = Seuil de masquage fréquence 2. Audition

16 16 Analyse spectrale à court terme spectre Spectre (log) temps Spectre échelle mel fréquence fréquence Hz 2500 Hz 50 ms 2500 Hz 3000 Hz 3. Analyse, description et typologie des signaux

17 17 Signal vocal Zoom Spectre de la portion analysée : formants temps fréquence temps quasi périodicité de lordre de 5 à 10 ms suivant lintonation harmoniques de la fréquence fondamentale 3. Analyse

18 18 spectre Module de la transformée de Fourier Deux secondes de signal temporel Analyse d une portion de 100 ms fondamental harmoniques Formants (résonnances) temps fréquence 3. Analyse

19 19 Allure temporelle des signaux Voyelles et consonnes voisées Fricatives Plosives Fricatives voisées Plosives voisées Voyelle et consonnes nasalisées a, e, oe, i, o, u, ou, é, è, l, r m, n, on, an, in, un f, s, ch v, z, j p, t, k b, d, g +sons « doubles », diphtongues,...w, ll mais il y a une grande variabilité même pour un locuteur en fonction du contexte du son prononcé, de lintonation, de létat de santé, etc Analyse

20 20 eu a ai o temps fréquence temps fréquence temps fréquence temps fréquence 3. Analyse

21 21 u i temps fréquence temps fréquence 3. Analyse

22 22 (ll)an on in temps fréquence temps fréquence temps fréquence 3. Analyse

23 23 (a)ll m n temps fréquence temps fréquence temps fréquence 3. Analyse

24 24 ta d b po co g temps fréquence temps fréquence temps fréquence temps fréquence temps fréquence temps fréquence 3. Analyse

25 25 s j f z v ch temps fréquence temps fréquence temps fréquence temps fréquence temps fréquence temps fréquence 3. Analyse

26 26 temps fréquence perspective temps fréquence amplitude spectrogramme chronogramme 3. Analyse

27 27 fréquence temps amplitude Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l analyse spectrale à court terme fréquence temps 3. Analyse

28 28 phonetician fréquence temps 3. Analyse

29 29 Le « cepstre » - Analyse de la fréquence fondamentale chant, intonation - Paramètres de base pour la reconnaissance fréquence « temps » périodicité des harmoniques variations lentes du spectre déconvolution source (harmoniques) / conduit (enveloppe) 3. Analyse

30 30 Analyse de la fréquence fondamentale chant, intonation 4 temps fréquence fondamental harmoniques 3. Analyse

31 31 Passe bas Passe bande démodulation Passe bas sur le résultat Analyse de la mélodie (pitch) fondamental harmoniques temps fréquence temps fréquence temps fréquence fondamental retrouvé par démodulation 3. Analyse

32 32 Codage à bas débit (moins de 15kbits/s) : prédiction linéaire Codage à débit moyen : 16 à 32 kbits/s : modulation delta Téléphonie : 8bits x 8000 éch./s = 64 kbits/s Haute fidélité 16bits x éch./s = 700 kbits/ MP3 = 144 kbits/s 4. Codage de la parole : différents débits en fonction des applications et de la qualité acceptée

33 33 Téléphonie numérique Réduire la dynamique Loi « mu » Échantillonnage à 8kHz quantification sur 8 bits 4. Codage

34 34 Codage par modulation delta (parole) pour les débits de 16 à 32 kBits/s Quantification de la différence entre le signal et sa prédiction + _ Transmission Synthèse Analyse 4. Codage

35 35 Filtrage des signaux dans différentes bandes de fréquences T. Fourier Sélection des canaux utiles (effet de masquage) 1er codage T. Cos et codage T. Cos et codage T. Cos et codage T. Cos et codage T. Cos et codage Emission des données Principe du codage MP3 4. Codage

36 36 Analyse par prédiction linéaire Canal vocal Impusions (cordes vocales) Bruit (pour les fricatives) Signal Synthétique Filtre récursif évoluant « lentement » au cours du temps et dont la réponse en fréquence est celle du spectre à court terme 4. Codage

37 37 - Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons) - Application de l algorithme de Levinson pour obtenir les coefficients du filtre récursif (sous la forme d un filtre en treillis) - Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteur qui en déduit la synthèse du signal 4. Codage

38 38 Codage par prédiction linéaire signal analysé calcul de corrélation algorithme de Levinson coefficients du filtre A(z) filtre non récursif A(z) signal résiduel e(t) recherche de périodicité L (max de corrélation) e(t)e(t+L) v(t)=e(t)-r.e(t-L) quantification recherche dun élément ressemblant à un tronçon de v(t) dans un dictionnaire d(n) filtre récursif 1/A(z) e(t)=v(t)+r.e(t-L) reconstruction de v(t) à partir des d(n) transmission signal synthétisé L signal résiduel e(t) d(n) v(t) étape de compression analyse synthèse 4. Codage

39 39 Spectre de la portion de signal analysé Réponse en fréquence du filtre récursif modélisant le signal vocal Analyse par prédiction linéaire fréquence 4. Codage

40 40 Code Excited Linear Prediction (CELP) Dictionnaire de signaux élémentaires Prédiction à long terme (intonation) Modèle du conduit vocal génération du signal dentrée du filtre (cordes vocales, bruit) 4. Codage

41 41 (Ech Hz) temps fréquence Illustration de l application de la prédiction linéaire au codage de la parole en téléphonie 4. Codage

42 42 Corrélation : r(n) Coefficients de A(z) Réponse impulsionnelle du filtre récursif 1/A(z) Réponse impulsionnelle du filtre non récursif A(z) Algo de Levinson ou Schur temps Signal modélisé temps 4. Codage

43 43 Réponse impulsionnelle du filtre récursif 1/A(z) modélisant la production de ce signal Réponse en fréquence du filtre récursif 1/A(z)) Zéros de A(z) (pôles de 1/A(z)) temps fréquence Signal analysé amplitude4. Codage

44 44 Signal résiduel à coder - Recherche de la périodicité (pitch : prédiction à long terme on code x(t)-x(t-L) : estimer L - Quantification vectorielle L On découpe le signal résiduel en tronçons comparaison à des formes de signal mémorisées dont on transmet le numéro + transmission des coefs du filtre Spectre du signal résiduel temps fréquence 4. Codage (~ bruit blanc)

45 45 5. Synthèse de son ; diphones Difficultés: Enchainement de sons élémentaires Intonation naturelle

46 46 Découpe dun son élémentaire (p. ex. diphone) en période de longueur double de la période du pitch Chacun des ~1000 diphones (33x33) est découpé en 10 ou 20 sons élémentaires de 100 à 200 échantillons Synthèse de parole mbrola 5. Synthèse

47 47 On peut rajouter ces tronçons après les avoir décalés et amplifiés en fonction de la mélodie, de l intonation,... Plus aigu : diminuer Plus grave : augmenter Modification de l amplitude en changeant 5. Synthèse

48 48 6. Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés Hidden Markov Models 1. Introduction 2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité dune séquence 2.3 Apprentissage 3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de lautomate

49 49 transition mesures 2. Automates utilisés dans les modèles de Markov cachés Séquence détats : Séquence de mesures : (Probabilités) états n n m m probabilité de transition de létat m à létat m probabilité de mesurer n quand lautomate est dans létat m probabilité que létat initial soit m 6. Reconnaissance

50 50 Les trois problèmes : 1. Reconnaissance : Y donné quelle est la S la plus probable ? 2. Quelle est la probabilité dobserver Y avec l automate (a,b,d) ? 3. Apprentissage : comment calculer a(m,m), b(m,n) et d(m) Séquence détats : Séquence de mesures : 6. Reconnaissance

51 51 Algorithme de Viterbi Calcul par récurrence de Initialisation Récurrence Fin de lalgorithme Obtention de la séquence la plus probable temps Etat m « Treillis » pour représenter l évolution de l automate au cours du temps 6. Reconnaissance

52 52 Probabilité dobservation dune séquence Y avec (a,b,d) Calcul à t croissant Utilisé pour comparer la pertinence de différents automates (un automate est associé à un mot) (aussi utilisé dans les « turbocodes en détection d erreurs » 6. Reconnaissance

53 53 Apprentissage de mots (cf. notes de cours) Calculer à partir de mesures Y dea(m,m), b(m,n), d(m) Automate usuel (Bakis) Défauts de rythmes (doublement ou suppression dune étape) voir aussi le « dynamic time warping » t t (lourd : nécessite de nombreuses réalisations deY) 6. Reconnaissance

54 54 3. Mise en forme des données mesurées sur la parole Associer à une portion de signal vocal (~20ms) une mesure y(t) : - Analyse spectrale à court terme un vecteur (dim 20) - Quantification vectorielle F o n e t i ch i an 6. Reconnaissance

55 55 Analyse spectrale à court terme Echelle Mel linéaireexponentielle Fréquence centrale du filtre Banc de filtres 6. Reconnaissance

56 56 Coefficients cepstraux Energie en sortie des différents filtres : C(n) Peuvent être liés aux coefficients de la prédiction linéaire 6. Reconnaissance

57 57 Quantification vectorielle Trouver des représentants pour des nuages de points Choisir des centres de classes Assigner à cette classe les points voisins Prendre comme centre de classe le barycentre des points dune classe réitérer jusqu à convergence Passer des c(k) aux y (mesures) « expectation maximization » les HMM nécessitent une quantification (assez grossière) des données traitées 6. Reconnaissance

58 58 Toutefois, beaucoup de réglages et de variantes… Recherche : « comprendre » le signal vocal et l information qu il contient (et non se contenter d une « simple » comparaison) Comprendre le fonctionnement de la cochlée et du système nerveux auditif 6. Reconnaissance


Télécharger ppt "1 Le Signal Vocal 1. Production du signal ; Modèles de production 2. Notions sur laudition 3. Allure temporelle Analyse en fréquence Typologie des signaux."

Présentations similaires


Annonces Google