La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Cours parole du 9 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

Présentations similaires


Présentation au sujet: "1 Cours parole du 9 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,"— Transcription de la présentation:

1 1 Cours parole du 9 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction, Historique, Domaines dapplications 2.Extraction de paramètres 3.Comparaison de représentations temps-fréquence 4.DTW : Dynamic Time Warping (anamorphose T-F) 5.Modèles stochastiques (HMM, Réseaux Bayésiens) 6.Modèles de langage 7.Evaluation 8.Conclusions

2 2 1.Introduction à la Reconnaissance Automatique de la Parole Reconnaissance Automatique de la Parole = processus qui associe un signal de parole à une forme daction (transcription, commande, « compréhension »,…) Commande = le signal de parole déclenche une action (vocabulaire limité) Dictée vocale = tâche de transcription orthographique (vocabulaire illimité !?) « Compréhension » et dialogue = la machine devrait se comporter comme un humain (test de Turing : ).

3 3 Histoire de la Reconnaissance Automatique de la Parole

4 4 Dimensions et difficultés en RAP Taille du vocabulaire, perplexité, facteur de branchement, Environnement sonore (prise de son), distortions, pertes, bande passante (téléphonique, élargie, HiFi,…) Nombre de locuteurs concernés, motivation des locuteurs, Possibilités dapprentissage, dadaptation, Nombre de langues, accents, … Ergonomie de linterface vocale,

5 5

6 6 2.1 Echantillonnage Codage le plus simple = échantillonage = prélever (à des intervalles réguliers) des echantillons du signal analogique (continu)

7 7 2.2 Fréquence déchantillonage !! les intervalles de prèlevement du signal doivent être suffisamment raprochés pour suivre les variations du signal

8 8 2.3 Théorème de Shannon Les signaux doivent être échantillonnés à une fréquence fe> 2 fmax du signal Ceci va nous permettre de reconstituer plus ou moins fidèlement du signal continu à partir du signal échantillonné, (p.ex. qualité Hi-Fi, communications téléphonique, ….)

9 9 2.4 Etendue spectrales des signaux parole Etendue spectrale des signaux de parole: Hz Loreille humaine normale peut capter des signaux acoustique entre 20 et Hz. Transmission parole téléphonique: Hz (bonne compréhension du langage parlé) Loreille a des caractéristiques perceptives spécifiques => psychoacoustique

10 10 Le champ auditif humain

11 Exemples dechantillonage Largeur de bande de transmissionDénomination Echantillonnage= nombre dechantillons codéesQualité perçue Débits en bps avec 8bits par ech '000 Hzhi-fi (CD)44'100 Hzpas de dégradation '000bande parole24000 hzpas de dégradation bande large16'000 Hzidem '400bande téléphonique 8'000 Hzdégradation 64000

12 12 3. Discrétisation de lamplitude (quantification) La représentation numérique d'un signal implique la quantification de chaque échantillon selon un nombre fini de valeurs discrètes Quantification la plus simple = la quantification scalaire = segmenter l'étendue de variation du signal Le nombre de segments est égal au nombre de mot-codes ("codewords") que l'on veut utiliser. Avec B bits, on peut représenter 2 B mots-codes utilisés pour les niveaux de quantification. Chaque mot-code représente un niveau de quantification du signal

13 Types de quantificateurs: scalaire ou vectorielle Quantification uniforme (linéaire) pas de quantification constant Quantification non-uniforme loi de compression A (A-law) mu (mulaw) Quantification vectorielle (pour des signaux de dim >1)

14 Quantification scalaire: Définitions x(t) = signal analogique de valeur absolue maximale X max x[n] = signal échantillonné (digitalisé) Q = opérateur de quantification ; y = Q(x) y[n] = signal quantifié (codé), y[n] = y i = Q (x[n] ) avec x i-1 < x[n] x i erreur de codage e[n] = x[n] -y[n] on suppose que | x[n] | =< X max pas de quantification = i = x i - x i-1 on aimerait quantifier lamplitude du signal avec M niveaux de quantification 1 i M et x i =M+1 niveaux de décisions possible (0 i M)

15 Schéma fonctionnel du codage-décodage par quantification scalaire Convertisseur A/D Quantificateur scalaire Q Encodage x(t)x[n]y[n] c[n] Décodage y'[n] c'[n]

16 Bruits (erreurs) de quantification distorsion de granularité on a y[n] = x[n] + e[n], si pas de quantification = alors - /2 =< e[n] =< /2 Distortion de saturation : lorsque les valeurs de x(t) > X max

17 Quantification scalaire uniforme niveau de décision x i - x i-1 =, 1 i M et de reconstruction espacées de manière uniforme y[n] = y i = Q (x[n] ) avec x i-1 < x[n] x i devient: y[n] = (x i + x i-1 )/2 1 i M

18 Ex de quantification scalaire uniforme quantification uniforme: les niveaux de lamplitude signal [0-1], 4 niveaux de reconstruction espacées régulièrement, x1=1/4 x2=1/2 x3=3/4 x[n] y[n] x0= /8 3/8 5/8 7/8 x4=1

19 Quantification non-linéaire Distribution des niveaux de quantification pour une loi de quantification non- linéaire avec des niveaux de quantification en 3-bit

20 Quantification adaptée au signal parole Si transmission de parole, on doit adapter la quantification à la nature statistique du signal à coder. La fonction de distribution de probabilité (pdf) du signal parole est le mieux adaptée par une distribution de Laplace. On va adapter le pas de quantification à cette distribution, de façon a avoir plus de résolution dans les portions ou le signal a le plus de chance d'être présent x p(x)

21 21 Loi A

22 22 Loi « mu » Réduire la dynamique Loi « mu » Échantillonnage à 8kHz quantification sur 8 bits

23 Application de la quantification scalaire aux codeurs temporels On va utiliser les principes de la quantification scalaire pour les codeurs temporels. Le taux de compression dépend de la frequence d'echantillonage, et du nombre de pas de quantification L= c. Valeur du débit = nombre d'ech x nbre d'echelons Examples: Si on code 124 (256) valeurs, on a besoin de 7 (8) bits 8000 x 7bits/s = 56 Kbits/s (en Amérique du Nord et Japon) 8000 x 8bits/s = 64 Kbits/s (en Europe)

24 24 4. Codeurs temporels ("waveform") Schéma fonctionnel du codage-décodage (codec) pour les codeurs temporels (voir 3.3) Quantification scalaire uniforme= Pulse Code Modulation (PCM) Examples de quantification scalaire non unforme, on utilise une loi de compression pour les pas de quantification semi-logarithmique exemples: A-law and mu-law

25 25 Codage MICDA (ADPCM) + _ Transmission Codage par modulation delta pour les débits de 16à 32 kBits/s Quantification de la différence entre le signal et sa prédiction Synthèse Analyse

26 26 5. Quantification Vectorielle Représentation dun vecteur X (dim-k) par un vecteur appartenenant à un ensemble fini de M vecteurs ( ou mot-codes, code-book, ou dictionnaire) La Quantification vectorielle (Vector Quantization=VQ) est organisée de façon à minimiser la distortion moyenne pour un dictionnaire de taille M donné. Elle permet de tirer parti de la corrélation qui existe souvent entre les composantes des vecters à coder.

27 Caractéristiques de la VQ statique: on construit un dictionnaire (dico) à partir des données représentatives du signal dynamique: on adapte le dico avec des nouvelles données (plus complexe à mettre en oeuvre) QV statique on a besoin: suffisamment de données representatives du signal yd (d= dim du signal) dico défini par des representants, centroides Cd (meme dim que signal) définition dune mesure de distance (ex. dist euclidienne) Distortion moyenne D= lim Somme (dist y-C)

28 k-means algo On défini un codebook de départ, avec M celules Ci et leur centroides respectifs Ci qui minimisent la distortion dans la cellule). etape1: Definir un codebook initial avec M partitions (cellules Mi) et leur centroide representatif Ci etape2. Classification des vecters de train dans la celule Mi en choissisant le centroide le plus proche (min-distance classifier) etape3: réactualiser le codebook: à cette étape on aura un ensemble de Ki vecteurs de train qui vont appartenir à la cellule Mi. Réactualisé de codeword de chaque cellule, en calculant le centroide des vecterus Ki qui minimise la distortion dans chaque cellule d= min d(k,c); Calculer la distortion totale Itération: répeter 2 et 3 jusqua que la distortion totale actuelle par rapport à la précédente est au dessus du seuil-

29 k-means avec binary splitting Initialisation: On commence avec le centre de gravite des vecteurs de train, une seule cellule de départ. on crée deux celules voisines …..

30 30 Quantification scalaire et vectorielle

31 31 6. Catégorisation des codeurs selon leur débit Catégorisation des codeurs selon leur débit débit élevé: codeurs temporels -"waveform coders" (>16'000 bps) débit moyen: codeurs hybrides, forme d'onde +modéles de production de la parole (2'4000 -> 16'000 bps) débit bas: codeurs paramétriques ou vocodeurs ("vocoders"), modèles de production, (1'200 ->4'800 bps) débit très bas: (vo)codeurs segmentaux, reconnaissance de segments, tels que phonèmes, unités automatiques (400-1'200 bps) On a vu les codeurs temporels et on va résumer les codeurs paramétrique par l'exemple de la LPC

32 32 Principe dune analyse acoustique

33 33 Analyse de Fourier à fenêtre glissante

34 34 Transformée de Fourier discrète

35 35 Analyse par banc de filtres (1)

36 36 Analyse par banc de filtres (2)

37 37 Analyse par banc de filtres (3)

38 38 Principe du codeur MP3 Filtrage des signaux dans différentes bandes de fréquences T. Fourier Sélection des canaux utiles (effet de masquage 1er codage) T.Cos et codage(huf) T. Cos et codage T. Cos et codage T. Cos et codage T. Cos et codage Emission des données

39 39 Spectrogramme (bande large)

40 40 Spectrogramme (large bande)

41 41 Spectrogramme (bande etroite)

42 42 Codeur par sous-bandes

43 43 Analyse cepstrale (1)

44 44 Analyse cepstrale (2)

45 45 Analyse par synthèse

46 46 7. Analyse de la parole par prédiction linéaire La méthode LPC est utilisée fréquemment pour l'analyse de la parole (aussi nommé modélisation auto régressive AR) méthode rapide et simple pour estimer les caractéristiques spectrales de la parole (estimation de l'enveloppe spectrale) Hypothèse: un ech de parole peut être approximée par une combinaison linéaire des échantillons précédents. s(n) = - ( a 1 s(n-1) +a 2 s(n-2) +….+ a p s(n-p)) + e(n) les coeff ai sont supposés être constants durant la fenêtre danalyse.

47 47 Analyse par prédiction linéaire (1) Modélisation de la parole sous forme dun filtre de prédiction linéaire Filtre de prédiction linéaire e(t)s(t)

48 48 Analyse par prédiction linéaire (2) - Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons) - Application de l algorithme de Levinson pour obtenir les coefficients du filtre récursif (sous la forme d un filtre en treillis) - Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteur qui en déduit la synthèse du signal

49 49 Equations de Yule-Walker

50 50 Algorithme de Levinson-Durbin

51 51 Analyse par prédiction linéaire (3)

52 52 Codage prédictif linéaire (4)

53 53 Codage prédictif linéaire (5)

54 54 Codage prédictif linéaire (6)

55 55 Codage prédictif linéaire (7)

56 56 Vocodeur LPC

57 57 Codeur CELP

58 58 Codeur CELP

59 59 Codeur CELP (low delay)

60 Domaine temporel et fréquentiel des signaux Lanalyse des signaux dans le domaine fréquentiel se fait avec lopération de filtrage. Ex de filtres: passe bas, passe bande et passe haut Filtre: le signal dentrée (fonction du temps) constitue lexcitation dune fonction de transfert (qui caractérise le filtre). La sortie du filtre constitue un sous-ensemble du signal dentrée. Ex. principe de base du filtrage passe-bas avec un signal dentrée s1+s2 constitué par la somme de deux sinusoides (freq fondamentale et fréq harmonique, multiple de la freq fond). Passage de signal s à travers la fonction de transfer H(w), la freq harmonique est éliminée, et il ne reste que le signal fondamental domaine temporel: f(t) -> h(t) -> y(t) = f(t) * h(t) (* convolution) fomaine fréquentiel: (w= 2pi f) F(w) -> h(w) -> Y(w) = F(w) H(w)

61 Modèles source-filtre pour des sons différents Sons voisés: train d'impulsion convolué par l'impulsion glottique Sons non voisés : bruit aléatoire avec amplitude A Si on suppose que l'on sait séparé les sons V/NV, et que le filtre change en fonction du voisement, on a la représentation suivante: pour une modèle source-filtre des signaux V/NV Ce modèle ne marche pas pour des fricatives. Dans ce cas on pourrait utiliser un modèle d'excitation mixte, utilisant pour des sons voisés une somme du train d'impulsion et du bruit coloré Principe: la sortie du filtre d'analyse (filtre inverse à court terme), qui est l'erreur de prédiction, est une image de l'excitation. Par conséquent, si on excite le filtre de synthèse par l'erreur de prédiction, on obtient comme parole synthétique la parole originale. Avec lanlyse Linear Predictive Coding on va déterminer les coefficient du filtre prédictif (= vecteur paramétrique LPC).

62 Propriétes de l'analyse LPC Filtre inverse optimisé x[n]u[n] Filtre de synthèse s[n] erreur de prédiction Bruit blanc de variance unité

63 63 8. Débits des codeurs Catégorisation des codeurs selon leur débit débit élevé: codeurs temporels -"waveform coders" (>16'000 bps) débit moyen: codeurs hybrides, forme d'onde +modéles de production de la parole (2'4000 -> 16'000 bps) débit bas: codeurs paramétriques ou vocodeurs ("vocoders"), modèles de production, (1'200 ->4'800 bps) débit très bas: (vo)codeurs segmentaux, reconnaissance de segments, tels que phonèmes, unités automatiques (400-1'200 bps) Le débit influence la qualité de la parole transmise : intelligibilité naturelle identification du locuteur Evaluer par des test comparatifs (subjectifs) (comparer deux echantillons), MOS ("Mean Opinion Score") : évaluation par une population de sujets non entraînés, notes 1(mauvais) ->5 (excellent)

64 64 Débits de codage 1.Signal dans la bande téléphonique (f e = 8 kHz) Réseau téléphonique classique 64 kbits/s : MIC (PCM, G.711) norme CCITT en kbits/s : MICDA (ADPCM, G.721) en kbits/s : LD CELP en 1991 Téléphones mobiles 13 kbits/s : GSM (norme européenne) en kbits/s : ½ GSM (norme européenne) en kbits/s : norme nord-américaine en 1991 Communications sécurisées pour les liaisons entre organismes intergouvernementaux, applications militaires (norme OTAN), communications satellitaires (MSAT et INMARSAT) 2.4 kbits/s : standard gouvernemental américain LPC10 2.Signal en bande élargie (f e = 16 kHz) 64 kbits/s : norme G.722 (2 codages ADPCM distincts pour 2 sous-bandes) 3.Signal Hi Fi (f e = 44.1 kHz) 700 kbits/s : codage sur un CD-ROM

65 Évolution de la qualité des codeurs Indicative Quality (MOS) G.711 (64 kb/s) G.721 (32 kb/s) G.729 (8 kb/s) G.728 (16 kb/s) LPC 10 (2,4 kb/s) HSX (2,4 kb/s) Consumer quality Minimumqual. for High cost application Minimumqual. For low cost application ALISP (.4 kb/s) Year

66 Comment conserver la qualité en diminuant le débit Exploiter les limites de laudition Utiliser le modèle source-filtre de production de la parole Utiliser le concept de reconnaissance et de synthèse avec éventuellement des modèles de langage

67 Codeurs segmentaux Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales. Résultats similaires dans l'implémentation des systèmes dépendant du locuteur. Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.


Télécharger ppt "1 Cours parole du 9 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,"

Présentations similaires


Annonces Google