La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Présentations similaires


Présentation au sujet: "TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-"— Transcription de la présentation:

1

2 TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

3 TSIJean-Marie Gorce Télécommunications, services & usages Analyse-synthèse -modélisation physique -modélisation électrique -analyse spectrale -prédiction linéaire Codage -quantification -codage par modèles -transmission Reconnaissance -modélisation du langage -théorie de la décision -intelligence artificielle Com. Multimodale -multimédia -son-image -les 5 sens Compréhension -base de données -grammaire, analyse sémantique Identification speaker specific Restauration -analyse SNR -filtrage

4 TSIJean-Marie Gorce Télécommunications, services & usages La parole idée, niveau cognitif, pensée. Locuteur compréhension Auditeur construction grammaticale. commande musculaire. signal acoustique = vecteur de la parole système phonatoire prétraitement sensoriel système auditif traitement cognitif ????????? objectif : la communication

5 TSIJean-Marie Gorce Télécommunications, services & usages la parole aux télécoms microphone CAN signal acoustique Locuteur Auditeur problème : limité dans lespace signal électrique signal numérique CNA signal numérique écouteur signal électrique transmission électromagnétique câble hertzien

6 TSIJean-Marie Gorce Télécommunications, services & usages Le codage de la parole degré de complexité -analogique R E -numérique quantification échantillonnage R E CAN CNA Normes de communication -codage modélisation compression R E CAN CNA codeur décod.

7 TSIJean-Marie Gorce Télécommunications, services & usages Aspects abordés dans ce cours modélisation du signal de parole le codage direct ( PCM, DPCM, APCM, ADPCM ) la prédiction linéaire ( APC,LPC,RPE-LTP ) la quantification vectorielle ( VSELP, CELP, ACELP ) transformée en sous-bande ( MBE,MELP ) signal audio musical : HD, ( MPEG, MIDI )

8 TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Etude du signal de parole-

9 TSIJean-Marie Gorce Télécommunications, services & usages Plan production naturelle de la parole modélisation physique modélisation spectrale, analyse de Fourier modélisation paramétrique autorégressive

10 TSIJean-Marie Gorce Télécommunications, services & usages I-Production naturelle de la parole 1) un peu de physiologie oesophage Trachée artère glotte langue narines lèvres Cavité nasale pharynx C. buccale larynx

11 TSIJean-Marie Gorce Télécommunications, services & usages Le larynx : - voisé ou non voisé - fréquence fondamentale (pitch) glotte épiglotte Cordes vocales muqueuse

12 TSIJean-Marie Gorce Télécommunications, services & usages Un son voisé est défini par : - sa fréquence fondamentale (=hauteur) - son timbre = rapport entre fondamental et harmonique 2) Le rôle des cordes vocales : sons voisés temps amplitude e

13 TSIJean-Marie Gorce Télécommunications, services & usages Pharynx Cavité buccale E souffle cordes vocales Cavité nasale E 3) Représentation simplifiée : bonjour

14 TSIJean-Marie Gorce Télécommunications, services & usages 4) Les différents types de sons (phonèmes) Les voyelles (voisées) Orales Nasales cordes vocales Pharynx Cavité buccale E souffle Cavité nasale E cordes vocales Pharynx Cavité buccale E souffle [A, E, I, O, U, OU...] [IN, UN, AN, ON]

15 TSIJean-Marie Gorce Télécommunications, services & usages t (ms) [e] t (ms) [on] PSD [e] f (kHz) (dB) PSD [on] f (kHz) (dB)

16 TSIJean-Marie Gorce Télécommunications, services & usages Les consonnes Liquides Nasales cordes vocales Pharynx Cavité buccale E souffle Cavité nasale E cordes vocales Pharynx Cavité buccale E souffle [R,L] [M,N,GN]

17 TSIJean-Marie Gorce Télécommunications, services & usages Fricatives non voisées Fricatives voisées Pharynx Cavité buccale E souffle cordes vocales [F, S, CH] [V, Z, J] Pharynx Cavité buccale E souffle

18 TSIJean-Marie Gorce Télécommunications, services & usages t (ms) [ch] PSD [ch] f (kHz) (dB)

19 TSIJean-Marie Gorce Télécommunications, services & usages Occlusives non voisées Occlusives voisées Pharynx Cavité buccale E souffle cordes vocales [P, T, K] [B, D, G] Pharynx Cavité buccale E souffle Cavité nasale E

20 TSIJean-Marie Gorce Télécommunications, services & usages t (ms) [bon] t (ms) [par] [p] [on] [r] [b] [a]

21 TSIJean-Marie Gorce Télécommunications, services & usages II-Modélisation physique

22 TSIJean-Marie Gorce Télécommunications, services & usages III-Modélisation harmonique Modèle de Dudley (VOCODER) également développé en 1930 Bandpass filter 1 Bandpass filter Q Non- linearity Non- linearity Lowpass filter Lowpass filter Sampling rate reduction Sampling rate reduction Amplitude Compression Amplitude Compression speech

23 TSIJean-Marie Gorce Télécommunications, services & usages DFT t (ms) [e] PSD [e] f (kHz) (dB) Transformée de Fourier = décomposition spectrale

24 TSIJean-Marie Gorce Télécommunications, services & usages Quelques propriétés spectrales Sons voisés Fondamental (pitch) PSD [e] f (kHz) (dB) Harmoniques Formants

25 TSIJean-Marie Gorce Télécommunications, services & usages Sons non voisés Bruit blanc (souffle) PSD [ch] f (kHz) (dB)

26 TSIJean-Marie Gorce Télécommunications, services & usages Non stationnarité : le spectrogramme t (s) bonjour t (s) f (MHz)

27 TSIJean-Marie Gorce Télécommunications, services & usages t (s) sachez parler t (s) f (MHz)

28 TSIJean-Marie Gorce Télécommunications, services & usages Signal aléatoire : Densité spectrale de puissance Signal Transformée de Fourier Processus stationnaire, ergodique Plusieurs réalisations, Energie finie DSP=mean(TSF)

29 TSIJean-Marie Gorce Télécommunications, services & usages Processus gaussien non corrélé Signal Fourier 0 DSP Signal

30 TSIJean-Marie Gorce Télécommunications, services & usages IV-Modélisation paramétrique La modélisation paramétrique présentée repose sur les propriétés de la transformée en z et de la modélisation ARMA (filtres IIR; FIR). Quelques rappels : - transformée en z -modélisation ARMA -les différentes représentations des modèles AR

31 TSIJean-Marie Gorce Télécommunications, services & usages 1) La transformée en z la transformée en Z est aux signaux échantillonnés ce que la transformée de Laplace est aux signaux continus (automatisme) déf. X(z) est définie comme la somme dune série relative aux échantillons temporels x[k] étude du domaine de convergence en fonction de z prop. linéarité décalage temporel convolution temporelle cf. cours TSI

32 TSIJean-Marie Gorce Télécommunications, services & usages liens avec la transformée de Fourier discrète si on restreint lespace de z au cercle unité, z=e (j ), on retrouve la transformée de Fourier : la périodicité du spectre apparaît naturellement, en fonction de la fréquence déchantillonnage |z|<1 Re(z) Im(z) f=0 f=f e

33 TSIJean-Marie Gorce Télécommunications, services & usages Fonction de transfert numérique H(z) h[k] x[k] y[k]=(x*h)| k X(z) H(z) Y(z)=X(z).H(z) X d (f) H d (f) Y d (f) z=exp(j2 f) Comme pour la TFD, le passage dans le domaine des z, permet de remplacer lopération de convolution par une opération de multiplication => mathématiquement très intéressant

34 TSIJean-Marie Gorce Télécommunications, services & usages cas spécifique où H(z) est un polynôme du type remarques : a 0 =1 pour unicité du modèle a i, b i réels si signal réel factorisation numérateur => q zéros factorisation dénominateur => p pôles Tous les pôles dans le cercle unité => stabilité du filtre Tous les zéros dans le cercle unité =>phase minimale

35 TSIJean-Marie Gorce Télécommunications, services & usages intérêt de cette structure Y(z)=X(z).H(z) expression dans le domaine temporel expression dans le domaine spectral

36 TSIJean-Marie Gorce Télécommunications, services & usages problème de filtrage : problème de modélisation: H (z) x[k] y[k] def. dun gabarit H (z) u[k] y[k] x[k] e[k] + - 2) Modélisation ARMA

37 TSIJean-Marie Gorce Télécommunications, services & usages modélisation AR (autorégressive) - modèle tout pôles - algorithmes destimation très rapides. - spectres présentant des pics. modélisation ARMA (moving average autoregressive) - les zéros caractérisent la partie moyenne ajustée. - les pôles caractérisent la partie autorégressive. modélisation MA (moyenne ajustée) - modèle tout zéros spectres doux MA AR ordre infini

38 TSIJean-Marie Gorce Télécommunications, services & usages Exemple de modèles AR, 1 pôle réel f r réponse spectrale (dB) position des pôles n réponse impulsionnelle p=0.85 p=0.6 p=0.3

39 TSIJean-Marie Gorce Télécommunications, services & usages f r réponse spectrale position des pôles n réponse impulsionnelle (dB) Exemple de modèles AR, 2 pôles conjugués p=0.85; 0.3 p=0.85 exp(j /4) p=0.3 exp(j /2)

40 TSIJean-Marie Gorce Télécommunications, services & usages 3) Modélisation ARMA de la parole représentation shématique du signal de parole : Canal 1 Canal n E source la source peut être un bruit blanc (sons non voisés ou chuchotés) ou 1 train périodique pour les sons voisés. le conduit vocal peut être représenté par une succession de tubes acoustiques, (pharynx, cavité buccale, nasale) modélisés par des résonateurs. lémetteur, lèvres ou narines, représente une charge acoustique pour londe sonore qui y arrive.

41 TSIJean-Marie Gorce Télécommunications, services & usages source pour les sons voisés G(z) x v (k) n réponse impulsionnelle f (kHz) réponse spectrale (dB) =0.97, =0.85, f E =44kHz

42 TSIJean-Marie Gorce Télécommunications, services & usages f E =44kHz n Source (sortie de G(z) ) pour les sons voisés

43 TSIJean-Marie Gorce Télécommunications, services & usages source pour les sons non voisés

44 TSIJean-Marie Gorce Télécommunications, services & usages canal ou tube acoustique La réponse acoustique dun tube est caractérisée par un résonateur. La réponse dun résonateur est donnée par modèle AR dordre 2 Chaque résonateur est un formant dont la fréquence centrale est : Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n

45 TSIJean-Marie Gorce Télécommunications, services & usages n réponse impulsionnelle f (kHz) (dB) position des pôles 11kHz -11kHz 22kHz 0 réponse spectrale

46 TSIJean-Marie Gorce Télécommunications, services & usages Lémetteur (lèvres ou narines) La pression observée à une certaine distance des lèvres est proportionnelle à la dérivée du volume des lèvres : modèle MA dordre 1

47 TSIJean-Marie Gorce Télécommunications, services & usages Son voisé V 1 (z) V n (z) R(z) G(z) V(z) qui tend vers 1 modèle AR dordre 2n+1, si un des pôles de G(z) est proche de lunité

48 TSIJean-Marie Gorce Télécommunications, services & usages Son nasalisé les sons nasalisés font intervenir simultanément les cavités nasale et bucale. V 1 (z) V n (z) R(z) G(z) V (z) R(z) modèle ARMA

49 TSIJean-Marie Gorce Télécommunications, services & usages 4) En résumé complexité de la production de la parole (sons voisés, occlusifs etc...). principales propriétés spectrales du signal de parole (électrique ou acoustique) : fondamentale, harmonique, formants, bande passante vocale, non stationnarité, stationnarité locale (20ms), signal stochastique modèles ARMA dun processus physique (intérêt pour le codage) un modèle AR pouvait suffire dans certains cas.

50 TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Le codage de la parole-

51 TSIJean-Marie Gorce Télécommunications, services & usages Compression Problématique du codage qualité débit complexitécoût

52 TSIJean-Marie Gorce Télécommunications, services & usages Exemple : norme CCITT G.711 Échantillonnage : 8kHz Quantification : non uniforme (A-law ou µ-law) sur 8 bits Débit : 64kb/s

53 TSIJean-Marie Gorce Télécommunications, services & usages A-La quantification scalaire (quantization) Léchantillonnage La quantification uniforme La quantification non uniforme La quantification différentielle La quantification adaptative

54 TSIJean-Marie Gorce Télécommunications, services & usages I-Léchantillonnage (sampling) Fréquence d échantillonnage ???

55 TSIJean-Marie Gorce Télécommunications, services & usages Recouvrement spectral PSD [ch] f (kHz) (dB) Théorème de Shannon : f max =Fe/2 filtre anti-repliement (anti-aliasing) Initialaliasedprefiltered

56 TSIJean-Marie Gorce Télécommunications, services & usages II-La quantification Exemple : quantification sur 3 bits

57 TSIJean-Marie Gorce Télécommunications, services & usages La quantification Q(x) - L : nombre de valeurs quantifiées - b : nombre de bits de codage; L = 2 b - x(0)... x(L) : niveaux de décision - x(0),x(L) : seuils - (i)=x(i)-x(i-1) : pas de quantification - y(1)... y(L) : valeurs quantifiées 1° quelques définitions

58 TSIJean-Marie Gorce Télécommunications, services & usages Lerreur de quantification : q(x)=Q(x)-x - granulation : erreur liée au nombre de valeurs choisies ( e 2 ) - saturation : erreur liée au dépassement des seuils ( d 2 ). signaux aléatoires le signal de parole est considéré comme un signal aléatoire à moyenne nulle et variance x 2. lerreur de quantification sera donc appelée bruit de quantification, en général à moyenne nulle (0, e 2 ). x(n) y(n) ++ q(n)

59 TSIJean-Marie Gorce Télécommunications, services & usages [sachez parler] V S ??? histogramme

60 TSIJean-Marie Gorce Télécommunications, services & usages Rapport Signal-Bruit (RSB ou SNR) [dB] facteur de charge =x s / x

61 TSIJean-Marie Gorce Télécommunications, services & usages 2° la quantification uniforme définition : - y(i)=1/2 ( x(i-1)+x(i) ) - (i)= qlqsoit i -valeurs seuils : -x s, x s propriétés : - =2 x s /L - erreur de granulation |e|< /2

62 TSIJean-Marie Gorce Télécommunications, services & usages

63 TSIJean-Marie Gorce Télécommunications, services & usages

64 TSIJean-Marie Gorce Télécommunications, services & usages 3° la quantification non-uniforme

65 TSIJean-Marie Gorce Télécommunications, services & usages Transformation non-linéaire préalable x(n) y(n) + q(n) Compression des amplitudes Dilatation des amplitudes Signal de distribution uniforme

66 TSIJean-Marie Gorce Télécommunications, services & usages Norme: Modulation par Impulsions Codées (MIC, 64kbits/s) (Pulse Code Modulation, PCM) Filtre Hz Éch. f E =8kHz Compression d amplitude Quantification 8bits Norme européenne

67 TSIJean-Marie Gorce Télécommunications, services & usages Représentation de la loi de compression

68 TSIJean-Marie Gorce Télécommunications, services & usages

69 TSIJean-Marie Gorce Télécommunications, services & usages

70 TSIJean-Marie Gorce Télécommunications, services & usages III-La quantification différentielle (differential quantization) 1° Principe x(n)y(n)+ q(n) - z -1 x(n-1) r(n) Décorrélation >>>

71 TSIJean-Marie Gorce Télécommunications, services & usages 2° Gain RSB Si x (1)>0.5, r 2 < x 2, A nombre de niveaux constant, on peut réduire le pas de quantification et améliorer le RSB dans un rapport r 2 / x 2

72 TSIJean-Marie Gorce Télécommunications, services & usages 3° Mise en œuvre codage-décodage x(n) + q(n) - z -1 x(n-1) r(n) y(n) + z -1 y(n-1) t(n) Intégration de l erreur !!!! y(n)=x(n)+e(n); e(n)=q(n)+e(n-1)

73 TSIJean-Marie Gorce Télécommunications, services & usages Idée : coder la différence par rapport à la sortie x(n) + q(n) - y(n-1) r(n) y(n) + z -1 y(n-1) t(n) Remarque : OK si le signal est correctement codé ; quantification suffisante

74 TSIJean-Marie Gorce Télécommunications, services & usages Délocalisation du décodage x(n) + q(n) - y(n-1) r(n) t(n) z -1 y(n) + z -1 y(n-1) +

75 TSIJean-Marie Gorce Télécommunications, services & usages 4° Prédiction linéaire r(n)=x(n)-x(n-1) r(n)=x(n)-a 1.x(n-1) - a 2.x(n-2) - … - a p.x(n-p) Quel ordre p ? Quels paramètres AR ? Quel gain ? Variance de l erreur faible. Erreur = bruit blanc Justification de ce modèle daprès la théorie de la parole

76 TSIJean-Marie Gorce Télécommunications, services & usages Modélisation AR x(n) + q(n) - y(n-1) r(n) t(n) P(z) y(n) + P(z) y(n-1) + P(z)=a 1 z -1 + a 2 z a p z -p

77 TSIJean-Marie Gorce Télécommunications, services & usages 2° Système DPCM (MICD) ms (160 ech); 8kHz ARMA(6,2); 2-5 bits/ech. (16-64 kb/s)

78 TSIJean-Marie Gorce Télécommunications, services & usages IV-La quantification adaptative (adaptive quantization) 1° Principe : adapter au fur et à mesure les paramètres (AR, gain) du signal de parole couplée avec la quantification différentielle Modulation par Impulsions Codées Différentielle Adaptative (MICDA) Adaptive Differential Pulse Code Modulation (ADPCM)

79 TSIJean-Marie Gorce Télécommunications, services & usages Disponible sur le site Texas Instrument

80 TSIJean-Marie Gorce Télécommunications, services & usages 4) En résumé système PCM : fe=8kHz, 8pts/ech. 64kb/sec, Système ADPCM : fe=8kHz, 4<.<8pts/ech kb/sec Objectif : <16 kb/sec Moins de 2bits/point !!!!!!!!

81 TSIJean-Marie Gorce Télécommunications, services & usages B-La quantification vectorielle Principe de la quantification vectorielle Quantification vectorielle prédictive (CELP). 1 exemple de codeur utilisé en téléphonie cellulaire : GSM.

82 TSIJean-Marie Gorce Télécommunications, services & usages I-La quantification vectorielle (vectorial quantization) 1° Principe : Regrouper les échantillons pour les transmettre. Mieux rentabiliser chaque bit utilisé. i(m) V(m) Règle du plus proche voisin V 1 …V L Inspection dans une table V 1 …V L V(m)

83 TSIJean-Marie Gorce Télécommunications, services & usages Exemple pour M=2 : le codage vectoriel permet d adapter la répartition des codes.

84 TSIJean-Marie Gorce Télécommunications, services & usages 2° Algorithmie : Comment choisir le dicitonnaire ?? algorithme de Lloyd-Max 1- Initialiser le dictionnaire >> niveaux 2- Appliquer la règle du plus proche voisin (minimiser lerreur de codage) >> seuils implicites 3- Appliquer la règle du centroïde (minimiser lerreur de décodage) >> niveaux 4- Refaire 2 et 3 jusquà convergence...

85 TSIJean-Marie Gorce Télécommunications, services & usages II-LPC (linear predictive coding) 1° Principe : Minimiser la corrélation entre échantillons codés simultanément pour simplifier le travail du dictionnaire. Coder l erreur après modélisation AR - R(m) A(z) i(m) V(m) Optimisation des paramètres AR pour chaque vecteur Règle du plus proche voisin R 1 …R L V(m) 1/A(z) Inspection dans une table R 1 …R L R(m) V(z) = Bruit(z)/A(z)

86 TSIJean-Marie Gorce Télécommunications, services & usages 2° Codeur prédictif excité par des codes (Code Excited Linear Predictive Coding, CELP) : Minimiser les distorsions en minimisant l erreur relative au signal initial. 1/A(z) i(m) V(m) Règle du plus proche voisin V 1 …V L V(m) Inspection dans une table R 1 …R L 1/A(z) VMVM R 1 …R L AR(m)

87 TSIJean-Marie Gorce Télécommunications, services & usages 3° Prédiction long terme (long terme prediction, LTP) : Ajouter un 2ième étage de prédiction pour prendre en compte la périodicité des sons voisés.... 4° Introduction d un facteur perceptuel (préfiltrage W(z)) : Utiliser les principes de masquage du son pour concentrer l erreur dans les zones non perceptuelles (cf. cours sons audio).

88 TSIJean-Marie Gorce Télécommunications, services & usages III-Codeurs GSM passe-haut (>80Hz) Estimation AR Prédiction à long terme Modélisation du bruit Paramètres AR Paramètres b,Q Index du dictionnaire

89 TSIJean-Marie Gorce Télécommunications, services & usages Norme GSM, FR (Full Rate) (RPE-LTP, Regular Pulse Excitation with Long Term Prediction) 1- Pré-accentuation H(z)=(1-0.86z -1 ) 2- LPC ordre 8, algorithme de Schur sur N=160échantillons. Codage des coefficients sur 36bits/fen160ech 1.8kbit/s 3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (7+2)bits/fen40ech 1.8kbit/s 4- Sous échantillonnage par 3 =>4 signaux de 13 éch. On garde seulement le plus énergétique (2bits). Quantification non uniforme sur 3bits des 13 éch. Quantification non uniforme du facteur déchelle sur 6bits. Codage (2+3*13+6)bits /fen40ech9.4kbit/s 13kbit/s

90 TSIJean-Marie Gorce Télécommunications, services & usages Norme GSM, EFR (Enhanced Full Rate) (CELP Code Excited Linear Prediction) (GSM version 6.0.1, release 1997) 1- Pré-filtrage (passe-haut, 80Hz) 2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons Codage des coefficients sur 38bits/fen160ech 1.9kbit/s 3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (9;6 +4)bits/fen 40ech 2.3kbit/s 4- Dictionnaire à structure algébrique. Codage des coefficients 35 bits/fen 40ech 7 kbit/s Codage du gain statique 5bits/fen 40 ech 1 kbit/s 12.2kbit/s P:/gorceGSM_juillet2000

91 TSIJean-Marie Gorce Télécommunications, services & usages 2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons Estimation d un modèle AR ordre 10 après fenêtrage W I (n) et W II (n) : - directement modèles pour les sous-fenêtres f 2 et f 4. - par interpolation modèles pour les sous-fenêtres f 1 et f 3. f1f1 f2f2 f3f3 f4f4

92 TSIJean-Marie Gorce Télécommunications, services & usages Codage des coefficients AR (2 vecteurs) sous forme d une matrice, pour les 2 fenêtres. (on code ensemble les modèles des 4 sous fenêtres d un frame Rem : on ne code pas directement les coefficients AR, mais des coefficients équivalents dans un espace fréquentiel équivalent. (LSF, linear spectral frequencies) Filtre de synthèse quantifié On obtient en sortie un bruit Filtre de blanchiment

93 TSIJean-Marie Gorce Télécommunications, services & usages 2b- filtrage perceptuel |S(z)| |W(z)| s(t) Limiter le bruit de quantification dans les zones fréquentielles à haute énergie (formants)

94 TSIJean-Marie Gorce Télécommunications, services & usages Â(z) Paramètres AR définis pour des fenêtres de 40 éch. (5ms) Â(z)=1+ a 1.z -1 + a 2.z -2 + …+a 10.z -10 s(n) 160 éch. w(n) A(z)/A(z/ ) Résumé de la phase de prédiction linéaire Transmission et codage des paramètres d une fenêtre sur 2 regroupement par 2 : codage sur 38bits pour 160 échantillons (20ms), de la différence avec les vecteurs précédents. w(n)

95 TSIJean-Marie Gorce Télécommunications, services & usages s(n) w(n) Reste une certaine périodicité >>> Prédiction long terme

96 TSIJean-Marie Gorce Télécommunications, services & usages 3- Prédiction à long terme y(n)=e(n)+b.y(n-Q) « pitch synthesis filter » i.e. périodicité de période Q. Filtrage B(z) w(n) 160 éch. w(n) Paramètres b,Q définis pour des fenêtres de 40 éch. B(z)=1-bz -Q Pour b : 4bits / sous-fenêtre Pour Q, codage sur les sous-fenêtres - codage f 1 et f 3 (9bits x2) - codage de la différence pour f 2 et f 4 (6bits x2).

97 TSIJean-Marie Gorce Télécommunications, services & usages 4- Codage Par dictionnaire algébrique Dans une fenêtre, codage des 10 / 40 échantillons les plus forts 10 ech = 5 mots de 2 impulsions

98 TSIJean-Marie Gorce Télécommunications, services & usages Codage de l erreur W(n) par mots codes : c1+c2+c3+c4+c5 Mot Code i : 2 impulsions => - position de chaque impulsion (8 positions) sur 3bits. - signe de la première sur 1 bit (l autre signe est déduit). code Gray Code à transmettre : bits par mot code => 35 bits / ssfen Codage d un coefficient de gain statique : 5 bits /ssfen Conservation de l énergie du signal Minimisation de l erreur de synthèse

99 TSIJean-Marie Gorce Télécommunications, services & usages En résumé Codage de base (PCM) 64kbit/s. qualité téléphonique (pas audio). Codage adaptatif différentiel (ADPCM), même qualité à 32kbit/s. Acceptable jusquà 16kbit/s. Codage vectoriel : regrouper les valeurs à coder pour diminuer la redondance. Autour de 10kbit/s. (militaire : 4.kbit/s). Complexité des méthodes hybrides. Augmentation des performances. Codage en sous-bandes???

100 TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Le codage du son-

101 TSIJean-Marie Gorce Télécommunications, services & usages Compression Problématique du codage qualité débit complexitécoût

102 TSIJean-Marie Gorce Télécommunications, services & usages A-Qu est-ce qu un son ? La parole (cf. cours précédent) La musique Les autres sons

103 TSIJean-Marie Gorce Télécommunications, services & usages I-La parole (résumé) Propriétés connues : - f max =3,4kHz (=> Fe=8kHz) - Processus de formation (formants, pitch, harmoniques) - Modélisation AR performante. - Loi de distribution ~ Laplace (=>A-law, µ-law) Mise en œuvre de codeurs spécifiques très performants Objectif :transmission d un message compréhensible et reconnaissance du locuteur

104 TSIJean-Marie Gorce Télécommunications, services & usages II-La musique (naturelle ou synthétique) 1° Les notes pitch, fondamental, tonalité…do, re…. 0 La 440Hz La 220Hz La 110Hz f même note, octave différente 1 octave = x2

105 TSIJean-Marie Gorce Télécommunications, services & usages 2° Les harmoniques

106 TSIJean-Marie Gorce Télécommunications, services & usages 3° Le timbre (forme d onde; waveform)

107 TSIJean-Marie Gorce Télécommunications, services & usages 4° Musique : - Somme de plusieurs notes (pitch) - Différentes formes d ondes (les instruments) + chant =parole modulée. IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE

108 TSIJean-Marie Gorce Télécommunications, services & usages III-Les autres sons Applications : TVHD, Vidéo, Multimédia …. Les bruits ambiants, les onomatopées, etc…. Bruits sourds (chute d eau…) Bruits brusques (bris de glace…) = transmettre tout ce qui est susceptible d être perçu par l auditeur.

109 TSIJean-Marie Gorce Télécommunications, services & usages B-Codage Audio codeurdécodeur Récepteur ? Émetteur N autoriser que les pertes non perceptibles

110 TSIJean-Marie Gorce Télécommunications, services & usages I-Modèle psychoacoustique 1° Bande passante : Seuil daudibilité dune sinusoïde BP=[20Hz ; 20kHz]f E >40kHz

111 TSIJean-Marie Gorce Télécommunications, services & usages 3° Masquage fréquentiel (f 1,P 1 =80 dB) : sinusoïde masquante (f 2,P 2 ) : P 2 à émettre pour entendre f 2

112 TSIJean-Marie Gorce Télécommunications, services & usages 2° Bandes critiques fréquentielles (critical bands) Détection de f+df ?? k10k 1 10 Bark f(Hz) Passage des Hertz au Bark

113 TSIJean-Marie Gorce Télécommunications, services & usages Courbes de masquage >> segments de droite indépendante de f 1

114 TSIJean-Marie Gorce Télécommunications, services & usages Exemple de bande critique en BF (120Hz) f 1 bark 32 bandes critiques de 20 Hz à 20 kHz, f : Hz

115 TSIJean-Marie Gorce Télécommunications, services & usages 4° Masquage temporel Après un son relativement fort, masquage de la bande critique (et voisines…) pendant un certain délai.

116 TSIJean-Marie Gorce Télécommunications, services & usages 4° Masquage fréquentiel et temporel

117 TSIJean-Marie Gorce Télécommunications, services & usages 5° Nouvelle approche de compression : utilisée dans MPEG Principe : utiliser les propriétés de masquage de certaines zones de fréquence pour réduire le débit nécessaire. Pertes non perceptibles Passage dans le domaine de Fourier nécessaire Codage en sous-bandes

118 TSIJean-Marie Gorce Télécommunications, services & usages II-norme MPEG Audio 1°) Etat des lieux Qualité Audio Numérique 44.1kHz 16bit (96dB relativement au seuil d audibilité) loi de distribution inconnue (pas de A-law) stéréo Débit de 1,4Mbit/s

119 TSIJean-Marie Gorce Télécommunications, services & usages 2°) Objectifs Stockage (CD) : morceau de musique de Mbit/s*50*60=5.05Gbit=630MO Transmission (TVHD, multimedia) : temps réel diminuer le débit pour améliorer les capacités de transmission. Compression sans pertes audibles Normalisation nécessaire

120 TSIJean-Marie Gorce Télécommunications, services & usages 3°) MPEG Audio Moving Pictures Coding Experts Group Janvier 1988 : naissance, groupe mandaté par ISO/EIC MPEG = normalisation vidéo / audio / system MPEG-1 : qualité VHS sur CD-rom (352x288 + CD 1.5Mbit/s) MPEG-2 : TVHS, multimedia ==>TV numérique AAC (fin Avril97) Advanced Audio Coding MPEG-4 : diminuer le débit; coder infos complémentaires ==>Multimédia

121 TSIJean-Marie Gorce Télécommunications, services & usages 4°) MPEG-1 audio 3 couches définies (qualité/complexité du codage) pour qualité audio : layer 1 : 384 kb/s 1/4 layer 2 : 256…192 kb/s1/6..1/8 layer 3 : 128…112 kb/s1/10..1/12 Tx de réduction Mais différentes fréquences d échantillonnage et débits autorisés (32kHz, 44.1kHz, 48kHz)

122 TSIJean-Marie Gorce Télécommunications, services & usages sound qualitybandwidth mode bitrate reduction ratio telephone sound 2.5 kHz mono8 kbps * 96:1 better than shortwave 4.5 kHz mono 16 kbps 48:1 better than AM radio7.5 kHz mono 32 kbps 24:1 similar to FM radio 11 kHz stereo kbps :1 near-CD15 kHz stereo 96 kbps 16:1 CD >15 kHz stereo kbps :1 *) Fraunhofer uses a non-ISO extension of MPEG Layer-3 for enhanced performance ("MPEG 2.5") From the Fraunhofer Institute for Integrated Circuits, Applied Electronics Center, IIS-A, Qualité de compression, couche 3

123 TSIJean-Marie Gorce Télécommunications, services & usages Principe général de MPEG-1 (et suivants) Filtres Décomposition en bandes critiques Allocation des bits (f( ²)) Exploitation masquage Quantification +- Codage in

124 TSIJean-Marie Gorce Télécommunications, services & usages 384 ech. Layer 1 : Masquage fréquentiel + QScal Layer 2 : + Masquage temporel Layer 3 : + Redondance stéréo + Huffman

125 TSIJean-Marie Gorce Télécommunications, services & usages III-Codage en sous-bandes 1°) Sous-échantillonnage

126 TSIJean-Marie Gorce Télécommunications, services & usages Spectre d un signal échantillonné Constante, Sinusoïde f 0 =f E, ou f 0 =2.f E f0f0 -f E fEfE f E /2-f E /2 A Composante continue ??

127 TSIJean-Marie Gorce Télécommunications, services & usages Recouvrement spectral f0f0 -f E fEfE f E /2-f E /2 A Sous-échantillonnage f0f0 -f E fEfE f E /2-f E /2 A/2

128 TSIJean-Marie Gorce Télécommunications, services & usages Filtre anti-repliement f0f0 -f E fEfE f E /2-f E /2 A/2 f E /4 f0f0 -f E fEfE f E /2-f E /2 A/2

129 TSIJean-Marie Gorce Télécommunications, services & usages 2°) Décomposition en 2 sous-bandes f0f0 -f E fEfE f E /2 -f E /2 A Périodicité!!! f0f0 -f E fEfE f E /2 -f E /2 A

130 TSIJean-Marie Gorce Télécommunications, services & usages Représentation des 2 sous-bandes f0f0 -f E fEfE f E /2 -f E /2 A f0f0 -f E fEfE f E /2 -f E /2 A

131 TSIJean-Marie Gorce Télécommunications, services & usages Sous-échantillonnage des 2 sous-bandes f0f0 -f E fEfE f E /2 -f E /2 A/2 f0f0 -f E fEfE f E /2 -f E /2 A/2

132 TSIJean-Marie Gorce Télécommunications, services & usages 3°) Sur-échantillonnage f0f0 -f E fEfE f E /2-f E /2 A f0f0 -f E fEfE f E /2-f E /2 A 2.f E -2.f E

133 TSIJean-Marie Gorce Télécommunications, services & usages dans le domaine temporel

134 TSIJean-Marie Gorce Télécommunications, services & usages Filtre passe-bas=interpolateur f0f0 -f E fEfE f E /2-f E /2 A 2.f E -2.f E

135 TSIJean-Marie Gorce Télécommunications, services & usages 4°) Sous / Sur-échantillonnage d un facteur m H(z) m m F(z) x(n) x SE (n) perte d information

136 TSIJean-Marie Gorce Télécommunications, services & usages 2 2 Schéma de principe de la décomposition en 2 sous-bandes H 0 (z) x(n) x 0 (n) H 1 (z) x 1 (n) N points N/2 points H 0 : filtre réel [0; fe/4] H 1 : filtre réel [fe/4; fe/2]

137 TSIJean-Marie Gorce Télécommunications, services & usages 5°) Généralisation en N sous-bandes m H 0 (z) x(n) x 0 (n) H 1 (z) x 1 (n) N points N/m points m m H m (z) F 0 (z) m F 1 (z) m F m (z) m x m (n)

138 TSIJean-Marie Gorce Télécommunications, services & usages

139 TSIJean-Marie Gorce Télécommunications, services & usages 6°) Les problèmes techniques 1) Le choix des filtres H : parfaits => IIR 2) Approximation => choix des filtres F adaptés (transformée en Cosinus) 3) Sélectionner la bonne longueur de vecteur initial 4) Nombre de bandes de fréquences

140 TSIJean-Marie Gorce Télécommunications, services & usages 7°) Les progrès MPEG-2, 4 Utiliser le modèle psycho-acoustique pour choisir le nombre de bits par bande de fréquence. Utiliser une répartition non homogène de l échelle des fréquences. Utiliser la redondance entre voies stéréo (ou 5 voies, surround). Intégration du codage vectoriel / prédiction linéaire sur les bandes de fréquences.

141 TSIJean-Marie Gorce Télécommunications, services & usages IV-Conclusion Codage audio (musique) Codage parole (téléphonie) full-duplex Un bon codeur = répondre à des contraintes spécifiques au plus près. Interactions entre vectoriel / sous-bandes


Télécharger ppt "TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-"

Présentations similaires


Annonces Google