La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Traitement de la parole

Présentations similaires


Présentation au sujet: "Traitement de la parole"— Transcription de la présentation:

1 Traitement de la parole
-Introduction- Télécommunications, services & usages

2 -grammaire, analyse sémantique
Restauration -analyse SNR -filtrage Codage -quantification -codage par modèles -transmission Reconnaissance -modélisation du langage -théorie de la décision -intelligence artificielle Com. Multimodale -multimédia -son-image -les 5 sens Analyse-synthèse -modélisation physique -modélisation électrique -analyse spectrale -prédiction linéaire Compréhension -base de données -grammaire, analyse sémantique Identification ‘speaker specific’ Le traitement de la parole trouve de très nombreuses applications dans les télécommunications, l’automatisme avec les interfaces homme-machine, les systèmes de sécurité (reconnaissance vocale), les serveurs vocaux, etc... Ses débuts remontent aux années 30 (1er système de synthèse). L’analyse de la parole est la source de tous les développements successifs liés à ce domaine. On entend par analyse, la compréhension de ce qu’est un signal acoustique de parole. Pour permettre cette compréhension, la synthèse de la parole est fondamentale. En effet, ‘on ne comprend bien que ce qu’on est capable de produire’. Les 1ères études cherchaient donc à comprendre les principes physiques de production de la parole. Puis de façon plus élaborée, en s’affranchissant de la physiologie, on a cherché à synthétiser (conversion électro-acoustique) la parole. L’analyse de Fourier et la modélisation paramétriques ont permis de progresser rapidement. Les modélisations issuent de ces études ont permis d’améliorer le codage (augmentation du débit de transmission, compression), d’améliorer la qualité de signaux bruités, de développer des méthodes de reconnaissance vocale. Dans ce cours nous étudierons essentiellement cette modélisation, avec bien sur ses applications en transmission-codage-compression, très présentes dans les systèmes de communication d’aujourd’hui. Nous parlerons un peu du multimédia et de l’intégration du signal de parole au sein d’un système de communication multimodal (norme MPEG par ex). Les systèmes de reconnaissance vocale de plus en plus élaborés doivent permettre non seulement de reconnaître la parole MAIS AUSSI le langage : dépasser la syntaxique pour atteindre la sémantique (l’intelligence absolue??) Télécommunications, services & usages

3 Télécommunications, services & usages
idée, niveau cognitif, pensée. Locuteur La parole compréhension Auditeur ????????? objectif : la communication traitement cognitif construction grammaticale. prétraitement sensoriel commande musculaire. signal acoustique = vecteur de la parole système auditif système phonatoire L’objectif de toute application du domaine du traitement de la parole est de reproduire l’un ou l’autre des blocs de cette représentation, par un système spécifique. La modélisation a pour but de simuler (ou synthétiser) la parole. Les techniques de reconnaissance vocales cherchent à remplacer le prétraitement sensoriel, c’est à dire à pouvoir reconnaître des mots (enlever le bruit=filtrer) découper les mot, éventuellement reconnaître les voyelles, les consonnes, i.e. les phonèmes. C’est une analyse syntaxique (=correcteur d’orthographe de Word dqns le domaine de l’écrit). Les techniques encore plus évoluées utilisant l’intelligence artificielle, cherchent à interpréter (=analyse sémantique, reconnaissance de phrases, notion de SENS, pouvant permettre une prise de décision ou un apprentissage) Télécommunications, services & usages

4 ‘la parole aux télécoms’
signal acoustique Locuteur Auditeur problème : limité dans l’espace microphone écouteur signal électrique signal électrique transmission électromagnétique câble hertzien CAN CNA A partir de ce schéma on peut représenter tout le développement des dernières décennies relatives aux télécommunications. Mot clé : permettre la communication à distance. Au départ, l’objectif était de permettre la communication à distance. Il n’était donc pas nécessaire de modéliser ou de comprendre les techniques de production de la parole, à partir du moment où on savait convertir l’onde acoustique en onde électrique, la transmettre le long d’une ligne puis la reconvertir en onde acoustique. Mais la présence de bruit de transmission due notamment aux interférences électromagnétiques et à la dispersion dans les câbles ont incité les ingénieurs et chercheurs à améliorer les systèmes de transmission. L’arrivée du numérique a permis d’envisager une avancée spectaculaire, tout comme les techniques de multiplexage temporel ou spectral qui ont permis la transmission simultanée de plusieurs voix sur une même ligne. signal numérique signal numérique Télécommunications, services & usages

5 Télécommunications, services & usages
Le codage de la parole degré de complexité -analogique R E -numérique quantification échantillonnage R E CAN CNA -codage modélisation compression R E CAN CNA codeur décod. Les techniques de transmission ont évolué en fonction des besoin de transmission. La méthode la plus simple est la transmission analogique, qui ne nécessite aucune connaissance exacte des propriétés des signaux de parole. Elle est limitée en qualité et en capacités. La conversion numérique permet d’améliorer, et le débit, et la qualité. Les problèmes spécifiques pour la conversion sont la quantification et l ’échantillonnage. On s’est aperçu que le signal de parole était fortement redondant et qu’il était possible de mieux ‘coder’ le signal de parole pour diminuer le nombre de bits à transmettre. Mais dans ce cas, l’utilisation du codage nécessite des normes très précises pour permettre à l’interlocuteur de comprendre => Importance de normes qui évoluent pour bénéficier des progrès technologiques mais de façon contrôlée pour garantir la compatibilité des systèmes de communication. On ne parlera pas dans ce cours du multiplexage ni des techniques liées à la transmission. Normes de communication Télécommunications, services & usages

6 Aspects abordés dans ce cours
modélisation du signal de parole le codage direct (PCM, DPCM, APCM, ADPCM) la prédiction linéaire (APC,LPC,RPE-LTP) la quantification vectorielle (VSELP, CELP, ACELP) transformée en sous-bande (MBE,MELP) signal audio musical : HD, (MPEG, MIDI) La principale différence entre le codage musical et le codage de la parole est liée à l’objectif recherché En musique, on recherche de la haute-fidélité donc pas de perte signal alors qu’en parole on veut ‘seulement’ une comprehension 100%, mais qui autorise certaines pertes (bande passante, quantification...) Les exigences en compression (ou nb de bits /s requis) sont également très différentes. En téléphonie on échantillonne à 8kHz (fmax=4kHz) et sur 8 bits, ce qui donne un débit de base de 64kbits/s. Avec différents algorithmes de compression (avec pertes) on descend actuellement jusqu’à 2kbits/s (mauvaise qualité). En musique haute fidélité (hi-fi), (on verra la norme MPEG), on veut préserver les sons jusqu’à 20kHz ce qui donne 1411,2kbits/s à la base. La qualité hi-fi est préservée avec la norme MPEG autour de 128kbits/sec à 384kbits/s suivant l’algorithme utilisé. Télécommunications, services & usages

7 Traitement de la parole
-Etude du signal de parole- Télécommunications, services & usages

8 Télécommunications, services & usages
Plan production naturelle de la parole modélisation physique modélisation spectrale, analyse de Fourier modélisation paramétrique autorégressive Télécommunications, services & usages

9 I-Production naturelle de la parole
1) un peu de physiologie narines Cavité nasale C. buccale lèvres langue pharynx oesophage La parole est le résultat de l’action volontaire et coordonnée des appareils respiratoire et masticatoire. Cette action se déroule sous le contrôle du système nerveux central qui reçoit en permanence des informations par rétroaction auditive et par les sensations cénesthétiques. l’appareil respiratoire fournit l’énergie nécessaire en propulsant l’air pendant la phase d’expiration, à travers la trachée-artère. Au niveau du larynx la pression de l’air est modulée avant d’être appliquée au conduit vocal (du pharynx aux lèvres). l’air envoyé par les poumons est modulé au niveau du larynx puis transmis au travers du conduit vocal (pharynx->lèvres) conduit vocal = ensemble de 3 cavités : -pharyngienne -buccale -nasale ces 2 dernières sont en parallèle glotte larynx Trachée artère Télécommunications, services & usages

10 Télécommunications, services & usages
Cordes vocales Le larynx : - voisé ou non voisé - fréquence fondamentale (pitch) épiglotte Le larynx lieu où le type de signal est défini : - voisé ou non voisé (vibration ou non des cordes vocales) - fréquence fondamentale (fixée par la fréquence de vibration des cordes vocales) ( Hz) voix masculine ( Hz) voix féminine ( Hz) voix enfantine muqueuse glotte Télécommunications, services & usages

11 Télécommunications, services & usages
2) Le rôle des cordes vocales : sons voisés Un son voisé est défini par : - sa fréquence fondamentale (=hauteur) - son timbre = rapport entre fondamental et harmonique 0.05 0.1 0.15 0.2 0.25 0.3 0.35 -0.3 -0.2 -0.1 0.4 temps amplitude ‘e’ si le larynx est partiellement fermé, cela entraîne la vibration des cordes vocales. Même principe que pour les instruments à vent (hautbois...) => sons voisés. si le larynx est entièrement ouvert seul un souffle passe. Les cavités produisent le son à partir du souffle (murmures, sons s,f,ch). Un son voisé est défini par : - sa fréquence fondamentale (=hauteur) (80-100Hz homme, Hz femme, Hz enfant) - son timbre = rapport entre fondamental et harmonique (son pur=sinusoide pure) Télécommunications, services & usages

12 Télécommunications, services & usages
3) Représentation simplifiée : souffle Pharynx Cavité buccale E cordes vocales Cavité nasale E b on j ou r Télécommunications, services & usages

13 Télécommunications, services & usages
4) Les différents types de sons (phonèmes) Les voyelles (voisées) Orales cordes vocales Pharynx Cavité buccale E souffle [A, E, I, O, U, OU...] Nasales Cavité nasale E cordes vocales Pharynx buccale souffle [IN, UN, AN, ON] Un phonème est la plus petite unité présente dans la praole et susceptible de changer la signification d’un mot. 36 phonémes dans la langue francaise. La classification des sons produits par la voix humaine est très complexe. La frontière entre les sons n ’est pas brutale et dépend du locuteur, du langage utilisé, etc… On admet que la langue française comporte 36 phonèmes = sons considérés comme ayant une signification différente. Télécommunications, services & usages

14 Télécommunications, services & usages
50 100 -0.2 0.2 0.4 t (ms) [e] 1 2 3 4 5 10 20 30 40 50 PSD [e] f (kHz) (dB) 50 100 -0.2 0.2 0.4 t (ms) [on] 1 2 3 4 5 10 20 30 40 50 PSD [on] f (kHz) (dB) Télécommunications, services & usages

15 Télécommunications, services & usages
Les consonnes Liquides souffle cordes vocales Pharynx Cavité buccale E [R,L] Nasales souffle cordes vocales Pharynx Cavité buccale E Les consonnes dites liquides sont des sons voisés, et sont obtenus par un effet buccal. Les consonnes dites nasales, associent en plus la cavité nasale. [M,N,GN] Cavité nasale E Télécommunications, services & usages

16 Télécommunications, services & usages
Pharynx Cavité buccale E souffle Fricatives non voisées [F, S, CH] Pharynx Cavité buccale E souffle Fricatives voisées Les consonnes fricatives résultent d ’une turbulence de l ’air créée par le passage de l ’air dans une constriction étroite du conduit vocal (lèvres /dents) F => labiale, S => dentale, CH => palatale (au fond du conduit Vocal) les fricatives voisées associent en plus une source périodique liée à la vibration des cordes vocales. [V, Z, J] cordes vocales Télécommunications, services & usages

17 Télécommunications, services & usages
10 20 30 40 50 60 70 80 90 100 -0.1 -0.05 0.05 0.1 t (ms) [ch] 1 2 3 4 5 6 7 8 9 10 -20 -10 20 30 PSD [ch] f (kHz) (dB) Télécommunications, services & usages

18 Télécommunications, services & usages
Occlusives non voisées [P, T, K] souffle Pharynx Cavité buccale E Occlusives voisées souffle [B, D, G] Pharynx Cavité buccale E cordes vocales Les consonnes occlusives sont obtenues en relâchant brusquement le conduit vocal, après un certain temps de silence, durant lequel la pression est accumulée dans la cavité. La période de silence est appelée phase de tenue. Pour les occlusives voisées, un son basse fréquence est émis pendant la phase de tenue (par le conduit nasal). Cavité nasale E Télécommunications, services & usages

19 Télécommunications, services & usages
[bon] 1 0.5 -0.5 [b] [on] -1 50 100 150 t (ms) [par] 0.1 0.05 -0.05 [p] [a] [r] -0.1 50 100 150 t (ms) Télécommunications, services & usages

20 II-Modélisation physique
Objectif : reproduire les différents éléments à l’origine de la production de la parole. Voder (voice demonstration recorder) by Dudley (Bell inc.), développé en 1930 Un système électrique représente chacune des fonctions du système phonatoire Télécommunications, services & usages

21 III-Modélisation harmonique
Modèle de Dudley (VOCODER) également développé en 1930 Bandpass filter 1 filter Q Non- linearity Lowpass filter Sampling rate reduction Amplitude Compression speech chaque son (ou phonème) peut être décrit dans le domaine spectral = décomposition de Fourier. Avec la notion de fondamental, harmoniques, formants .... Mathématiquement plus attractif. Télécommunications, services & usages

22 Transformée de Fourier = décomposition spectrale
50 100 -0.2 0.2 0.4 t (ms) [e] 1 2 3 4 5 10 20 30 40 50 PSD [e] f (kHz) (dB) DFT Transformée de Fourier = décomposition spectrale Télécommunications, services & usages

23 Télécommunications, services & usages
Quelques propriétés spectrales Sons voisés Fondamental (pitch) Harmoniques Formants PSD [e] 50 40 30 (dB) L’enveloppe des harmoniques présentent des maximums appelés formants qui correspondent à des fréquences propres du conduit vocal. Les trois premiers formants sont essentiels pour caractériser le spectre vocal. 20 10 f (kHz) 1 2 3 4 5 Télécommunications, services & usages

24 Télécommunications, services & usages
Sons non voisés Bruit blanc (souffle) 1 2 3 4 5 6 7 8 9 10 -20 -10 20 30 PSD [ch] f (kHz) (dB) Télécommunications, services & usages

25 Non stationnarité : le spectrogramme
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -0.4 -0.2 t (s) bonjour t (s) f (MHz) 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.5 2 Mais la parole est construite comme une succession de sons et les propriétés spectrales sont donc non stationnaires (spectre varie au cours du temps), alors que le concept même de FFT est lié à la stationnarité. On introduit alors la notion de spectrogramme ou sonogramme, en admettant que les sons sont stationnaires sur des courtes périodes (20ms). Télécommunications, services & usages

26 Télécommunications, services & usages
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -0.1 -0.05 0.05 t (s) sachez parler t (s) f (MHz) 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 Télécommunications, services & usages

27 Transformée de Fourier Densité spectrale de puissance
Signal aléatoire : Transformée de Fourier Signal Densité spectrale de puissance Processus stationnaire, ergodique Plusieurs réalisations, Energie finie La transformée de Fourier donne le résultat pour une réalisation. La densité spectrale caractérise au contraire les propriétés moyennes du spectre. DSP=mean(TSF) Télécommunications, services & usages

28 Processus gaussien non corrélé
Signal Signal Fourier DSP Télécommunications, services & usages

29 IV-Modélisation paramétrique
La modélisation paramétrique présentée repose sur les propriétés de la transformée en z et de la modélisation ARMA (filtres IIR; FIR). Quelques rappels : - transformée en z -modélisation ARMA -les différentes représentations des modèles AR On s’attarde un peu plus sur cette modélisation qui nous permettra de faire quelques rappels sur les signaux échantillonnés et les filtres FIR et IIR. On verra que cette modélisation justifie la qualité des codeurs basés sur la prédiction linéaire et les codeurs vectoriels Je donnerai quelques rappels sur la transformée en z, puis sur le filtrage FIR, IIR et enfin la représentation d’un processus à partir de sa fonction de transfert. Télécommunications, services & usages

30 Télécommunications, services & usages
1) La transformée en z la transformée en Z est aux signaux échantillonnés ce que la transformée de Laplace est aux signaux continus (automatisme) X(z) est définie comme la somme d’une série relative aux échantillons temporels x[k] déf. étude du domaine de convergence en fonction de z C ’est un rappel sur les propriétés de la transformée en z. Les propriétés de décalage temporel et de convolution sont à la base de toute l’étude qui est présentée ci-après prop. linéarité décalage temporel convolution temporelle cf. cours TSI Télécommunications, services & usages

31 Télécommunications, services & usages
liens avec la transformée de Fourier discrète si on restreint l’espace de z au cercle unité, z=e(jw) , on retrouve la transformée de Fourier : Im(z) la périodicité du spectre apparaît naturellement, en fonction de la fréquence d’échantillonnage f=0 |z|<1 Re(z) f=fe Télécommunications, services & usages

32 Télécommunications, services & usages
Fonction de transfert numérique H(z) y[k]=(x*h)|k x[k] h[k] X(z) H(z) Y(z)=X(z).H(z) z=exp(j2pf) z=exp(j2pf) Hd(f) Yd(f) Xd(f) Comme pour la TFD, le passage dans le domaine des z, permet de remplacer l’opération de convolution par une opération de multiplication => mathématiquement très intéressant Télécommunications, services & usages

33 Télécommunications, services & usages
cas spécifique où H(z) est un polynôme du type Tous les pôles dans le cercle unité => stabilité du filtre Tous les zéros dans le cercle unité =>phase minimale remarques : a0=1 pour unicité du modèle ai, bi réels si signal réel factorisation numérateur => q zéros factorisation dénominateur => p pôles Télécommunications, services & usages

34 Télécommunications, services & usages
intérêt de cette structure expression dans le domaine temporel Y(z)=X(z).H(z) expression dans le domaine spectral On voit tout de suite l’intérêt de cette structure polynômiale pour le filtrage ou la modélisation d’un signal. En effet à partir de la connaissance des paramètres ai et bi, on peut calculer très simplement les valeurs numériques du signal temporel ou l’expression de sa transformée de Fourier discrète. Télécommunications, services & usages

35 Télécommunications, services & usages
2) Modélisation ARMA def. d’un gabarit problème de filtrage : y[k] x[k] H (z) x[k] problème de modélisation: y[k] + e[k] En filtrage ou en modélisation, les bases mathématiques sont les mêmes. - Dans le cas du filtrage on se base sur les spécificités spectrales voulues pour définir un filtre numérique dont l’implantation sera facilitée par la structure récursive de l’expression dans le domaine temporel - En modélisation, on doit choisir le type d’entrée, et le filtre, qui conduisent à une bonne représentation du signal voulu. Les choix du signal d’entrée dépendent beaucoup de la nature déterministe ou stochastique des signaux, comme pour les signaux voisés ou non voisés. u[k] H (z) - Télécommunications, services & usages

36 Télécommunications, services & usages
modélisation ARMA (moving average autoregressive) - les zéros caractérisent la partie ‘moyenne ajustée’. - les pôles caractérisent la partie ‘autorégressive’. modélisation MA (moyenne ajustée) - modèle ’tout zéros ’ spectres doux modélisation AR (autorégressive) - modèle ’tout pôles’ - algorithmes d’estimation très rapides. - spectres présentant des pics. ARMA - les zéros caractérisent la partie ‘moyenne ajustée’. - les pôles caractérisent la partie ‘autorégressive’ MA c’est un modèle tout zéros peu utilisé en modélisation. il permet d’obtenir des spectres plus doux mais l’estimation des paramètres du modèle est relativement complexe. AR c’est un modèle tout pôle très utilisé en modélisation car les algorithmes d’estimations des paramètres sont très rapides. - on utilise souvent la propriété suivante : ‘tout modèle ARMA est égal à un modèle AR (d’ordre infini)’. En négligeant les paramètres d’ordre supérieur, on se ramène à un modèle AR. Ils représentent bien les spectres présentant des pics et les signaux aléatoires corrélés. MA AR ordre infini Télécommunications, services & usages

37 réponse impulsionnelle
Exemple de modèles AR, 1 pôle réel p=0.6 p=0.3 réponse impulsionnelle réponse spectrale 1 20 position des pôles 0.9 0.8 15 0.25 0.7 0.6 10 0.5 -0.5 (dB) 0.5 0.4 5 0.3 Etudiez les relations entre le pôle etle coefficient a1. Stabilité => pôle dans le cercle unité Ceci est un filtre passe-bas -0.25 0.2 0.1 -5 50 -0.5 0.5 n f r Télécommunications, services & usages

38 réponse impulsionnelle
Exemple de modèles AR, 2 pôles conjugués p=0.85 exp(jp/4) p=0.3 exp(jp/2) réponse impulsionnelle réponse spectrale position des pôles 1 20 0.25 15 0.5 -0.5 (dB) 10 5 -0.25 Donner les relations entre a1,a2 et les pôles et mettre en évidence que les pôles doivent être conjugués pour que les coefficients AR soient réels, et donc la sortie du filtre. -1 -5 50 -0.5 0.5 Télécommunications, services & usages n f r

39 Télécommunications, services & usages
3) Modélisation ARMA de la parole représentation shématique du signal de parole : source Canal 1 Canal n E la source peut être un bruit blanc (sons non voisés ou chuchotés) ou 1 train périodique pour les sons voisés. le conduit vocal peut être représenté par une succession de tubes acoustiques, (pharynx, cavité buccale, nasale) modélisés par des résonateurs. l’émetteur, lèvres ou narines, représente une charge acoustique pour l’onde sonore qui y arrive. Télécommunications, services & usages

40 réponse impulsionnelle
xv(k) source pour les sons voisés G(z) 1 2 3 4 10 20 30 40 50 60 f (kHz) réponse spectrale (dB) réponse impulsionnelle 100 200 300 400 500 5 10 n a=0.97, b=0.85, fE=44kHz les sons voisés sont obtenus par vibration des cordes vocales à une fréquence fondamentale donnée (ou pitch) : train périodique où chaque impulsion est caractérisée par une montée rapide en pression suivie d’une chute plus graduelle. Ceci est modélisé par un train d’onde ou peigne, convolué par un modèle AR d’ordre 2, dont un des pôles est proche de l’unité : Télécommunications, services & usages

41 Source (sortie de G(z) ) pour les sons voisés
5 4 3 2 1 500 1000 1500 2000 2500 n fE=44kHz Télécommunications, services & usages

42 Télécommunications, services & usages
source pour les sons non voisés les sons voisés sont obtenus sans vibration des cordes vocales, simplement par l’arrivée d’un flux d’air à travers la glotte entièrement ouverte. Ceci est représenté par un bruit blanc. Télécommunications, services & usages

43 Télécommunications, services & usages
canal ou tube acoustique La réponse acoustique d’un tube est caractérisée par un résonateur. La réponse d’un résonateur est donnée par modèle AR d’ordre 2 Chaque résonateur est un ‘formant’ dont la fréquence centrale est : Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n Télécommunications, services & usages

44 réponse impulsionnelle
réponse spectrale réponse impulsionnelle 50 100 -1 -0.5 0.5 1 1.5 n 5 -14 -12 -10 -8 -6 -4 -2 2 4 f (kHz) (dB) position des pôles 11kHz 22kHz -11kHz Télécommunications, services & usages

45 Télécommunications, services & usages
L’émetteur (lèvres ou narines) La pression observée à une certaine distance des lèvres est proportionnelle à la dérivée du volume des lèvres : modèle MA d’ordre 1 Montrer pourquoi c ’est un dérivateur : expression temporelle Télécommunications, services & usages

46 Télécommunications, services & usages
Son voisé G(z) V1(z) Vn(z) R(z) V(z) Ceci montre que la modélisation autorégressive à priori tirée des avantages calculatoires de la T(z) et de systèmes numériques, a également, pour le signal de parole , un sens très physique. Ceci n’est pas aussi évident pour tous les sons comme le montrent les exemples suivants qui tend vers 1 modèle AR d’ordre 2n+1, si un des pôles de G(z) est proche de l’unité Télécommunications, services & usages

47 Télécommunications, services & usages
Son nasalisé les sons nasalisés font intervenir simultanément les cavités nasale et bucale. G(z) V1(z) Vn(z) R(z) V’ (z) R’(z) Ces sons sont ceux que l’on a du mal à prononcer quand on est enrhumé. la cavité nasale n’est plus à même de compléter l’effet de la cavité buccale. Ainsi le ‘m’ devient ‘b’. Pour un modèle de son non voisé, on a en entrée un bruit blanc, et G(z) vaut 1. modèle ARMA Télécommunications, services & usages

48 Télécommunications, services & usages
4) En résumé complexité de la production de la parole (sons voisés, occlusifs etc...). principales propriétés spectrales du signal de parole (électrique ou acoustique) : fondamentale, harmonique, formants, bande passante vocale, non stationnarité, stationnarité locale (20ms), signal stochastique modèles ARMA d’un processus physique (intérêt pour le codage) un modèle AR pouvait suffire dans certains cas. Télécommunications, services & usages

49 Traitement de la parole
-Le codage de la parole- Télécommunications, services & usages

50 Télécommunications, services & usages
Problématique du codage qualité débit complexité coût Compression Télécommunications, services & usages

51 Télécommunications, services & usages
Exemple : norme CCITT G.711 Échantillonnage : 8kHz Quantification : non uniforme (A-law ou µ-law) sur 8 bits Débit : 64kb/s Cette norme internationale a défini un compromis qualité/débit pour la téléphonie numérique, considérée comme la référence. Télécommunications, services & usages

52 A-La quantification scalaire (quantization)
L’échantillonnage La quantification uniforme La quantification non uniforme La quantification différentielle La quantification adaptative Télécommunications, services & usages

53 I-L’échantillonnage (sampling)
L’échantillonnage ne pose pas de problème particulier dans le cas du signal de parole mais doit être habilement choisit. Compromis qualité/débit. Fréquence d ’échantillonnage ??? Télécommunications, services & usages

54 Télécommunications, services & usages
Recouvrement spectral 1 2 3 4 5 6 7 8 9 10 -20 -10 20 30 PSD [ch] f (kHz) (dB) Théorème de Shannon : fmax=Fe/2 filtre anti-repliement (anti-aliasing) Initial aliased prefiltered Télécommunications, services & usages

55 Télécommunications, services & usages
II-La quantification Exemple : quantification sur 3 bits Télécommunications, services & usages

56 Télécommunications, services & usages
1° quelques définitions La quantification Q(x) - L : nombre de valeurs quantifiées - b : nombre de bits de codage; L = 2b - x(0) ... x(L) : niveaux de décision - x(0),x(L) : seuils - d(i)=x(i)-x(i-1) : pas de quantification - y(1) ... y(L) : valeurs quantifiées remarque : la conversion analogique-numérique = échantillonnage + quantification Télécommunications, services & usages

57 Télécommunications, services & usages
L’erreur de quantification : q(x)=Q(x)-x - granulation : erreur liée au nombre de valeurs choisies (se2) - saturation : erreur liée au dépassement des seuils (sd2). x(n) y(n) + q(n) signaux aléatoires le signal de parole est considéré comme un signal aléatoire à moyenne nulle et variance sx2. l’erreur de quantification sera donc appelée bruit de quantification, en général à moyenne nulle (0,se2). Télécommunications, services & usages

58 Télécommunications, services & usages
[sachez parler] VS ??? -0.1 0.1 histogramme Télécommunications, services & usages

59 Télécommunications, services & usages
facteur de charge G G=xs/sx Rapport Signal-Bruit (RSB ou SNR) [dB] facteur de charge G rapport entre les valeurs seuils choisies et l’écart-type du processus. Rapport Signal-Bruit (RSB ou SNR) rapport entre l’énergie du signal de parole et l’énergie du bruit de quantification En négligeant l’erreur de saturation (sigma d), on obtient sous hypothèse signal gaussien et bruit de quantification uniforme, la loi des 6 db par bits de plus sur le RSB Télécommunications, services & usages

60 Télécommunications, services & usages
2° la quantification uniforme définition : - y(i)=1/2 ( x(i-1)+x(i) ) -d(i)= d qlqsoit i -valeurs seuils : -xs, xs propriétés : - d=2 xs /L - erreur de granulation |e|< d/2 Lorsqu ’on effectue une quantification uniforme, le seul problème est de définir le seuil en fonction du nombre de bits possible. Le RSB varie en fonction de G, en théorie, plus il est faible, mieux c ’est, sauf quand il y a dépassement. Le dépassement dépend du type de loi de probabilité. Télécommunications, services & usages

61 Télécommunications, services & usages
rappel : G=xs/sx. La courbe présentée est valable pour un processus gaussien uniquement. On voit ici que si on ne tient pas compte de l’erreur de saturation, plus G est petit (donc plus xs se rapproche de sx), meilleur est le RSB. En réalité, à partir d un certain seuil il est dégradé, à cause de l’erreur de saturation, ici aux alentours de -20 à -10dB. Télécommunications, services & usages

62 Télécommunications, services & usages
La prise en compte de l’erreur de saturation fait apparaître un point optimal dependant de gamma. Télécommunications, services & usages

63 Télécommunications, services & usages
3° la quantification non-uniforme L ’intérêt est d ’attribuer plus de bits aux valeurs qui ont le plus de probabilité d ’apparaître. Comment choisir la répartition optimale ?? Télécommunications, services & usages

64 Signal de distribution uniforme
Transformation non-linéaire préalable q(n) Compression des amplitudes + Dilatation des amplitudes y(n) x(n) Signal de distribution uniforme Télécommunications, services & usages

65 Télécommunications, services & usages
Norme: Modulation par Impulsions Codées (MIC, 64kbits/s) (Pulse Code Modulation, PCM) Filtre Hz Éch. fE=8kHz Compression d ’amplitude Quantification 8bits Norme européenne La loi Américaine est légèrement différente, µ-law En utilisant ce type de loi, on arrive a une qualité équivalente a du 8x12bit (96 kbit/s) en utilisant que 8 bits (64 kbit/s) Télécommunications, services & usages

66 Représentation de la loi de compression
Télécommunications, services & usages

67 Télécommunications, services & usages
En utilisant ce type de loi, on arrive a une qualité équivalente a du 8x12bit (96 kbit/s) en utilisant que 8 bits (64 kbit/s) Télécommunications, services & usages

68 Télécommunications, services & usages

69 III-La quantification différentielle (differential quantization)
1° Principe q(n) x(n) + y(n) r(n) - x(n-1) z-1 Décorrélation >>> Télécommunications, services & usages

70 Télécommunications, services & usages
2° Gain RSB Si rx(1)>0.5, sr2 < sx2, A nombre de niveaux constant, on peut réduire le pas de quantification et améliorer le RSB dans un rapport sr2/sx2 En cours développer et expliquer cette différence. Cette approche revient à diminuer la redondance dans le signal Télécommunications, services & usages

71 y(n)=x(n)+e(n); e(n)=q(n)+e(n-1) Intégration de l ’erreur !!!!
3° Mise en œuvre codage-décodage x(n) + q(n) - z-1 x(n-1) r(n) y(n) y(n-1) t(n) y(n)=x(n)+e(n); e(n)=q(n)+e(n-1) Intégration de l ’erreur !!!! Télécommunications, services & usages

72 Télécommunications, services & usages
Idée : coder la différence par rapport à la sortie q(n) x(n) + t(n) y(n) r(n) - + y(n-1) y(n-1) z-1 Remarque : OK si le signal est correctement codé ; quantification suffisante Télécommunications, services & usages

73 Télécommunications, services & usages
Délocalisation du décodage q(n) x(n) + t(n) y(n) r(n) - + y(n-1) y(n-1) z-1 z-1 + Télécommunications, services & usages

74 r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - … - ap.x(n-p)
4° Prédiction linéaire r(n)=x(n)-x(n-1) r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - … - ap.x(n-p) Variance de l ’erreur faible. Erreur = bruit blanc Justification de ce modèle d’après la théorie de la parole Quel ordre p ? Quels paramètres AR ? Quel gain ? Télécommunications, services & usages

75 Télécommunications, services & usages
Modélisation AR q(n) x(n) + t(n) y(n) r(n) - + y(n-1) y(n-1) P(z) P(z) + P(z)=a1z-1 + a2z apz-p Télécommunications, services & usages

76 Télécommunications, services & usages
2° Système DPCM (MICD) -0.1 -0.05 0.05 0.1 20ms (160 ech); 8kHz ARMA(6,2); 2-5 bits/ech. (16-64 kb/s) Télécommunications, services & usages

77 IV-La quantification adaptative (adaptive quantization)
1° Principe : adapter au fur et à mesure les paramètres (AR, gain) du signal de parole couplée avec la quantification différentielle Modulation par Impulsions Codées Différentielle Adaptative (MICDA) Adaptive Differential Pulse Code Modulation (ADPCM) Télécommunications, services & usages

78 Télécommunications, services & usages
Disponible sur le site Texas Instrument Télécommunications, services & usages

79 Télécommunications, services & usages
4) En résumé système PCM : fe=8kHz, 8pts/ech. 64kb/sec, Système ADPCM : fe=8kHz, 4<.<8pts/ech kb/sec Objectif : <16 kb/sec Moins de 2bits/point !!!!!!!! Télécommunications, services & usages

80 B-La quantification vectorielle
Principe de la quantification vectorielle Quantification vectorielle prédictive (CELP). 1 exemple de codeur utilisé en téléphonie cellulaire : GSM. Télécommunications, services & usages

81 I-La quantification vectorielle (vectorial quantization)
1° Principe : Regrouper les échantillons pour les transmettre. Mieux rentabiliser chaque bit utilisé. Règle du plus proche voisin Inspection dans une table V’(m) V(m) i(m) V’1…V’ L V’1…V’ L Télécommunications, services & usages

82 Télécommunications, services & usages
Exemple pour M=2 : le codage vectoriel permet d ’adapter la répartition des codes. Télécommunications, services & usages

83 Télécommunications, services & usages
2° Algorithmie : Comment choisir le dicitonnaire ?? algorithme de Lloyd-Max 1- Initialiser le ‘dictionnaire’ >> niveaux 2- Appliquer la règle du plus proche voisin (minimiser l’erreur de codage) >> seuils implicites 3- Appliquer la règle du centroïde (minimiser l’erreur de décodage) >> niveaux 4- Refaire 2 et 3 jusqu’à convergence... Télécommunications, services & usages

84 II-LPC (linear predictive coding)
1° Principe : Minimiser la corrélation entre échantillons codés simultanément pour simplifier le travail du ‘ dictionnaire ’. Règle du plus proche voisin V’(m) Inspection dans une table R’(m) V(m) R(m) i(m) A(z) 1/A(z) - R’1…R’ L R’1…R’ L Optimisation des paramètres AR pour chaque vecteur Coder l ’erreur après modélisation AR V(z) = Bruit(z)/A(z) Télécommunications, services & usages

85 Télécommunications, services & usages
2° Codeur prédictif excité par des codes (Code Excited Linear Predictive Coding, CELP) : Minimiser les distorsions en minimisant l ’erreur relative au signal initial. Règle du plus proche voisin i(m) V’(m) Inspection dans une table V(m) V’1…V’ L V’M AR(m) 1/A(z) 1/A(z) R’1…R’ L R’1…R’ L Télécommunications, services & usages

86 Télécommunications, services & usages
3° Prédiction long terme (long terme prediction, LTP) : Ajouter un 2ième étage de prédiction pour prendre en compte la périodicité des sons voisés.... 4° Introduction d ’un facteur perceptuel (préfiltrage W(z)) : Utiliser les principes de ‘masquage du son’ pour concentrer l ’erreur dans les zones non perceptuelles (cf. cours sons audio). Télécommunications, services & usages

87 Télécommunications, services & usages
III-Codeurs GSM passe-haut (>80Hz) Estimation AR Prédiction à long terme Modélisation du bruit Paramètres AR Paramètres b,Q Index du dictionnaire Télécommunications, services & usages

88 Télécommunications, services & usages
Norme GSM, FR (Full Rate) (RPE-LTP, Regular Pulse Excitation with Long Term Prediction) 1- Pré-accentuation H(z)=(1-0.86z-1 ) 2- LPC ordre 8, algorithme de Schur sur N=160échantillons. Codage des coefficients sur 36bits/fen160ech kbit/s 3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (7+2)bits/fen40ech kbit/s 4- Sous échantillonnage par 3 =>4 signaux de 13 éch. On garde seulement le plus énergétique (2bits). Quantification non uniforme sur 3bits des 13 éch. Quantification non uniforme du facteur d’échelle sur 6bits. Codage (2+3*13+6)bits /fen40ech 9.4kbit/s 13kbit/s Télécommunications, services & usages

89 Télécommunications, services & usages
Norme GSM, EFR (Enhanced Full Rate) (CELP Code Excited Linear Prediction) (GSM version 6.0.1, release 1997) P:/gorceGSM_juillet2000 1- Pré-filtrage (passe-haut, 80Hz) 2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons Codage des coefficients sur 38bits/fen160ech 1.9kbit/s 3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (9;6 +4)bits/fen 40ech kbit/s 4- Dictionnaire à structure algébrique. Codage des coefficients 35 bits/fen 40ech kbit/s Codage du gain statique 5bits/fen 40 ech kbit/s 12.2kbit/s Télécommunications, services & usages

90 2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons
Estimation d ’un modèle AR ordre 10 après fenêtrage WI(n) et WII(n) : - directement modèles pour les sous-fenêtres f2 et f4. - par interpolation modèles pour les sous-fenêtres f1 et f3. Télécommunications, services & usages

91 On obtient en sortie un bruit Filtre de synthèse quantifié
Codage des coefficients AR (2 vecteurs) sous forme d ’une matrice, pour les 2 fenêtres. (on code ensemble les modèles des 4 sous fenêtres d ’un ‘ frame ’ Rem : on ne code pas directement les coefficients AR, mais des coefficients équivalents dans un espace fréquentiel équivalent. (LSF, linear spectral frequencies) On obtient en sortie un bruit Filtre de blanchiment Filtre de synthèse quantifié Télécommunications, services & usages

92 Télécommunications, services & usages
2b- filtrage ‘perceptuel’ Limiter le bruit de quantification dans les zones fréquentielles à haute énergie (formants) s(t) |S(z)| |W(z)| Télécommunications, services & usages

93 Résumé de la phase de prédiction linéaire
s(n) 160 éch. Â(z) A(z)/A(z/g) w(n) w’(n) Paramètres AR définis pour des fenêtres de 40 éch. (5ms) Â(z)=1+ a1.z-1 + a2.z-2 + …+a10.z-10 Transmission et codage des paramètres d ’une fenêtre sur 2 regroupement par 2 : codage sur 38bits pour 160 échantillons (20ms), de la différence avec les vecteurs précédents. Télécommunications, services & usages

94 Télécommunications, services & usages
s(n) w’(n) Reste une certaine périodicité >>> Prédiction long terme Télécommunications, services & usages

95 « pitch synthesis filter » i.e. périodicité de période Q.
3- Prédiction à long terme « pitch synthesis filter » y(n)=e(n)+b.y(n-Q) i.e. périodicité de période Q. Filtrage w’(n) 160 éch. B(z) w’’(n) Pour b : 4bits / sous-fenêtre Pour Q, codage sur les sous-fenêtres - codage f1 et f3 (9bits x2) - codage de la différence pour f2 et f4 (6bits x2). Paramètres b,Q définis pour des fenêtres de 40 éch. B(z)=1-bz-Q Télécommunications, services & usages

96 Télécommunications, services & usages
4- Codage Par dictionnaire algébrique Dans une fenêtre, codage des 10 / 40 échantillons les plus forts 10 ech = 5 mots de 2 impulsions Télécommunications, services & usages

97 Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5
Minimisation de l ’erreur de synthèse Mot Code i : 2 impulsions => - position de chaque impulsion (8 positions) sur 3bits. - signe de la première sur 1 bit (l ’autre signe est déduit). code Gray Code à transmettre : 7 bits par mot code => 35 bits / ssfen Codage d ’un coefficient de gain statique : 5 bits /ssfen Conservation de l ’énergie du signal Télécommunications, services & usages

98 Télécommunications, services & usages
En résumé Codage de base (PCM) 64kbit/s. qualité téléphonique (pas audio). Codage adaptatif différentiel (ADPCM), même qualité à 32kbit/s. Acceptable jusqu’à 16kbit/s. Codage vectoriel : regrouper les valeurs à coder pour diminuer la redondance. Autour de 10kbit/s. (militaire : 4.kbit/s). Complexité des méthodes hybrides. Augmentation des performances. Codage en sous-bandes??? Télécommunications, services & usages

99 Traitement de la parole
-Le codage du son- Télécommunications, services & usages

100 Télécommunications, services & usages
Problématique du codage qualité débit complexité coût Compression Télécommunications, services & usages

101 Télécommunications, services & usages
A-Qu ’est-ce qu ’un son ? La parole (cf. cours précédent) La musique Les autres sons Télécommunications, services & usages

102 Mise en œuvre de codeurs spécifiques très performants
I-La parole (résumé) Propriétés connues : - fmax=3,4kHz (=> Fe=8kHz) - Processus de formation (formants, pitch, harmoniques) - Modélisation AR performante. - Loi de distribution ~ Laplace (=>A-law, µ-law) Objectif :transmission d ’un message compréhensible et reconnaissance du locuteur Mise en œuvre de codeurs spécifiques très performants Télécommunications, services & usages

103 II-La musique (naturelle ou synthétique)
1° Les notes pitch, fondamental, tonalité…do, re…. même note, octave différente La 110Hz La 220Hz La 440Hz f 1 octave = x2 Télécommunications, services & usages

104 Télécommunications, services & usages
2° Les harmoniques 1 -1 5 10 15 20 25 Télécommunications, services & usages

105 Télécommunications, services & usages
3° Le timbre (forme d ’onde; waveform) Télécommunications, services & usages

106 IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE
4° Musique : - Somme de plusieurs notes (pitch) - Différentes formes d ’ondes (les instruments) + chant =parole modulée. IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE Télécommunications, services & usages

107 Télécommunications, services & usages
III-Les autres sons Applications : TVHD, Vidéo, Multimédia …. Les bruits ambiants, les onomatopées, etc…. Bruits sourds (chute d ’eau…) Bruits brusques (bris de glace…) = transmettre tout ce qui est susceptible d ’être perçu par l ’auditeur. Télécommunications, services & usages

108 N ’autoriser que les pertes non perceptibles
B-Codage ‘ Audio ’ ? codeur décodeur Émetteur Récepteur N ’autoriser que les pertes non perceptibles Télécommunications, services & usages

109 I-Modèle psychoacoustique
1° Bande passante : Seuil d’audibilité d’une sinusoïde BP=[20Hz ; 20kHz] fE>40kHz Télécommunications, services & usages

110 Télécommunications, services & usages
3° Masquage fréquentiel (f1,P1=80 dB) : sinusoïde masquante (f2,P2) : P2 à émettre pour entendre f2 Télécommunications, services & usages

111 Télécommunications, services & usages
2° Bandes critiques fréquentielles (critical bands) Détection de f+df ?? Passage des Hertz au Bark 10 Bark 1 La résolution fréquentielle est meilleure. Par contre si on émet 2 sons dans la même bande, ils se somment d ’un point de vue perceptif. 10 100 1k 10k f(Hz) Télécommunications, services & usages

112 Télécommunications, services & usages
Courbes de masquage >> segments de droite indépendante de f1 En utilisant le bark, on a toujours une pente identique des 2 côtés de la fréquence de masquage=> uniformisation des interactions entre bandes. Télécommunications, services & usages

113 Exemple de bande critique en BF (120Hz)
1.8 1.6 1.4 1 bark 1.2 1 0.8 0.6 Df 0.4 0.2 20 40 60 80 100 120 140 160 180 200 32 bandes critiques de 20 Hz à 20 kHz, Df : Hz Télécommunications, services & usages

114 Télécommunications, services & usages
4° Masquage temporel Après un son relativement fort, masquage de la bande critique (et voisines…) pendant un certain délai. Télécommunications, services & usages

115 Télécommunications, services & usages
4° Masquage fréquentiel et temporel Télécommunications, services & usages

116 Télécommunications, services & usages
5° Nouvelle approche de compression : utilisée dans MPEG Principe : utiliser les propriétés de masquage de certaines zones de fréquence pour réduire le débit nécessaire. Pertes non perceptibles Passage dans le domaine de Fourier nécessaire Codage en sous-bandes Télécommunications, services & usages

117 Télécommunications, services & usages
II-norme MPEG Audio 1°) Etat des lieux Qualité Audio Numérique 44.1kHz 16bit (96dB relativement au seuil d ’audibilité) loi de distribution inconnue (pas de A-law) stéréo Débit de 1,4Mbit/s Télécommunications, services & usages

118 Compression sans pertes audibles Normalisation nécessaire
2°) Objectifs Stockage (CD) : morceau de musique de 50 ’ 1.4Mbit/s*50*60=5.05Gbit=630MO Transmission (TVHD, multimedia) : temps réel diminuer le débit pour améliorer les capacités de transmission. Compression sans pertes audibles Normalisation nécessaire Télécommunications, services & usages

119 Moving Pictures Coding Experts Group
3°) MPEG Audio Moving Pictures Coding Experts Group Janvier 1988 : naissance, groupe mandaté par ISO/EIC MPEG = normalisation vidéo / audio / system MPEG-1 : qualité VHS sur CD-rom (352x288 + CD 1.5Mbit/s) MPEG-2 : TVHS, multimedia ==>TV numérique AAC (fin Avril97) Advanced Audio Coding MPEG-4 : diminuer le débit; coder infos complémentaires ==>Multimédia Rem sur MPEG 4 : coder par exemple l’auteur, les autorisations, protections, etc... Télécommunications, services & usages

120 Télécommunications, services & usages
4°) MPEG-1 audio 3 couches définies (qualité/complexité du codage) pour qualité audio : layer 1 : 384 kb/s 1/4 layer 2 : 256…192 kb/s 1/6..1/8 layer 3 : 128…112 kb/s 1/10..1/12 Tx de réduction Le débit est le débit cumulé des 2 voies stéréo. Mais différentes fréquences d ’échantillonnage et débits autorisés (32kHz, 44.1kHz, 48kHz) Télécommunications, services & usages

121 Qualité de compression, couche 3
sound quality bandwidth mode bitrate reduction ratio telephone sound kHz mono 8 kbps * 96:1 better than shortwave kHz mono 16 kbps :1 AM radio 7.5 kHz mono 32 kbps :1 similar to FM radio kHz stereo kbps :1 near-CD 15 kHz stereo 96 kbps :1 CD >15 kHz stereo kbps :1 *) Fraunhofer uses a non-ISO extension of MPEG Layer-3 for enhanced performance ("MPEG 2.5") Le ratio est donné par rapport à la qualité MPEG 1 non compressé. From the Fraunhofer Institute for Integrated Circuits, Applied Electronics Center, IIS-A, Télécommunications, services & usages

122 Télécommunications, services & usages
Principe général de MPEG-1 (et suivants) Filtres Décomposition en bandes critiques Allocation des bits (f(s²)) Quantification +- Codage in Exploitation masquage Décrire au tableau le filtrage en bandes critiques (Bark). Donner un exemple de masquage. Et l ’utilisation pour l ’attribution du nombre de bits Télécommunications, services & usages

123 Télécommunications, services & usages
384 ech. Layer 1 : Masquage fréquentiel + QScal Layer 2 : + Masquage temporel Layer 3 : + Redondance stéréo + Huffman Chaque vecteur traité comprends 384 échantillons, divisé dans 32 sous-bandes de 12 échantillons (exploitation du masquage fréq). Puis dans la couche 2, on utilise le masquage temporel avec le précédent et le suivant. Dans la 3ieme couche, masquage temporel généralisé, filtres de bandes critiques meilleurs, model psychoacoustic, redondance stéréo, et codage d ’Huffman en final. Télécommunications, services & usages

124 III-Codage en sous-bandes
1°) Sous-échantillonnage Télécommunications, services & usages

125 Constante, Sinusoïde f0=fE, ou f0=2.fE
Spectre d ’un signal échantillonné f0 -fE fE fE/2 -fE/2 A Composante continue ?? Constante, Sinusoïde f0=fE, ou f0=2.fE Télécommunications, services & usages

126 Sous-échantillonnage
Recouvrement spectral f0 -fE fE fE/2 -fE/2 A Sous-échantillonnage A/2 XSE(f)=1/2 [ XE(f)+XE(f-fe/2) ] -fE -fE/2 f0 fE/2 fE Télécommunications, services & usages

127 Télécommunications, services & usages
Filtre anti-repliement f0 -fE fE fE/2 -fE/2 A/2 fE/4 A/2 -fE -fE/2 f0 fE/2 fE Télécommunications, services & usages

128 Télécommunications, services & usages
2°) Décomposition en 2 sous-bandes f0 -fE fE fE/2 -fE/2 A Périodicité!!! f0 -fE fE fE/2 -fE/2 A Télécommunications, services & usages

129 Télécommunications, services & usages
Représentation des 2 sous-bandes f0 -fE fE fE/2 -fE/2 A f0 -fE fE fE/2 -fE/2 A Télécommunications, services & usages

130 Télécommunications, services & usages
Sous-échantillonnage des 2 sous-bandes A/2 -fE -fE/2 f0 fE/2 fE A/2 -fE -fE/2 f0 fE/2 fE Télécommunications, services & usages

131 Télécommunications, services & usages
3°) Sur-échantillonnage f0 -fE fE fE/2 -fE/2 A 2.fE -2.fE Télécommunications, services & usages

132 Télécommunications, services & usages
dans le domaine temporel Télécommunications, services & usages

133 Télécommunications, services & usages
Filtre passe-bas=interpolateur A -2.fE -fE -fE/2 f0 fE/2 fE 2.fE Télécommunications, services & usages

134 Télécommunications, services & usages
4°) Sous / Sur-échantillonnage d ’un facteur m perte d ’information x(n) xSE(n) H(z) m xSE(n) x’(n) m F(z) Télécommunications, services & usages

135 Télécommunications, services & usages
Schéma de principe de la décomposition en 2 sous-bandes x0(n) x(n) H0(z) 2 N/2 points N points x1(n) 2 H1(z) N/2 points H0 : filtre réel [0; fe/4] H1 : filtre réel [fe/4; fe/2] En théorie, pas de pertes = sous-échantillonnage critique. Télécommunications, services & usages

136 Télécommunications, services & usages
5°) Généralisation en N sous-bandes N/m points x0(n) x(n) H0(z) m m F0(z) N points x1(n) H1(z) m m F1(z) xm(n) Hm(z) m m Fm(z) Télécommunications, services & usages

137 Télécommunications, services & usages

138 Télécommunications, services & usages
6°) Les problèmes techniques 1) Le choix des filtres H : parfaits => IIR 2) Approximation => choix des filtres F adaptés (transformée en Cosinus) 3) Sélectionner la bonne longueur de vecteur initial 4) Nombre de bandes de fréquences Télécommunications, services & usages

139 Télécommunications, services & usages
7°) Les progrès MPEG-2, 4 Utiliser le modèle psycho-acoustique pour choisir le nombre de bits par bande de fréquence. Utiliser une répartition non homogène de l’ échelle des fréquences. Utiliser la redondance entre voies stéréo (ou 5 voies, surround). Intégration du codage vectoriel / prédiction linéaire sur les bandes de fréquences. Télécommunications, services & usages

140 Télécommunications, services & usages
IV-Conclusion Codage audio (musique) Codage parole (téléphonie) full-duplex Un bon codeur = répondre à des contraintes spécifiques au plus près. Interactions entre vectoriel / sous-bandes Télécommunications, services & usages


Télécharger ppt "Traitement de la parole"

Présentations similaires


Annonces Google