Traitement de la parole

Slides:



Advertisements
Présentations similaires
Chap. 1 - Introduction Plan
Advertisements

Traitement de signal.
Approximation CHEBYSHEV.
La Cyclostationnarité Aspects théoriques et application au Diagnostic
Analyse Spectrale de Fourier
Analyse temps-fréquence
Numérisation du signal principes
PRINCIPE SIMPLIFIE DE LA COMPRESSION MP3
Le Signal Vocal Notions sur l’audition Allure temporelle
1 Jean-Paul Stromboni, mars 2005, Révision des cinq premières séances S.S.I. Jean-Paul Stromboni, mars 2005, ESSI1 Elève : ______________________ groupe.
Comment décimer les sons numériques
4. La transformée en z Un formalisme adapté au filtrage et à l’analyse en fréquence des signaux échantillonnés et à l’automatique numérique x(t) signal.
Filtres (n entier, Te=1s)
Calcul de la composition fréquentielle du signal audio
1 Jean-Paul Stromboni, mars 2005, Révision des cinq premières séances S.S.I. Jean-Paul Stromboni, mars 2005, ESSI1 Elève : ______________________ groupe.
Codage de la parole Ivan Magrin-Chagnolleau, CNRS
Reconnaissance Automatique de la Parole
Cours parole du 26 Janvier 2005 enseignants: Dr
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du signal continu au numérique
Mesures dans le domaine fréquentiel
Modulation numérique.
2. Echantillonnage et interpolation des signaux vidéo
6. Quantification des signaux visuels. Codage prédictif (MICD)


Séries de Fourier Tout signal périodique (T) de puissance finie peut être décomposé en une somme de sinus et de cosinus. An=0 1(4/) 1+ 3 (4/3)


Dpt. Télécommunications, Services & Usages Théorie de l information H. Benoit-Cattin Introduction 2. Vue densemble 3. Sources discrètes & Entropie.
Traitement du Signal Hugues BENOIT-CATTIN.
SON COMPLEXE - SPECTRE Le son pur est un modèle mathématique (sinusoïde…) Un son complexe peut être décomposé en une sommes de sinusoïdes (Théorème de.
Traitement Numérique du Signal
Chaîne de Transmission
Codage et Protection contre les Erreurs
TRANSMISSION DES DONNEES.
Laurent Saïd (98) ST Microelectronics 12, avenue Jules Horowitz
Divers procédés de modulation sont utilisés dans le domaine hertzien et dans le domaine câblé pour transporter les informations numériques Ces techniques.
Traitement du signal TD0 : Introduction.
Le cahier de charge d'un système de RAP
Une visite guidée dans le monde des ondelettes
Signaux aléatoires.
Analogique-numérique
S.S.I., ESSI1, le 8 février 2004 Page 1 Numériser le signal audio Séance 2, cours, 1 heure auteur : Jean-Paul Stromboni Idées clefs de la séance De nombreuses.
L'audition.
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Le multiplexage Réalisé par: Amama Ahmed Bahria Mohamed Amine.
FILTRAGE - R.WEBER - POLYTECH'ORLEANS
7 - Son.
Théorie de l'Échantillonnage
Numérisation et codage de l’information Codage de la parole
Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 14/05/ Son : codage et compression.
SoundEngine Un serveur d ’effets sonore en temps réel Juillerat Nicolas.
Traitement de la parole : Synthèse et reconnaissance
DU TRAITEMENT DU SIGNAL
Reconnaissance automatique de la parole
Juillet 2001  Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
TNS et Analyse Spectrale
Chapitre 1 - Introduction.
TNS et Analyse Spectrale
DU TRAITEMENT DU SIGNAL
Rappels sur les fonctions et les suites aléatoires
La transformée de Fourier discrète dans le numérique Des algorithmes de base aux déploiements à grande échelle Maurice Bellanger CNAM Formation BTS.
L3 Instrumentation Pétrolière S6
SSII, séance n°13, bilan du cours 15 décembre 2015 Dernière séance 2015 Résumé des chapitres et notions abordées en 2015.
Introduction au traitement numérique du signal
Les ondes.
Numérisation des signaux
Transcription de la présentation:

Traitement de la parole -Introduction- Télécommunications, services & usages

-grammaire, analyse sémantique Restauration -analyse SNR -filtrage Codage -quantification -codage par modèles -transmission Reconnaissance -modélisation du langage -théorie de la décision -intelligence artificielle Com. Multimodale -multimédia -son-image -les 5 sens Analyse-synthèse -modélisation physique -modélisation électrique -analyse spectrale -prédiction linéaire Compréhension -base de données -grammaire, analyse sémantique Identification ‘speaker specific’ Le traitement de la parole trouve de très nombreuses applications dans les télécommunications, l’automatisme avec les interfaces homme-machine, les systèmes de sécurité (reconnaissance vocale), les serveurs vocaux, etc... Ses débuts remontent aux années 30 (1er système de synthèse). L’analyse de la parole est la source de tous les développements successifs liés à ce domaine. On entend par analyse, la compréhension de ce qu’est un signal acoustique de parole. Pour permettre cette compréhension, la synthèse de la parole est fondamentale. En effet, ‘on ne comprend bien que ce qu’on est capable de produire’. Les 1ères études cherchaient donc à comprendre les principes physiques de production de la parole. Puis de façon plus élaborée, en s’affranchissant de la physiologie, on a cherché à synthétiser (conversion électro-acoustique) la parole. L’analyse de Fourier et la modélisation paramétriques ont permis de progresser rapidement. Les modélisations issuent de ces études ont permis d’améliorer le codage (augmentation du débit de transmission, compression), d’améliorer la qualité de signaux bruités, de développer des méthodes de reconnaissance vocale. Dans ce cours nous étudierons essentiellement cette modélisation, avec bien sur ses applications en transmission-codage-compression, très présentes dans les systèmes de communication d’aujourd’hui. Nous parlerons un peu du multimédia et de l’intégration du signal de parole au sein d’un système de communication multimodal (norme MPEG par ex). Les systèmes de reconnaissance vocale de plus en plus élaborés doivent permettre non seulement de reconnaître la parole MAIS AUSSI le langage : dépasser la syntaxique pour atteindre la sémantique (l’intelligence absolue??) Télécommunications, services & usages

Télécommunications, services & usages idée, niveau cognitif, pensée. Locuteur La parole compréhension Auditeur ????????? objectif : la communication traitement cognitif construction grammaticale. prétraitement sensoriel commande musculaire. signal acoustique = vecteur de la parole système auditif système phonatoire L’objectif de toute application du domaine du traitement de la parole est de reproduire l’un ou l’autre des blocs de cette représentation, par un système spécifique. La modélisation a pour but de simuler (ou synthétiser) la parole. Les techniques de reconnaissance vocales cherchent à remplacer le prétraitement sensoriel, c’est à dire à pouvoir reconnaître des mots (enlever le bruit=filtrer) découper les mot, éventuellement reconnaître les voyelles, les consonnes, i.e. les phonèmes. C’est une analyse syntaxique (=correcteur d’orthographe de Word dqns le domaine de l’écrit). Les techniques encore plus évoluées utilisant l’intelligence artificielle, cherchent à interpréter (=analyse sémantique, reconnaissance de phrases, notion de SENS, pouvant permettre une prise de décision ou un apprentissage) Télécommunications, services & usages

‘la parole aux télécoms’ signal acoustique Locuteur Auditeur problème : limité dans l’espace microphone écouteur signal électrique signal électrique transmission électromagnétique câble hertzien CAN CNA A partir de ce schéma on peut représenter tout le développement des dernières décennies relatives aux télécommunications. Mot clé : permettre la communication à distance. Au départ, l’objectif était de permettre la communication à distance. Il n’était donc pas nécessaire de modéliser ou de comprendre les techniques de production de la parole, à partir du moment où on savait convertir l’onde acoustique en onde électrique, la transmettre le long d’une ligne puis la reconvertir en onde acoustique. Mais la présence de bruit de transmission due notamment aux interférences électromagnétiques et à la dispersion dans les câbles ont incité les ingénieurs et chercheurs à améliorer les systèmes de transmission. L’arrivée du numérique a permis d’envisager une avancée spectaculaire, tout comme les techniques de multiplexage temporel ou spectral qui ont permis la transmission simultanée de plusieurs voix sur une même ligne. signal numérique signal numérique Télécommunications, services & usages

Télécommunications, services & usages Le codage de la parole degré de complexité -analogique R E -numérique quantification échantillonnage R E CAN CNA -codage modélisation compression R E CAN CNA codeur décod. Les techniques de transmission ont évolué en fonction des besoin de transmission. La méthode la plus simple est la transmission analogique, qui ne nécessite aucune connaissance exacte des propriétés des signaux de parole. Elle est limitée en qualité et en capacités. La conversion numérique permet d’améliorer, et le débit, et la qualité. Les problèmes spécifiques pour la conversion sont la quantification et l ’échantillonnage. On s’est aperçu que le signal de parole était fortement redondant et qu’il était possible de mieux ‘coder’ le signal de parole pour diminuer le nombre de bits à transmettre. Mais dans ce cas, l’utilisation du codage nécessite des normes très précises pour permettre à l’interlocuteur de comprendre => Importance de normes qui évoluent pour bénéficier des progrès technologiques mais de façon contrôlée pour garantir la compatibilité des systèmes de communication. On ne parlera pas dans ce cours du multiplexage ni des techniques liées à la transmission. Normes de communication Télécommunications, services & usages

Aspects abordés dans ce cours modélisation du signal de parole le codage direct (PCM, DPCM, APCM, ADPCM) la prédiction linéaire (APC,LPC,RPE-LTP) la quantification vectorielle (VSELP, CELP, ACELP) transformée en sous-bande (MBE,MELP) signal audio musical : HD, (MPEG, MIDI) La principale différence entre le codage musical et le codage de la parole est liée à l’objectif recherché En musique, on recherche de la haute-fidélité donc pas de perte signal alors qu’en parole on veut ‘seulement’ une comprehension 100%, mais qui autorise certaines pertes (bande passante, quantification...) Les exigences en compression (ou nb de bits /s requis) sont également très différentes. En téléphonie on échantillonne à 8kHz (fmax=4kHz) et sur 8 bits, ce qui donne un débit de base de 64kbits/s. Avec différents algorithmes de compression (avec pertes) on descend actuellement jusqu’à 2kbits/s (mauvaise qualité). En musique haute fidélité (hi-fi), (on verra la norme MPEG), on veut préserver les sons jusqu’à 20kHz ce qui donne 1411,2kbits/s à la base. La qualité hi-fi est préservée avec la norme MPEG autour de 128kbits/sec à 384kbits/s suivant l’algorithme utilisé. Télécommunications, services & usages

Traitement de la parole -Etude du signal de parole- Télécommunications, services & usages

Télécommunications, services & usages Plan production naturelle de la parole modélisation physique modélisation spectrale, analyse de Fourier modélisation paramétrique autorégressive Télécommunications, services & usages

I-Production naturelle de la parole 1) un peu de physiologie narines Cavité nasale C. buccale lèvres langue pharynx oesophage La parole est le résultat de l’action volontaire et coordonnée des appareils respiratoire et masticatoire. Cette action se déroule sous le contrôle du système nerveux central qui reçoit en permanence des informations par rétroaction auditive et par les sensations cénesthétiques. l’appareil respiratoire fournit l’énergie nécessaire en propulsant l’air pendant la phase d’expiration, à travers la trachée-artère. Au niveau du larynx la pression de l’air est modulée avant d’être appliquée au conduit vocal (du pharynx aux lèvres). l’air envoyé par les poumons est modulé au niveau du larynx puis transmis au travers du conduit vocal (pharynx->lèvres) conduit vocal = ensemble de 3 cavités : -pharyngienne -buccale -nasale ces 2 dernières sont en parallèle glotte larynx Trachée artère Télécommunications, services & usages

Télécommunications, services & usages Cordes vocales Le larynx : - voisé ou non voisé - fréquence fondamentale (pitch) épiglotte Le larynx lieu où le type de signal est défini : - voisé ou non voisé (vibration ou non des cordes vocales) - fréquence fondamentale (fixée par la fréquence de vibration des cordes vocales) (80-200 Hz) voix masculine (150-450 Hz) voix féminine (200-600 Hz) voix enfantine muqueuse glotte Télécommunications, services & usages

Télécommunications, services & usages 2) Le rôle des cordes vocales : sons voisés Un son voisé est défini par : - sa fréquence fondamentale (=hauteur) - son timbre = rapport entre fondamental et harmonique 0.05 0.1 0.15 0.2 0.25 0.3 0.35 -0.3 -0.2 -0.1 0.4 temps amplitude ‘e’ si le larynx est partiellement fermé, cela entraîne la vibration des cordes vocales. Même principe que pour les instruments à vent (hautbois...) => sons voisés. si le larynx est entièrement ouvert seul un souffle passe. Les cavités produisent le son à partir du souffle (murmures, sons s,f,ch). Un son voisé est défini par : - sa fréquence fondamentale (=hauteur) (80-100Hz homme, 150-450Hz femme, 200-600Hz enfant) - son timbre = rapport entre fondamental et harmonique (son pur=sinusoide pure) Télécommunications, services & usages

Télécommunications, services & usages 3) Représentation simplifiée : souffle Pharynx Cavité buccale E cordes vocales Cavité nasale E b on j ou r Télécommunications, services & usages

Télécommunications, services & usages 4) Les différents types de sons (phonèmes) Les voyelles (voisées) Orales cordes vocales Pharynx Cavité buccale E souffle [A, E, I, O, U, OU...] Nasales Cavité nasale E cordes vocales Pharynx buccale souffle [IN, UN, AN, ON] Un phonème est la plus petite unité présente dans la praole et susceptible de changer la signification d’un mot. 36 phonémes dans la langue francaise. La classification des sons produits par la voix humaine est très complexe. La frontière entre les sons n ’est pas brutale et dépend du locuteur, du langage utilisé, etc… On admet que la langue française comporte 36 phonèmes = sons considérés comme ayant une signification différente. Télécommunications, services & usages

Télécommunications, services & usages 50 100 -0.2 0.2 0.4 t (ms) [e] 1 2 3 4 5 10 20 30 40 50 PSD [e] f (kHz) (dB) 50 100 -0.2 0.2 0.4 t (ms) [on] 1 2 3 4 5 10 20 30 40 50 PSD [on] f (kHz) (dB) Télécommunications, services & usages

Télécommunications, services & usages Les consonnes Liquides souffle cordes vocales Pharynx Cavité buccale E [R,L] Nasales souffle cordes vocales Pharynx Cavité buccale E Les consonnes dites liquides sont des sons voisés, et sont obtenus par un effet buccal. Les consonnes dites nasales, associent en plus la cavité nasale. [M,N,GN] Cavité nasale E Télécommunications, services & usages

Télécommunications, services & usages Pharynx Cavité buccale E souffle Fricatives non voisées [F, S, CH] Pharynx Cavité buccale E souffle Fricatives voisées Les consonnes fricatives résultent d ’une turbulence de l ’air créée par le passage de l ’air dans une constriction étroite du conduit vocal (lèvres /dents) F => labiale, S => dentale, CH => palatale (au fond du conduit Vocal) les fricatives voisées associent en plus une source périodique liée à la vibration des cordes vocales. [V, Z, J] cordes vocales Télécommunications, services & usages

Télécommunications, services & usages 10 20 30 40 50 60 70 80 90 100 -0.1 -0.05 0.05 0.1 t (ms) [ch] 1 2 3 4 5 6 7 8 9 10 -20 -10 20 30 PSD [ch] f (kHz) (dB) Télécommunications, services & usages

Télécommunications, services & usages Occlusives non voisées [P, T, K] souffle Pharynx Cavité buccale E Occlusives voisées souffle [B, D, G] Pharynx Cavité buccale E cordes vocales Les consonnes occlusives sont obtenues en relâchant brusquement le conduit vocal, après un certain temps de silence, durant lequel la pression est accumulée dans la cavité. La période de silence est appelée phase de tenue. Pour les occlusives voisées, un son basse fréquence est émis pendant la phase de tenue (par le conduit nasal). Cavité nasale E Télécommunications, services & usages

Télécommunications, services & usages [bon] 1 0.5 -0.5 [b] [on] -1 50 100 150 t (ms) [par] 0.1 0.05 -0.05 [p] [a] [r] -0.1 50 100 150 t (ms) Télécommunications, services & usages

II-Modélisation physique Objectif : reproduire les différents éléments à l’origine de la production de la parole. Voder (voice demonstration recorder) by Dudley (Bell inc.), développé en 1930 Un système électrique représente chacune des fonctions du système phonatoire Télécommunications, services & usages

III-Modélisation harmonique Modèle de Dudley (VOCODER) également développé en 1930 Bandpass filter 1 filter Q Non- linearity Lowpass filter Sampling rate reduction Amplitude Compression speech chaque son (ou phonème) peut être décrit dans le domaine spectral = décomposition de Fourier. Avec la notion de fondamental, harmoniques, formants .... Mathématiquement plus attractif. Télécommunications, services & usages

Transformée de Fourier = décomposition spectrale 50 100 -0.2 0.2 0.4 t (ms) [e] 1 2 3 4 5 10 20 30 40 50 PSD [e] f (kHz) (dB) DFT Transformée de Fourier = décomposition spectrale Télécommunications, services & usages

Télécommunications, services & usages Quelques propriétés spectrales Sons voisés Fondamental (pitch) Harmoniques Formants PSD [e] 50 40 30 (dB) L’enveloppe des harmoniques présentent des maximums appelés formants qui correspondent à des fréquences propres du conduit vocal. Les trois premiers formants sont essentiels pour caractériser le spectre vocal. 20 10 f (kHz) 1 2 3 4 5 Télécommunications, services & usages

Télécommunications, services & usages Sons non voisés Bruit blanc (souffle) 1 2 3 4 5 6 7 8 9 10 -20 -10 20 30 PSD [ch] f (kHz) (dB) Télécommunications, services & usages

Non stationnarité : le spectrogramme 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -0.4 -0.2 t (s) bonjour t (s) f (MHz) 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.5 2 Mais la parole est construite comme une succession de sons et les propriétés spectrales sont donc non stationnaires (spectre varie au cours du temps), alors que le concept même de FFT est lié à la stationnarité. On introduit alors la notion de spectrogramme ou sonogramme, en admettant que les sons sont stationnaires sur des courtes périodes (20ms). Télécommunications, services & usages

Télécommunications, services & usages 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -0.1 -0.05 0.05 t (s) sachez parler t (s) f (MHz) 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2 3 4 Télécommunications, services & usages

Transformée de Fourier Densité spectrale de puissance Signal aléatoire : Transformée de Fourier Signal Densité spectrale de puissance Processus stationnaire, ergodique Plusieurs réalisations, Energie finie La transformée de Fourier donne le résultat pour une réalisation. La densité spectrale caractérise au contraire les propriétés moyennes du spectre. DSP=mean(TSF) Télécommunications, services & usages

Processus gaussien non corrélé Signal Signal Fourier DSP Télécommunications, services & usages

IV-Modélisation paramétrique La modélisation paramétrique présentée repose sur les propriétés de la transformée en z et de la modélisation ARMA (filtres IIR; FIR). Quelques rappels : - transformée en z -modélisation ARMA -les différentes représentations des modèles AR On s’attarde un peu plus sur cette modélisation qui nous permettra de faire quelques rappels sur les signaux échantillonnés et les filtres FIR et IIR. On verra que cette modélisation justifie la qualité des codeurs basés sur la prédiction linéaire et les codeurs vectoriels Je donnerai quelques rappels sur la transformée en z, puis sur le filtrage FIR, IIR et enfin la représentation d’un processus à partir de sa fonction de transfert. Télécommunications, services & usages

Télécommunications, services & usages 1) La transformée en z la transformée en Z est aux signaux échantillonnés ce que la transformée de Laplace est aux signaux continus (automatisme) X(z) est définie comme la somme d’une série relative aux échantillons temporels x[k] déf. étude du domaine de convergence en fonction de z C ’est un rappel sur les propriétés de la transformée en z. Les propriétés de décalage temporel et de convolution sont à la base de toute l’étude qui est présentée ci-après prop. linéarité décalage temporel convolution temporelle cf. cours TSI Télécommunications, services & usages

Télécommunications, services & usages liens avec la transformée de Fourier discrète si on restreint l’espace de z au cercle unité, z=e(jw) , on retrouve la transformée de Fourier : Im(z) la périodicité du spectre apparaît naturellement, en fonction de la fréquence d’échantillonnage f=0 |z|<1 Re(z) f=fe Télécommunications, services & usages

Télécommunications, services & usages Fonction de transfert numérique H(z) y[k]=(x*h)|k x[k] h[k] X(z) H(z) Y(z)=X(z).H(z) z=exp(j2pf) z=exp(j2pf) Hd(f) Yd(f) Xd(f) Comme pour la TFD, le passage dans le domaine des z, permet de remplacer l’opération de convolution par une opération de multiplication => mathématiquement très intéressant Télécommunications, services & usages

Télécommunications, services & usages cas spécifique où H(z) est un polynôme du type Tous les pôles dans le cercle unité => stabilité du filtre Tous les zéros dans le cercle unité =>phase minimale remarques : a0=1 pour unicité du modèle ai, bi réels si signal réel factorisation numérateur => q zéros factorisation dénominateur => p pôles Télécommunications, services & usages

Télécommunications, services & usages intérêt de cette structure expression dans le domaine temporel Y(z)=X(z).H(z) expression dans le domaine spectral On voit tout de suite l’intérêt de cette structure polynômiale pour le filtrage ou la modélisation d’un signal. En effet à partir de la connaissance des paramètres ai et bi, on peut calculer très simplement les valeurs numériques du signal temporel ou l’expression de sa transformée de Fourier discrète. Télécommunications, services & usages

Télécommunications, services & usages 2) Modélisation ARMA def. d’un gabarit problème de filtrage : y[k] x[k] H (z) x[k] problème de modélisation: y[k] + e[k] En filtrage ou en modélisation, les bases mathématiques sont les mêmes. - Dans le cas du filtrage on se base sur les spécificités spectrales voulues pour définir un filtre numérique dont l’implantation sera facilitée par la structure récursive de l’expression dans le domaine temporel - En modélisation, on doit choisir le type d’entrée, et le filtre, qui conduisent à une bonne représentation du signal voulu. Les choix du signal d’entrée dépendent beaucoup de la nature déterministe ou stochastique des signaux, comme pour les signaux voisés ou non voisés. u[k] H (z) - Télécommunications, services & usages

Télécommunications, services & usages modélisation ARMA (moving average autoregressive) - les zéros caractérisent la partie ‘moyenne ajustée’. - les pôles caractérisent la partie ‘autorégressive’. modélisation MA (moyenne ajustée) - modèle ’tout zéros ’ spectres doux modélisation AR (autorégressive) - modèle ’tout pôles’ - algorithmes d’estimation très rapides. - spectres présentant des pics. ARMA - les zéros caractérisent la partie ‘moyenne ajustée’. - les pôles caractérisent la partie ‘autorégressive’ MA c’est un modèle tout zéros peu utilisé en modélisation. il permet d’obtenir des spectres plus doux mais l’estimation des paramètres du modèle est relativement complexe. AR c’est un modèle tout pôle très utilisé en modélisation car les algorithmes d’estimations des paramètres sont très rapides. - on utilise souvent la propriété suivante : ‘tout modèle ARMA est égal à un modèle AR (d’ordre infini)’. En négligeant les paramètres d’ordre supérieur, on se ramène à un modèle AR. Ils représentent bien les spectres présentant des pics et les signaux aléatoires corrélés. MA AR ordre infini Télécommunications, services & usages

réponse impulsionnelle Exemple de modèles AR, 1 pôle réel p=0.6 p=0.3 réponse impulsionnelle réponse spectrale 1 20 position des pôles 0.9 0.8 15 0.25 0.7 0.6 10 0.5 -0.5 (dB) 0.5 0.4 5 0.3 Etudiez les relations entre le pôle etle coefficient a1. Stabilité => pôle dans le cercle unité Ceci est un filtre passe-bas -0.25 0.2 0.1 -5 50 -0.5 0.5 n f r Télécommunications, services & usages

réponse impulsionnelle Exemple de modèles AR, 2 pôles conjugués p=0.85 exp(jp/4) p=0.3 exp(jp/2) réponse impulsionnelle réponse spectrale position des pôles 1 20 0.25 15 0.5 -0.5 (dB) 10 5 -0.25 Donner les relations entre a1,a2 et les pôles et mettre en évidence que les pôles doivent être conjugués pour que les coefficients AR soient réels, et donc la sortie du filtre. -1 -5 50 -0.5 0.5 Télécommunications, services & usages n f r

Télécommunications, services & usages 3) Modélisation ARMA de la parole représentation shématique du signal de parole : source Canal 1 Canal n E la source peut être un bruit blanc (sons non voisés ou chuchotés) ou 1 train périodique pour les sons voisés. le conduit vocal peut être représenté par une succession de tubes acoustiques, (pharynx, cavité buccale, nasale) modélisés par des résonateurs. l’émetteur, lèvres ou narines, représente une charge acoustique pour l’onde sonore qui y arrive. Télécommunications, services & usages

réponse impulsionnelle xv(k) source pour les sons voisés G(z) 1 2 3 4 10 20 30 40 50 60 f (kHz) réponse spectrale (dB) réponse impulsionnelle 100 200 300 400 500 5 10 n a=0.97, b=0.85, fE=44kHz les sons voisés sont obtenus par vibration des cordes vocales à une fréquence fondamentale donnée (ou pitch) : train périodique où chaque impulsion est caractérisée par une montée rapide en pression suivie d’une chute plus graduelle. Ceci est modélisé par un train d’onde ou peigne, convolué par un modèle AR d’ordre 2, dont un des pôles est proche de l’unité : Télécommunications, services & usages

Source (sortie de G(z) ) pour les sons voisés 5 4 3 2 1 500 1000 1500 2000 2500 n fE=44kHz Télécommunications, services & usages

Télécommunications, services & usages source pour les sons non voisés les sons voisés sont obtenus sans vibration des cordes vocales, simplement par l’arrivée d’un flux d’air à travers la glotte entièrement ouverte. Ceci est représenté par un bruit blanc. Télécommunications, services & usages

Télécommunications, services & usages canal ou tube acoustique La réponse acoustique d’un tube est caractérisée par un résonateur. La réponse d’un résonateur est donnée par modèle AR d’ordre 2 Chaque résonateur est un ‘formant’ dont la fréquence centrale est : Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n Télécommunications, services & usages

réponse impulsionnelle réponse spectrale réponse impulsionnelle 50 100 -1 -0.5 0.5 1 1.5 n 5 -14 -12 -10 -8 -6 -4 -2 2 4 f (kHz) (dB) position des pôles 11kHz 22kHz -11kHz Télécommunications, services & usages

Télécommunications, services & usages L’émetteur (lèvres ou narines) La pression observée à une certaine distance des lèvres est proportionnelle à la dérivée du volume des lèvres : modèle MA d’ordre 1 Montrer pourquoi c ’est un dérivateur : expression temporelle Télécommunications, services & usages

Télécommunications, services & usages Son voisé G(z) V1(z) Vn(z) R(z) V(z) Ceci montre que la modélisation autorégressive à priori tirée des avantages calculatoires de la T(z) et de systèmes numériques, a également, pour le signal de parole , un sens très physique. Ceci n’est pas aussi évident pour tous les sons comme le montrent les exemples suivants qui tend vers 1 modèle AR d’ordre 2n+1, si un des pôles de G(z) est proche de l’unité Télécommunications, services & usages

Télécommunications, services & usages Son nasalisé les sons nasalisés font intervenir simultanément les cavités nasale et bucale. G(z) V1(z) Vn(z) R(z) V’ (z) R’(z) Ces sons sont ceux que l’on a du mal à prononcer quand on est enrhumé. la cavité nasale n’est plus à même de compléter l’effet de la cavité buccale. Ainsi le ‘m’ devient ‘b’. Pour un modèle de son non voisé, on a en entrée un bruit blanc, et G(z) vaut 1. modèle ARMA Télécommunications, services & usages

Télécommunications, services & usages 4) En résumé complexité de la production de la parole (sons voisés, occlusifs etc...). principales propriétés spectrales du signal de parole (électrique ou acoustique) : fondamentale, harmonique, formants, bande passante vocale, non stationnarité, stationnarité locale (20ms), signal stochastique modèles ARMA d’un processus physique (intérêt pour le codage) un modèle AR pouvait suffire dans certains cas. Télécommunications, services & usages

Traitement de la parole -Le codage de la parole- Télécommunications, services & usages

Télécommunications, services & usages Problématique du codage qualité débit complexité coût Compression Télécommunications, services & usages

Télécommunications, services & usages Exemple : norme CCITT G.711 Échantillonnage : 8kHz Quantification : non uniforme (A-law ou µ-law) sur 8 bits Débit : 64kb/s Cette norme internationale a défini un compromis qualité/débit pour la téléphonie numérique, considérée comme la référence. Télécommunications, services & usages

A-La quantification scalaire (quantization) L’échantillonnage La quantification uniforme La quantification non uniforme La quantification différentielle La quantification adaptative Télécommunications, services & usages

I-L’échantillonnage (sampling) L’échantillonnage ne pose pas de problème particulier dans le cas du signal de parole mais doit être habilement choisit. Compromis qualité/débit. Fréquence d ’échantillonnage ??? Télécommunications, services & usages

Télécommunications, services & usages Recouvrement spectral 1 2 3 4 5 6 7 8 9 10 -20 -10 20 30 PSD [ch] f (kHz) (dB) Théorème de Shannon : fmax=Fe/2 filtre anti-repliement (anti-aliasing) Initial aliased prefiltered Télécommunications, services & usages

Télécommunications, services & usages II-La quantification Exemple : quantification sur 3 bits Télécommunications, services & usages

Télécommunications, services & usages 1° quelques définitions La quantification Q(x) - L : nombre de valeurs quantifiées - b : nombre de bits de codage; L = 2b - x(0) ... x(L) : niveaux de décision - x(0),x(L) : seuils - d(i)=x(i)-x(i-1) : pas de quantification - y(1) ... y(L) : valeurs quantifiées remarque : la conversion analogique-numérique = échantillonnage + quantification Télécommunications, services & usages

Télécommunications, services & usages L’erreur de quantification : q(x)=Q(x)-x - granulation : erreur liée au nombre de valeurs choisies (se2) - saturation : erreur liée au dépassement des seuils (sd2). x(n) y(n) + q(n) signaux aléatoires le signal de parole est considéré comme un signal aléatoire à moyenne nulle et variance sx2. l’erreur de quantification sera donc appelée bruit de quantification, en général à moyenne nulle (0,se2). Télécommunications, services & usages

Télécommunications, services & usages [sachez parler] VS ??? -0.1 0.1 histogramme Télécommunications, services & usages

Télécommunications, services & usages facteur de charge G G=xs/sx Rapport Signal-Bruit (RSB ou SNR) [dB] facteur de charge G rapport entre les valeurs seuils choisies et l’écart-type du processus. Rapport Signal-Bruit (RSB ou SNR) rapport entre l’énergie du signal de parole et l’énergie du bruit de quantification En négligeant l’erreur de saturation (sigma d), on obtient sous hypothèse signal gaussien et bruit de quantification uniforme, la loi des 6 db par bits de plus sur le RSB Télécommunications, services & usages

Télécommunications, services & usages 2° la quantification uniforme définition : - y(i)=1/2 ( x(i-1)+x(i) ) -d(i)= d qlqsoit i -valeurs seuils : -xs, xs propriétés : - d=2 xs /L - erreur de granulation |e|< d/2 Lorsqu ’on effectue une quantification uniforme, le seul problème est de définir le seuil en fonction du nombre de bits possible. Le RSB varie en fonction de G, en théorie, plus il est faible, mieux c ’est, sauf quand il y a dépassement. Le dépassement dépend du type de loi de probabilité. Télécommunications, services & usages

Télécommunications, services & usages rappel : G=xs/sx. La courbe présentée est valable pour un processus gaussien uniquement. On voit ici que si on ne tient pas compte de l’erreur de saturation, plus G est petit (donc plus xs se rapproche de sx), meilleur est le RSB. En réalité, à partir d un certain seuil il est dégradé, à cause de l’erreur de saturation, ici aux alentours de -20 à -10dB. Télécommunications, services & usages

Télécommunications, services & usages La prise en compte de l’erreur de saturation fait apparaître un point optimal dependant de gamma. Télécommunications, services & usages

Télécommunications, services & usages 3° la quantification non-uniforme L ’intérêt est d ’attribuer plus de bits aux valeurs qui ont le plus de probabilité d ’apparaître. Comment choisir la répartition optimale ?? Télécommunications, services & usages

Signal de distribution uniforme Transformation non-linéaire préalable q(n) Compression des amplitudes + Dilatation des amplitudes y(n) x(n) Signal de distribution uniforme Télécommunications, services & usages

Télécommunications, services & usages Norme: Modulation par Impulsions Codées (MIC, 64kbits/s) (Pulse Code Modulation, PCM) Filtre 100-3400Hz Éch. fE=8kHz Compression d ’amplitude Quantification 8bits Norme européenne La loi Américaine est légèrement différente, µ-law En utilisant ce type de loi, on arrive a une qualité équivalente a du 8x12bit (96 kbit/s) en utilisant que 8 bits (64 kbit/s) Télécommunications, services & usages

Représentation de la loi de compression Télécommunications, services & usages

Télécommunications, services & usages En utilisant ce type de loi, on arrive a une qualité équivalente a du 8x12bit (96 kbit/s) en utilisant que 8 bits (64 kbit/s) Télécommunications, services & usages

Télécommunications, services & usages

III-La quantification différentielle (differential quantization) 1° Principe q(n) x(n) + y(n) r(n) - x(n-1) z-1 Décorrélation >>> Télécommunications, services & usages

Télécommunications, services & usages 2° Gain RSB Si rx(1)>0.5, sr2 < sx2, A nombre de niveaux constant, on peut réduire le pas de quantification et améliorer le RSB dans un rapport sr2/sx2 En cours développer et expliquer cette différence. Cette approche revient à diminuer la redondance dans le signal Télécommunications, services & usages

y(n)=x(n)+e(n); e(n)=q(n)+e(n-1) Intégration de l ’erreur !!!! 3° Mise en œuvre codage-décodage x(n) + q(n) - z-1 x(n-1) r(n) y(n) y(n-1) t(n) y(n)=x(n)+e(n); e(n)=q(n)+e(n-1) Intégration de l ’erreur !!!! Télécommunications, services & usages

Télécommunications, services & usages Idée : coder la différence par rapport à la sortie q(n) x(n) + t(n) y(n) r(n) - + y(n-1) y(n-1) z-1 Remarque : OK si le signal est correctement codé ; quantification suffisante Télécommunications, services & usages

Télécommunications, services & usages Délocalisation du décodage q(n) x(n) + t(n) y(n) r(n) - + y(n-1) y(n-1) z-1 z-1 + Télécommunications, services & usages

r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - … - ap.x(n-p) 4° Prédiction linéaire r(n)=x(n)-x(n-1) r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - … - ap.x(n-p) Variance de l ’erreur faible. Erreur = bruit blanc Justification de ce modèle d’après la théorie de la parole Quel ordre p ? Quels paramètres AR ? Quel gain ? Télécommunications, services & usages

Télécommunications, services & usages Modélisation AR q(n) x(n) + t(n) y(n) r(n) - + y(n-1) y(n-1) P(z) P(z) + P(z)=a1z-1 + a2z-2 + ... + apz-p Télécommunications, services & usages

Télécommunications, services & usages 2° Système DPCM (MICD) -0.1 -0.05 0.05 0.1 20ms (160 ech); 8kHz ARMA(6,2); 2-5 bits/ech. (16-64 kb/s) Télécommunications, services & usages

IV-La quantification adaptative (adaptive quantization) 1° Principe : adapter au fur et à mesure les paramètres (AR, gain) du signal de parole couplée avec la quantification différentielle Modulation par Impulsions Codées Différentielle Adaptative (MICDA) Adaptive Differential Pulse Code Modulation (ADPCM) Télécommunications, services & usages

Télécommunications, services & usages Disponible sur le site Texas Instrument http://www.ti.com/sc/docs/psheets/abstract/apps/bpra053.htm Télécommunications, services & usages

Télécommunications, services & usages 4) En résumé système PCM : fe=8kHz, 8pts/ech. 64kb/sec, Système ADPCM : fe=8kHz, 4<.<8pts/ech. 16-64kb/sec Objectif : <16 kb/sec Moins de 2bits/point !!!!!!!! Télécommunications, services & usages

B-La quantification vectorielle Principe de la quantification vectorielle Quantification vectorielle prédictive (CELP). 1 exemple de codeur utilisé en téléphonie cellulaire : GSM. Télécommunications, services & usages

I-La quantification vectorielle (vectorial quantization) 1° Principe : Regrouper les échantillons pour les transmettre. Mieux rentabiliser chaque bit utilisé. Règle du plus proche voisin Inspection dans une table V’(m) V(m) i(m) V’1…V’ L V’1…V’ L Télécommunications, services & usages

Télécommunications, services & usages Exemple pour M=2 : le codage vectoriel permet d ’adapter la répartition des codes. Télécommunications, services & usages

Télécommunications, services & usages 2° Algorithmie : Comment choisir le dicitonnaire ?? algorithme de Lloyd-Max 1- Initialiser le ‘dictionnaire’ >> niveaux 2- Appliquer la règle du plus proche voisin (minimiser l’erreur de codage) >> seuils implicites 3- Appliquer la règle du centroïde (minimiser l’erreur de décodage) >> niveaux 4- Refaire 2 et 3 jusqu’à convergence... Télécommunications, services & usages

II-LPC (linear predictive coding) 1° Principe : Minimiser la corrélation entre échantillons codés simultanément pour simplifier le travail du ‘ dictionnaire ’. Règle du plus proche voisin V’(m) Inspection dans une table R’(m) V(m) R(m) i(m) A(z) 1/A(z) - R’1…R’ L R’1…R’ L Optimisation des paramètres AR pour chaque vecteur Coder l ’erreur après modélisation AR V(z) = Bruit(z)/A(z) Télécommunications, services & usages

Télécommunications, services & usages 2° Codeur prédictif excité par des codes (Code Excited Linear Predictive Coding, CELP) : Minimiser les distorsions en minimisant l ’erreur relative au signal initial. Règle du plus proche voisin i(m) V’(m) Inspection dans une table V(m) V’1…V’ L V’M AR(m) 1/A(z) 1/A(z) R’1…R’ L R’1…R’ L Télécommunications, services & usages

Télécommunications, services & usages 3° Prédiction long terme (long terme prediction, LTP) : Ajouter un 2ième étage de prédiction pour prendre en compte la périodicité des sons voisés.... 4° Introduction d ’un facteur perceptuel (préfiltrage W(z)) : Utiliser les principes de ‘masquage du son’ pour concentrer l ’erreur dans les zones non perceptuelles (cf. cours sons audio). Télécommunications, services & usages

Télécommunications, services & usages III-Codeurs GSM passe-haut (>80Hz) Estimation AR Prédiction à long terme Modélisation du bruit Paramètres AR Paramètres b,Q Index du dictionnaire Télécommunications, services & usages

Télécommunications, services & usages Norme GSM, FR (Full Rate) (RPE-LTP, Regular Pulse Excitation with Long Term Prediction) 1- Pré-accentuation H(z)=(1-0.86z-1 ) 2- LPC ordre 8, algorithme de Schur sur N=160échantillons. Codage des coefficients sur 36bits/fen160ech 1.8kbit/s 3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (7+2)bits/fen40ech 1.8kbit/s 4- Sous échantillonnage par 3 =>4 signaux de 13 éch. On garde seulement le plus énergétique (2bits). Quantification non uniforme sur 3bits des 13 éch. Quantification non uniforme du facteur d’échelle sur 6bits. Codage (2+3*13+6)bits /fen40ech 9.4kbit/s 13kbit/s Télécommunications, services & usages

Télécommunications, services & usages Norme GSM, EFR (Enhanced Full Rate) (CELP Code Excited Linear Prediction) (GSM 06.60 version 6.0.1, release 1997) http://www.etsi.org/ P:/gorceGSM_juillet2000 1- Pré-filtrage (passe-haut, 80Hz) 2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons Codage des coefficients sur 38bits/fen160ech 1.9kbit/s 3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (9;6 +4)bits/fen 40ech 2.3kbit/s 4- Dictionnaire à structure algébrique. Codage des coefficients 35 bits/fen 40ech 7 kbit/s Codage du gain statique 5bits/fen 40 ech 1 kbit/s 12.2kbit/s Télécommunications, services & usages

2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons Estimation d ’un modèle AR ordre 10 après fenêtrage WI(n) et WII(n) : - directement modèles pour les sous-fenêtres f2 et f4. - par interpolation modèles pour les sous-fenêtres f1 et f3. Télécommunications, services & usages

On obtient en sortie un bruit Filtre de synthèse quantifié Codage des coefficients AR (2 vecteurs) sous forme d ’une matrice, pour les 2 fenêtres. (on code ensemble les modèles des 4 sous fenêtres d ’un ‘ frame ’ Rem : on ne code pas directement les coefficients AR, mais des coefficients équivalents dans un espace fréquentiel équivalent. (LSF, linear spectral frequencies) On obtient en sortie un bruit Filtre de blanchiment Filtre de synthèse quantifié Télécommunications, services & usages

Télécommunications, services & usages 2b- filtrage ‘perceptuel’ Limiter le bruit de quantification dans les zones fréquentielles à haute énergie (formants) s(t) |S(z)| |W(z)| Télécommunications, services & usages

Résumé de la phase de prédiction linéaire s(n) 160 éch. Â(z) A(z)/A(z/g) w(n) w’(n) Paramètres AR définis pour des fenêtres de 40 éch. (5ms) Â(z)=1+ a1.z-1 + a2.z-2 + …+a10.z-10 Transmission et codage des paramètres d ’une fenêtre sur 2 regroupement par 2 : codage sur 38bits pour 160 échantillons (20ms), de la différence avec les vecteurs précédents. Télécommunications, services & usages

Télécommunications, services & usages s(n) w’(n) Reste une certaine périodicité >>> Prédiction long terme Télécommunications, services & usages

« pitch synthesis filter » i.e. périodicité de période Q. 3- Prédiction à long terme « pitch synthesis filter » y(n)=e(n)+b.y(n-Q) i.e. périodicité de période Q. Filtrage w’(n) 160 éch. B(z) w’’(n) Pour b : 4bits / sous-fenêtre Pour Q, codage sur les sous-fenêtres - codage f1 et f3 (9bits x2) - codage de la différence pour f2 et f4 (6bits x2). Paramètres b,Q définis pour des fenêtres de 40 éch. B(z)=1-bz-Q Télécommunications, services & usages

Télécommunications, services & usages 4- Codage Par dictionnaire algébrique Dans une fenêtre, codage des 10 / 40 échantillons les plus forts 10 ech = 5 mots de 2 impulsions Télécommunications, services & usages

Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5 Minimisation de l ’erreur de synthèse Mot Code i : 2 impulsions => - position de chaque impulsion (8 positions) sur 3bits. - signe de la première sur 1 bit (l ’autre signe est déduit). code Gray 000 001 011 010 110 111 101 100 Code à transmettre : 1 101 011 7 bits par mot code => 35 bits / ssfen Codage d ’un coefficient de gain statique : 5 bits /ssfen Conservation de l ’énergie du signal Télécommunications, services & usages

Télécommunications, services & usages En résumé Codage de base (PCM) 64kbit/s. qualité téléphonique (pas audio). Codage adaptatif différentiel (ADPCM), même qualité à 32kbit/s. Acceptable jusqu’à 16kbit/s. Codage vectoriel : regrouper les valeurs à coder pour diminuer la redondance. Autour de 10kbit/s. (militaire : 4.kbit/s). Complexité des méthodes hybrides. Augmentation des performances. Codage en sous-bandes??? Télécommunications, services & usages

Traitement de la parole -Le codage du son- Télécommunications, services & usages

Télécommunications, services & usages Problématique du codage qualité débit complexité coût Compression Télécommunications, services & usages

Télécommunications, services & usages A-Qu ’est-ce qu ’un son ? La parole (cf. cours précédent) La musique Les autres sons Télécommunications, services & usages

Mise en œuvre de codeurs spécifiques très performants I-La parole (résumé) Propriétés connues : - fmax=3,4kHz (=> Fe=8kHz) - Processus de formation (formants, pitch, harmoniques) - Modélisation AR performante. - Loi de distribution ~ Laplace (=>A-law, µ-law) Objectif :transmission d ’un message compréhensible et reconnaissance du locuteur Mise en œuvre de codeurs spécifiques très performants Télécommunications, services & usages

II-La musique (naturelle ou synthétique) 1° Les notes pitch, fondamental, tonalité…do, re…. même note, octave différente La 110Hz La 220Hz La 440Hz f 1 octave = x2 Télécommunications, services & usages

Télécommunications, services & usages 2° Les harmoniques 1 -1 5 10 15 20 25 Télécommunications, services & usages

Télécommunications, services & usages 3° Le timbre (forme d ’onde; waveform) Télécommunications, services & usages

IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE 4° Musique : - Somme de plusieurs notes (pitch) - Différentes formes d ’ondes (les instruments) + chant =parole modulée. IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE Télécommunications, services & usages

Télécommunications, services & usages III-Les autres sons Applications : TVHD, Vidéo, Multimédia …. Les bruits ambiants, les onomatopées, etc…. Bruits sourds (chute d ’eau…) Bruits brusques (bris de glace…) = transmettre tout ce qui est susceptible d ’être perçu par l ’auditeur. Télécommunications, services & usages

N ’autoriser que les pertes non perceptibles B-Codage ‘ Audio ’ ? codeur décodeur Émetteur Récepteur N ’autoriser que les pertes non perceptibles Télécommunications, services & usages

I-Modèle psychoacoustique 1° Bande passante : Seuil d’audibilité d’une sinusoïde BP=[20Hz ; 20kHz] fE>40kHz Télécommunications, services & usages

Télécommunications, services & usages 3° Masquage fréquentiel (f1,P1=80 dB) : sinusoïde masquante (f2,P2) : P2 à émettre pour entendre f2 Télécommunications, services & usages

Télécommunications, services & usages 2° Bandes critiques fréquentielles (critical bands) Détection de f+df ?? Passage des Hertz au Bark 10 Bark 1 La résolution fréquentielle est meilleure. Par contre si on émet 2 sons dans la même bande, ils se somment d ’un point de vue perceptif. 10 100 1k 10k f(Hz) Télécommunications, services & usages

Télécommunications, services & usages Courbes de masquage >> segments de droite indépendante de f1 En utilisant le bark, on a toujours une pente identique des 2 côtés de la fréquence de masquage=> uniformisation des interactions entre bandes. Télécommunications, services & usages

Exemple de bande critique en BF (120Hz) 1.8 1.6 1.4 1 bark 1.2 1 0.8 0.6 Df 0.4 0.2 20 40 60 80 100 120 140 160 180 200 32 bandes critiques de 20 Hz à 20 kHz, Df : 80-3500 Hz Télécommunications, services & usages

Télécommunications, services & usages 4° Masquage temporel Après un son relativement fort, masquage de la bande critique (et voisines…) pendant un certain délai. Télécommunications, services & usages

Télécommunications, services & usages 4° Masquage fréquentiel et temporel Télécommunications, services & usages

Télécommunications, services & usages 5° Nouvelle approche de compression : utilisée dans MPEG Principe : utiliser les propriétés de masquage de certaines zones de fréquence pour réduire le débit nécessaire. Pertes non perceptibles Passage dans le domaine de Fourier nécessaire Codage en sous-bandes Télécommunications, services & usages

Télécommunications, services & usages II-norme MPEG Audio 1°) Etat des lieux Qualité Audio Numérique 44.1kHz 16bit (96dB relativement au seuil d ’audibilité) loi de distribution inconnue (pas de A-law) stéréo Débit de 1,4Mbit/s Télécommunications, services & usages

Compression sans pertes audibles Normalisation nécessaire 2°) Objectifs Stockage (CD) : morceau de musique de 50 ’ 1.4Mbit/s*50*60=5.05Gbit=630MO Transmission (TVHD, multimedia) : temps réel diminuer le débit pour améliorer les capacités de transmission. Compression sans pertes audibles Normalisation nécessaire Télécommunications, services & usages

Moving Pictures Coding Experts Group 3°) MPEG Audio Moving Pictures Coding Experts Group http://drogo.cselt.it/mpeg/ Janvier 1988 : naissance, groupe mandaté par ISO/EIC MPEG = normalisation vidéo / audio / system MPEG-1 : qualité VHS sur CD-rom (352x288 + CD audio @ 1.5Mbit/s) MPEG-2 : TVHS, multimedia ==>TV numérique AAC (fin Avril97) Advanced Audio Coding MPEG-4 : diminuer le débit; coder infos complémentaires ==>Multimédia Rem sur MPEG 4 : coder par exemple l’auteur, les autorisations, protections, etc... Télécommunications, services & usages

Télécommunications, services & usages 4°) MPEG-1 audio 3 couches définies (qualité/complexité du codage) pour qualité audio : layer 1 : 384 kb/s 1/4 layer 2 : 256…192 kb/s 1/6..1/8 layer 3 : 128…112 kb/s 1/10..1/12 Tx de réduction Le débit est le débit cumulé des 2 voies stéréo. Mais différentes fréquences d ’échantillonnage et débits autorisés (32kHz, 44.1kHz, 48kHz) Télécommunications, services & usages

Qualité de compression, couche 3 sound quality bandwidth mode bitrate reduction ratio telephone sound 2.5 kHz mono 8 kbps * 96:1 better than shortwave 4.5 kHz mono 16 kbps 48:1 AM radio 7.5 kHz mono 32 kbps 24:1 similar to FM radio 11 kHz stereo 56...64 kbps 26...24:1 near-CD 15 kHz stereo 96 kbps 16:1 CD >15 kHz stereo 112..128kbps 14..12:1 *) Fraunhofer uses a non-ISO extension of MPEG Layer-3 for enhanced performance ("MPEG 2.5") Le ratio est donné par rapport à la qualité MPEG 1 non compressé. From the Fraunhofer Institute for Integrated Circuits, Applied Electronics Center, IIS-A, http://www.iis.fhg.de/about/index.html Télécommunications, services & usages

Télécommunications, services & usages Principe général de MPEG-1 (et suivants) Filtres Décomposition en bandes critiques Allocation des bits (f(s²)) Quantification +- Codage in Exploitation masquage Décrire au tableau le filtrage en bandes critiques (Bark). Donner un exemple de masquage. Et l ’utilisation pour l ’attribution du nombre de bits Télécommunications, services & usages

Télécommunications, services & usages 384 ech. Layer 1 : Masquage fréquentiel + QScal Layer 2 : + Masquage temporel Layer 3 : + Redondance stéréo + Huffman Chaque vecteur traité comprends 384 échantillons, divisé dans 32 sous-bandes de 12 échantillons (exploitation du masquage fréq). Puis dans la couche 2, on utilise le masquage temporel avec le précédent et le suivant. Dans la 3ieme couche, masquage temporel généralisé, filtres de bandes critiques meilleurs, model psychoacoustic, redondance stéréo, et codage d ’Huffman en final. Télécommunications, services & usages

III-Codage en sous-bandes 1°) Sous-échantillonnage Télécommunications, services & usages

Constante, Sinusoïde f0=fE, ou f0=2.fE Spectre d ’un signal échantillonné f0 -fE fE fE/2 -fE/2 A Composante continue ?? Constante, Sinusoïde f0=fE, ou f0=2.fE Télécommunications, services & usages

Sous-échantillonnage Recouvrement spectral f0 -fE fE fE/2 -fE/2 A Sous-échantillonnage A/2 XSE(f)=1/2 [ XE(f)+XE(f-fe/2) ] -fE -fE/2 f0 fE/2 fE Télécommunications, services & usages

Télécommunications, services & usages Filtre anti-repliement f0 -fE fE fE/2 -fE/2 A/2 fE/4 A/2 -fE -fE/2 f0 fE/2 fE Télécommunications, services & usages

Télécommunications, services & usages 2°) Décomposition en 2 sous-bandes f0 -fE fE fE/2 -fE/2 A Périodicité!!! f0 -fE fE fE/2 -fE/2 A Télécommunications, services & usages

Télécommunications, services & usages Représentation des 2 sous-bandes f0 -fE fE fE/2 -fE/2 A f0 -fE fE fE/2 -fE/2 A Télécommunications, services & usages

Télécommunications, services & usages Sous-échantillonnage des 2 sous-bandes A/2 -fE -fE/2 f0 fE/2 fE A/2 -fE -fE/2 f0 fE/2 fE Télécommunications, services & usages

Télécommunications, services & usages 3°) Sur-échantillonnage f0 -fE fE fE/2 -fE/2 A 2.fE -2.fE Télécommunications, services & usages

Télécommunications, services & usages dans le domaine temporel Télécommunications, services & usages

Télécommunications, services & usages Filtre passe-bas=interpolateur A -2.fE -fE -fE/2 f0 fE/2 fE 2.fE Télécommunications, services & usages

Télécommunications, services & usages 4°) Sous / Sur-échantillonnage d ’un facteur m perte d ’information x(n) xSE(n) H(z) m xSE(n) x’(n) m F(z) Télécommunications, services & usages

Télécommunications, services & usages Schéma de principe de la décomposition en 2 sous-bandes x0(n) x(n) H0(z) 2 N/2 points N points x1(n) 2 H1(z) N/2 points H0 : filtre réel [0; fe/4] H1 : filtre réel [fe/4; fe/2] En théorie, pas de pertes = sous-échantillonnage critique. Télécommunications, services & usages

Télécommunications, services & usages 5°) Généralisation en N sous-bandes N/m points x0(n) x(n) H0(z) m m F0(z) N points x1(n) H1(z) m m F1(z) xm(n) Hm(z) m m Fm(z) Télécommunications, services & usages

Télécommunications, services & usages

Télécommunications, services & usages 6°) Les problèmes techniques 1) Le choix des filtres H : parfaits => IIR 2) Approximation => choix des filtres F adaptés (transformée en Cosinus) 3) Sélectionner la bonne longueur de vecteur initial 4) Nombre de bandes de fréquences Télécommunications, services & usages

Télécommunications, services & usages 7°) Les progrès MPEG-2, 4 Utiliser le modèle psycho-acoustique pour choisir le nombre de bits par bande de fréquence. Utiliser une répartition non homogène de l’ échelle des fréquences. Utiliser la redondance entre voies stéréo (ou 5 voies, surround). Intégration du codage vectoriel / prédiction linéaire sur les bandes de fréquences. Télécommunications, services & usages

Télécommunications, services & usages IV-Conclusion Codage audio (musique) Codage parole (téléphonie) full-duplex Un bon codeur = répondre à des contraintes spécifiques au plus près. Interactions entre vectoriel / sous-bandes Télécommunications, services & usages