email : laurent.said@st.com Laurent Saïd (98) ST Microelectronics 12, avenue Jules Horowitz 38000 GRENOBLE 06.71.58.40.49 email : laurent.said@st.com 1
Audio Numérique 2
Plan de la présentation Perception-Audition Signaux Numériques Précision - Dynamique Fréquence d’échantillonnage Conclusion I-/ Perception / audition - constitution de l'oreille - principe de la sonie / phonie et de la tonie - masquage temporel / fréquentiel. II-/ Signaux numériques : impacte sur la perception - quantification - transparence / pertes II-/ Précision / dynamique - « Dynamic range » d'un signal échantillonné à quantification uniforme - Ordre de grandeur - Précision du CD - Après le CD - Perception du bruit de salle III-/ Fréquence - Psychoacoustique et haute fréquence d'échantillonnage - Ordre de grandeur - quelle fréquence doit-on choisir ? - haute fréquence d'échantillonnage pour la musique - réponse en temps IV-/ Conclusion - Introduire brièvement le principe de noise shaping (si j'ai le temps) Ensuite je souhaiterai faire des TP en matlab et langage C( pour pouvoir manipuler différentes longueurs de mots). - Filtre FIR / IIR - Filtre audio haute précision - Stabilité / précision de l'arithmetique - IIR stable en float / instable en fix - structure bi-quad. 3
Mécanisme de l’audition Système auditif périphérique Oreille externe: transmission aérienne Oreille Moyenne: transmission mécanique Oreille interne: transmission hydromécanique Transmission électro-chimique Système auditif central Nerf auditif Cortex
Anatomie de l’oreille
Oreille Externe Fonction de transfert
2. Enclume 3. Étrier 4. Tympan 5. Fenêtre ronde 6. Trompe d’eustache Oreille Moyenne 1. Marteau 2. Enclume 3. Étrier 4. Tympan 5. Fenêtre ronde 6. Trompe d’eustache - (1) Marteau - (2) Ligament du marteau - (3) Enclume - (4) Ligament de l'enclume - (5) Muscle de l'étrier - (6) Platine de l'étrier - (7) Tympan - (8) Trompe d'Eustache - (9) Muscle du marteau - (10) Corde du tympan sectionnée L'oreille moyenne ou caisse du tympan est une petite cavité creusée dans l'os temporal. Elle joue le rôle d'intermédiaire dans le traitement de l'onde sonore. Elle est responsable de l'augmentation de l'intensité des ondes sonores qui arrivent et les transforme en vibrations mécaniques qui peuvent aisément se transmettre à l'oreille interne.
Fonction de Transfert OM H(f)=Pv/Pt Pv Pression acoustique au vestibule Pt Pression acoustique au tympan
Oreille Interne 1. Canal antérieur 2. Ampoule (du même canal) 3. Ampoule (canal horizontal) 4. Saccule 5. Canal cochléaire 6. Hélicotrème 7. Canal latéral (horizontal) 8. Canal postérieur 9. Ampoule (canal postérieur) 10. Fenêtre ovale 11. Fenêtre ronde 12. Rampe vestibulaire 13. Rampe tympanique 14. Utricule Cochlée : Elément de l'oreille interne contenant l'organe de l'audition. Le limaçon osseux est un minuscule tube osseux en forme de spirale formé de deux canaux et d'un conduit subdivisé par une paroi élastique fine appelée limaçon membraneux, qui longe la spirale. Cette paroi est fixée à une extrémité par la membrane basilaire et à l'autre extrémité par la membrane vestibulaire. Les vibrations sonores atteignant l'oreille interne sont transmises à travers le fluide des canaux cochléaires (le canal tympanique et le canal vestibulaire) et autour du canal cochléaire qui les divise. Avec la pression exercée par les vibrations sur la membrane basilaire, qui est la paroi vibratile du canal cochléaire, le fluide situé dans le canal est agité. Ces mouvements stimulent l'organe de Corti, qui se trouve dans une membrane située dans la paroi cochléaire. C'est un organe sensoriel de l'audition qui transforme les vibrations mécaniques en impulsions nerveuses. Il est composé d'une membrane gélatineuse (membrane de Corti) et de deux rangées de cellules ciliées (cellules ciliées réceptrices), l'une interne et l'autre externe, qui se trouvent entre la membrane de Corti et la membrane basilaire. Lorsque la membrane basilaire vibre, elle pousse les cellules ciliées contre la membrane de Corti, ce qui provoque la formation d'une substance chimique par les cellules ciliées. Cette substance transforme le mouvement en impulsions électriques dans les fibres nerveuses adjacentes. Il existe environ 30 000 fibres nerveuses dans chaque oreille. Ces fibres transmettent des signaux au tronc cérébral et au cortex auditif du cerveau.
Oreille Interne: Coupe de la cochlée Transmission électro-chimique Transmission hydromécanique
Système Auditif Central Le nerf auditif (ou vestibulo-cochléaire) est un nerf sensoriel formé de deux parties : le nerf cochléaire et le nerf vestibulaire. Le nerf cochléaire recueille dans l'oreille interne les informations auditives. Le nerf vestibulaire reçoit les informations concernant le maintien de l'équilibre. Ces deux nerfs naissent dans des ganglions nerveux périphériques, le ganglion de Corti et le ganglion de Scarpa. Le nerf auditif, huitième paire crânienne, est constitué de la fusion des nerfs cochléaire et vestibulaire. Il s'étend du conduit auditif au tronc cérébral. La partie cochléaire du nerf auditif est chargé de transmettre les signaux correspondant aux sondes sonores de l'oreille interne au cerveau. Le nerf auditif intervient dans l'audition et le contrôle de l'équilibre. 1.4.1 Une hiérarchie de niveaux Le système auditif central peut se décrire comme une hiérarchie ascendante de noyaux ou niveaux de traitement, allant du ganglion spiral jusqu’au cortex auditif. Les fibres afférentes du nerf auditif sont les axones des neurones du ganglion spiral (SG), dont les dendrites font synapse avec les cellules ciliées. Les étapes suivantes sont le noyau cochléaire (CN), le complexe olivaire supérieur (SOC), les noyaux du lemniscus latéral (LL), le colliculus inférieur (IC), le thalamus et en particlier le corps genouillé médian (MGB), et enfin le cortex auditif (AC). Le ganglion spiral est logé dans une cavité osseuse près de l’axe de la cochlée. Noyau cochléaire et complexe olivaire se trouvent dans le tronc cérébral. Le colliculus occupe le mésencéphale, le thalamus le diencéphale, et le cortex auditif le télencéphale. Les noyaux du lemniscus latéral sont intermédiaires entre tronc cérébral et mésencéphale. Les étapes les plus périphériques (CN, SOC, LL) sont pour l’essentiel spécialisées dans le traitement auditif, mais il existe néanmoins des apports nonauditifs dès le CN (Romand et Avan, 1997) qui se renforcent au fur et à mesure qu’on monte dans la hiérarchie (IC,MGB, cortex). La variété et la complexité des réponses aux sons augmente de la périphérie vers le centre, et on peut parler de hiérarchie des structures et des traitements. 1.4.2 Subdivisions La description précédente était extrêmement simplifiée. Un premier pas vers une description plus fidèle est de considérer que chaque "étape" de la hiérarchie possède elle-même sa structure, faite de distinctions tant macroscopiques (divisions anatomiques) que microscopiques (distinctions de morphologie et connectivité neuronale, neurotransmetteurs, etc.). On a coutume de distinguer les divisions suivantes (Rouiller, 1977): Le noyau cochléaire (CN) comprend une division antéroventrale (AVCN), postéroventrale (AVCN) et dorsale (DCN). Le complexe olivaire supérieur (SOC) comprend trois noyaux principaux: le noyau latéral (LSO), le noyau médian (MSO), et le noyau médian du corps trapézoide (MNTB). Outre ces noyaux principaux bien définis, on compte une demi-douzaine de noyaux périphériques dont les contours sont plus ou moins nets selon les espèces (Helfert et Aschoff, 1997). Le noyau du lemniscus latéral peut être divisé en deux zones principales: une zone dorsale (DNLL) et une zone ventrale (VNLL), et on distingue aussi un noyau intermédiaire (INLL) (Helfert et Aschoff, 1977). Le colliculus inférieur (IC) comprend une division centrale (ICC) à la structure laminaire très marquée, entourée d’un noyau dorsomédian, d’un cortex dorsal, et d’un noyau latéral. Dans le thalamus auditif, le corps genouillé médian (MGB) comprend une division ventrale (vMGB), une division médiane, et une division dorsale. On peut lui associer deux autres noyaux: la partie latérale du groupe postérieur des noyaux thalamiques, et la partie auditive du noyau réticulaire du thalamus (de Ribaupierre, 1997). Le cortex auditif (AC) a une structure qu’on peut concevoir comme le produit cartésien d’une division en couches et d’une division en aires. La structure en couches (numérotées de I à VI depuis la surface) du cortex auditif ressemble à celle d’autres parties du cortex, avec des spécificités dans l’importance relative de certaines couches. Orthogonalement à cette structure en couches, les aires se répartissent selon des critères anatomiques (cortex auditif primaire, secondaire, tertiaire, etc.) ou electrophysiologiques. On distingue ainsi quatre champs auditifs (organisés tonotopiquement chez l’animal anésthésié): le champ antérieur (AAF), primaire (AI), postérieur (PAF) et ventropostérieur (VPAF). Ils sont entourés de champs dont l’organisation est moins nette ou moins bien étudiée aires ventral, temporal ou dorsopostérieur Des divisions plus fines peuvent bien entendu être faites, et selon les auteurs, les critères, et/ou l’espèce étudiée, les frontières de divisions et leur noms peuvent changer. À côté d’une organisation selon des lignes anatomiques, la population de neurones de chaque noyau peut être classée selon des critères morphologiques (taille et forme des soma et arborescences axonales et dendritiques), de connectivité, électrophysiologiques (forme des réponses), ou neuropharmacologiques (nature des neurotransmetteurs). Le frontières de ces classes peuvent être cohérentes avec les divisions anatomiques, voire les sous-tendre lorsqu’une division est définie par le type de cellules qu’elle contient. Mais le plus souvent un type de cellule est distribué sur plusieurs divisions anatomiques, et une division contient plusieurs types cellulaires. La variété de cellules croit de la périphérie vers le centre. Dans le ganglion spiral on ne distingue que trois types de neurones. Les neurones de type II sont petites, à axones non-miélinisés, et leurs dendrites contactent les fibres efferentes qui contrôlent les CCE. Les neurones de type I sont plus grosses, leurs axones sont souvent miélinisés (selon l’espèce), et ils desservent chacun une CCI. Les neurones de type I existent en deux variétés qui se distinguent par leur taux de décharge spontané et par des détails morphologiques et de connectivité. En revanche au niveau corticalWiner (1992) distingue un total de 47 sortes de neurones (dont certaines, il est vrai, sont communes à plusieurs divisions). À la variété des neurones, on peut ajouter celle des synapses, qui diffèrent par leur morphologie, les neurotransmetteurs qu’elles emploient, les propriétés de membrane, etc.. Parmi les types cellulaires, il sera intéressant pour la suite de distinguer les cellules qui sont spécialisées dans la transmission avec une résolution temporelle fine. Ce sont par exemple les cellules de type "bushy" de la division antéroventrale du noyau cochléaire (AVCN), qui relaient les informations du nerf auditif avec une grande fidélité vers les niveaux supérieurs, ou les cellules de type “octopus” de PVCN qui répondent avec des impulsions isolées précisément synchronisées avec l’attaque ou la période d’un stimulus. Pour résumer, chaque niveau de la structure hiérarchique (SG -> CN -> SOC -> LL ->MGB -> cortex) peut être subdivisé à son tour, de façon diverse selon les critères adoptés. Une stratification fine produit une description plus proche de la réalité, mais plus difficile à retenir et plus lourde à manier.
Perception de la force sonore Psychoacoustique Courbe d’isosonie
Effet de masque simultané Psychoacoustique : Les courbes obtenues quand on enregistre les pressions acoustiques nécessaires pour qu’un son test devienne audible ou inaudible en présence d’un son parasite ou masquant sont tout aussi importantes pour caractériser l’ouïe.
Bandes critiques Mesure psychoacoustique par masquage simultané en (a). Mesure de l’activité par fibre nerveuse auditive en (b). Outre un pouvoir sélectif exceptionnellement grand (600 hauteurs différentes), l’oreille humaine possède la remarquable faculté d’intégrer certaines zones de fréquence en bandes appelées bandes critiques.•On appelle Bark la largeur de cette bande critique de fréquence quelle que soit sa fréquence centrale.•Sa largeur vaut 100 Hz jusqu’à 500 Hz et au-delà est égale à 20%environ de la fréquence centrale, valeur assez proche de 1/3 d’octave.
Effet de masque temporel Niveau du son « juste masqué » Proactif Réactif Masquant Psychoacoustique: effet proactif : masquant précède le masqué Effet rétroactif: les masqué précède le masquant SLt niveau du son pur « juste masqué »
Perception de la hauteur Stevens & Volkman 1940 Non linéaire Echelle perceptuelle Psychoacoustique: Mesure de la hauteur ressentie : soit f1: indiquer quand f2 semble moitié (dépend aussi de la force sonore).
Plan de la présentation Perception-Audition Signaux Numériques Précision - Dynamique Fréquence d’échantillonnage Conclusion I-/ Perception / audition - constitution de l'oreille - principe de la sonie / phonie et de la tonie - masquage temporel / fréquentiel. II-/ Signaux numériques : impacte sur la perception - quantification - transparence / pertes II-/ Précision / dynamique - « Dynamic range » d'un signal échantillonné à quantification uniforme - Ordre de grandeur - Précision du CD - Après le CD - Perception du bruit de salle III-/ Fréquence - Psychoacoustique et haute fréquence d'échantillonnage - Ordre de grandeur - quelle fréquence doit-on choisir ? - haute fréquence d'échantillonnage pour la musique - réponse en temps IV-/ Conclusion - Introduire brièvement le principe de noise shaping (si j'ai le temps) Ensuite je souhaiterai faire des TP en matlab et langage C( pour pouvoir manipuler différentes longueurs de mots). - Filtre FIR / IIR - Filtre audio haute précision - Stabilité / précision de l'arithmetique - IIR stable en float / instable en fix - structure bi-quad. 17
PCM : Pulse Code Modulation Opérations lors de la numérisation: Echantillonnage Quantification Temps Temps Temps
Echantillonnage Théorème Shannon (1948) Kotel’nikof (1933) Nyquist (1928) Whittaker (1915) Théorème de reconstruction
Quantification Introduit du bruit: Corrélé au signal Probabilité uniforme Puissance f(nombre de pas)
Dither soustractif et non-soustractif Ajout d’un bruit avant la quantification: b(n) + - Y(n) X(n) + Quantification + Channel b(n) + Y(n) X(n) + Quantification Channel
Dualité fréquence d’échantillonnage - quantification Amélioration du RSB par sur échantillonnage: En conversion A/N: Filtre analogique à SFe/2 Echantillonnage à SFe Filtrage / sous-échantillonnage jusqu’à Fe En conversion N/A: Sur-échantillonnage Filtrage a Fe Conversion N/A à SFe Filtrage à SFe Trois effets
Les signal transformé est bit exacte. Non-réversible: Vocabulaire Transparence: Quelque soit les modification du signal audio, le résultat n’est pas perceptible par l’oreille humaine. Sans pertes: Les signal transformé est bit exacte. Non-réversible: Des pertes sont volontairement introduites (afin de compresser par exemple) impliquant: Plancher de bruit non constant (modulation / masquage fréquentiel) Le plancher de bruit est mis en forme selon des critères psycho acoustiques L’erreur est corrélée au signal
Plan de la présentation Perception-Audition Signaux Numériques Précision - Dynamique Fréquence d’échantillonnage Conclusion I-/ Perception / audition - constitution de l'oreille - principe de la sonie / phonie et de la tonie - masquage temporel / fréquentiel. II-/ Signaux numériques : impacte sur la perception - quantification - transparence / pertes II-/ Précision / dynamique - « Dynamic range » d'un signal échantillonné à quantification uniforme - Ordre de grandeur - Précision du CD - Après le CD - Perception du bruit de salle III-/ Fréquence - Psychoacoustique et haute fréquence d'échantillonnage - Ordre de grandeur - quelle fréquence doit-on choisir ? - haute fréquence d'échantillonnage pour la musique - réponse en temps IV-/ Conclusion - Introduire brièvement le principe de noise shaping (si j'ai le temps) Ensuite je souhaiterai faire des TP en matlab et langage C( pour pouvoir manipuler différentes longueurs de mots). - Filtre FIR / IIR - Filtre audio haute précision - Stabilité / précision de l'arithmetique - IIR stable en float / instable en fix - structure bi-quad. 24
Effet du dithering sur la précision Spectre d’un signal quantifié sur 16 bits à -90dB de la pleine échelle Fig. shows the FFT measurements of a 90-dBFS 1kHz signal subjected to 16-bit quantization with and without dither. In each case the 1 kHz signal appears at about the same level. With dithered quantization a smooth noise spectrum represents the benign sounding “error” in the operation. Without dither the resulting signal is rich in unwanted odd-harmonic components totaling 27%. Broadly speaking, truncated, rounded, or dithered quantizations introduce “errors” of similar power but of very different audible consequence.
Perception du bruit de quantification Bruit de quantification avec dithering sur 16 bits pleine échelle à 114dBspl Dynamique Before analyzing quantization effects we illustrate some key auditory modeling concepts by considering the significance of the simple noise spectrum that results when a 24-bit channel is reduced to 16 bit using additive TPDF white-spectrum dither. The output noise is 93.32 dBFS in the Nyquist band (0 to one-half sampling rate). In our example the sampling frequency is 44.1 kHz, so the noise spectral density (NSD) will be uniform at 136.76 dBFS/Hz. The lower dashed curve in Fig. 8 is the NSD assuming the acoustic gain to be such that a full-scale digital signal would produce 114 dB SPL. The intermediate curve is estimated from psychoacoustic modeling, and represents the intensity equivalent of the NSD in a way that allows it to be compared to the single-tone hearing threshold: wherever the noise curve is above the hearing threshold, it will be possible for the noise to be detected. This type of analysis shows clearly the influence of the hearing threshold in determining the loudness and detectability of the noise spectrum. Essentially this curve is derived by integrating the noise with a filter set that mimics the auditory filter bandwidth for the appropriate frequency and intensity.
Cas du CD: Fe=44.1 kHz 120dBspl 16 bits
Après le CD: Quantification sans dithering
Autres bruits: bruit de fond des salles Un son à -15dB en dessous du niveau du bruit de fond peut être perçu
Autres bruits: bruit d’enregistrement Fig. shows results taken from an analysis of the background noise in a selection of twelve high-resolution 96-kHz 24-bit recordings. The recordings were chosen to range from reissues mixed from 40-year-old unprocessed analog tape through to modern digital recordings. The highest, lowest, and average noise spectra are shown on a decibels versus linear frequency plot. Also shown are the uniformly exciting noise at threshold (see Section 5.2) and the coding spaces for both CD and 96-kHz 24-bit channels. Obviously these analyses embody not only the microphone and room noise of the original venue, but in the average and higher cases, also analog tape-recorder noise. Even the best analog tape recorder has a noise floor above that of an ideal 16-bit channel. The curve labeled Min is of a recording made in a Dolby screening room using a B&K 4006 microphone. Data for both the room and the microphone are given in [23], and the analysis of the recording is in good agreement. The rise in noise at lower frequencies is due to the room.
Plan de la présentation Perception-Audition Signaux Numériques Précision - Dynamique Fréquence d’échantillonnage Conclusion I-/ Perception / audition - constitution de l'oreille - principe de la sonie / phonie et de la tonie - masquage temporel / fréquentiel. II-/ Signaux numériques : impacte sur la perception - quantification - transparence / pertes II-/ Précision / dynamique - « Dynamic range » d'un signal échantillonné à quantification uniforme - Ordre de grandeur - Précision du CD - Après le CD - Perception du bruit de salle III-/ Fréquence - Psychoacoustique et haute fréquence d'échantillonnage - Ordre de grandeur - quelle fréquence doit-on choisir ? - haute fréquence d'échantillonnage pour la musique - réponse en temps IV-/ Conclusion - Introduire brièvement le principe de noise shaping (si j'ai le temps) Ensuite je souhaiterai faire des TP en matlab et langage C( pour pouvoir manipuler différentes longueurs de mots). - Filtre FIR / IIR - Filtre audio haute précision - Stabilité / précision de l'arithmetique - IIR stable en float / instable en fix - structure bi-quad. 31
Spectre audible / Fréquence d’échantillonnage Test d’écoute subjectif: x1, x2, x4, x64 FeCD ou FeDAT: Hautes Fe préférées Pourquoi ? Sensibilité acoustique différente si spectre complexe ? Traitement plus simple à ces fréquences ?
Perception des fréquences >20kHz Oreille Moyenne: Commence à filtrer passe-bas à partir de ~10kHz Plus grand-chose après 20kHz Cochlée Fonctionne Top-Down Filtre HF est plus proche du tympan Filtre centré sur 15kHz Ultra sons par conduction osseuse. Des son peuvent être perçus jusqu’à 25kHz (fort niveaux) Intermodulation dans la bande (pitch perçu ~20kMEL)
Alors, quelle Fréquence d’échantillonnage ? Shannon space for human hearing and for three channels: CD (44.1 kHz 16 bit), 96 kHz 24 bit, and 52 kHz 11 bit. · · · · noise spectral density of 18.2-bit channel sampled at 96 kHz. From the information-theory viewpoint the minimum rectangular channel necessary to ensure transparency uses 19-bit linear PCM and has a sample rate higher than 52kHz. The dynamic range should be increased according to the total number of processes taking place before and after a carrier, and the number of channels feeding into the room. Since higher sampling rates are advocated and enjoyed, we need to look further to find guidance on the optimum sample rate.
Etendue du spectre audio Exemple: La cymbale “Crash”
Considérations temporelles(1/2) Lors des test d’écoute a Fe élevée, « c’est mieux »: Les graves semblent plus nets Le son est: plus clair plus chaud Plus naturel Meilleure définition : on distingue mieux le premier plan et le deuxième plan Mais : Haut-parleur sans rendu ultrasonique Acuité auditive standard
Considérations temporelles(2/2) Le filtrage anti repliement et de reconstruction: Pentes plus raisonnables Phase linéaire que dans la bande utile => Il est possible de concevoir des filtres causaux (ou presque) dont la phase est linéaire dans la bande (apodized filters). Le résultat est très positif
Réponses impulsionelles des filtres
Plan de la présentation Perception-Audition Signaux Numériques Précision - Dynamique Fréquence d’échantillonnage Conclusion I-/ Perception / audition - constitution de l'oreille - principe de la sonie / phonie et de la tonie - masquage temporel / fréquentiel. II-/ Signaux numériques : impacte sur la perception - quantification - transparence / pertes II-/ Précision / dynamique - « Dynamic range » d'un signal échantillonné à quantification uniforme - Ordre de grandeur - Précision du CD - Après le CD - Perception du bruit de salle III-/ Fréquence - Psychoacoustique et haute fréquence d'échantillonnage - Ordre de grandeur - quelle fréquence doit-on choisir ? - haute fréquence d'échantillonnage pour la musique - réponse en temps IV-/ Conclusion - Introduire brièvement le principe de noise shaping (si j'ai le temps) Ensuite je souhaiterai faire des TP en matlab et langage C( pour pouvoir manipuler différentes longueurs de mots). - Filtre FIR / IIR - Filtre audio haute précision - Stabilité / précision de l'arithmetique - IIR stable en float / instable en fix - structure bi-quad. 39
Conclusion Transparence: PCM 19bits, 52kHz (sans post-traitements) Qualité: Il faut considérer les aspect temporels Il faut considérer la chaine de production complète Il faut accroitre la dynamique a chaque traitement L’appareil auditif est un très bon organe de perception.