Jérôme Daniel Workshop Ear Wide Open Rennes, 2008/03/12 High Order Ambisonics (HOA), une approche complète de la spatialisation sonore Jérôme Daniel Workshop Ear Wide Open Rennes, 2008/03/12
Jérôme Daniel Workshop Ear Wide Open Rennes, 2008/03/12 High Order Ambisonix, tous les bons côtés d'Ambisonix et les pouvoirs d'un super-Panoramix (sonore) Jérôme Daniel Workshop Ear Wide Open Rennes, 2008/03/12
sommaire 1 2 3 4 5 quelques généralités concepts généraux (higher order ambisonics) encodage spatial et décodage spatial, format HOA bénéfices en termes de restitution restitution: holophonique, binaurale, de groupe, dispositifs surround principe des microphones 3D HOA approche progressive et rationalisation récapitulatif et discussion 2 3 4 5 Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 3
1 introduction / généralités Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 4
High Order Ambisonics (HOA): un système en 3 points clés un format audio 3D générique and flexible basé sur un modèle pertinent de représentation du champ acoustique une technologie rationnelle et efficace pour une "vraie" captation audio 3D une technologie de reproduction sonore 3D adaptable à une large variété de dispositifs de haut-parleurs (et au casque) Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 5
Ambisonics et HOA: quelques jalons naissance en Angleterre dans les années 70 [M.Gerzon] ambisonics: captation et reproduction 3D (résolution spatiale minimale) extension à des résolutions spatiales élevées ("higher order") 1996-2000: développement des bases théoriques [Bamford, Poletti] [PhD Daniel] HOA, [PhD Nicol] liens avec WFS 2003: améliorations… vers l'holophonie / Wave Field Synthesis [Daniel, Nicol, PhD Moreau] depuis 2004-2005: développement, validation et démonstration du premier microphone HOA [PhD Moreau, Daniel, PhD Bertet] reproduction binaurale dynamique (avec head-tracker) développement et utilisation d'une suite de plugins VST Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 6
une approche aux points d'entrée multiples [angles d'éclairage utilisés dans cette présentation] ingénieur du son / outils d'enregistrement, microphones, panning mathématicien / concepts communs avec le traitement du signal [trait. signal + acousticien / antennes, beamforming] acousticien / propriétés du champ acoustique psycho-acousticien / sensations spatiales auditives & localisation Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 7
2 principaux concepts liés à higher order ambisonics (d'abord illustrés en 2D) Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 8
ambisonics (ordre 1): encodage spatial Front (X) Back Left (Y) Right enregistrement sonore panoramique microphones coïncidents omni (W) et bidirectifs (X,Y) séparation AV-AR, G-D informations sur la propagation des ondes format d'encodage = B-Format [Gerzon] indépendant de tout dispositif de HP W X Y + + - - + B-Format Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 9
décodage spatial pour la reproduction Front (X) Back Left (Y) Right reproduction sur haut-parleurs "reconstituer" un microphone par HP recombiner les directivités du B-Format opération de décodage: matricer W,X,Y ... autant de HP qu'on veut, mais... … le flou d'image sonore ne diminue pas W X Y + - = + + - + + - + B-Format Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 10
ambisonics d'ordre 1: avantages et limites format multicanal compact homogénéité spatiale fidélité acoustique (pour les propriétés de propagation) facilement extensible à la 3D (composante additionnelle Z) flexibilité: transformation de champ acoustique; dispositifs de reproduction microphones B-Format commercialisés (eg SoundField™) limites images sonores floues et instables (sweet spot très réduit) mal adapté aux arrangements de HP irréguliers/déséquilibrés (notamment config ITU 5.1) séparation spatiale limitée car faible directivité des micros (surtout en BF) ... voilà peut-être pourquoi une partie des ingés son préfèrent les approches non-coïncidentes (compte-tenu des technos traditionnelles de microphone) Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 11
Higher Order Ambisonics (HOA) Front (X) Back Left (Y) Right augmenter la discrimination angulaire grâce à des directivités supplémentaires encodage spatial Transf. de Fourier circulaire spectre spatial = {composantes ambisoniques} largeur de bande = fréquence angulaire max spectre spatial enrichi 0th order 1st order 2nd order 3rd order 4th order Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 12
Higher Order Ambisonics (HOA) Front (X) Back Left (Y) Right augmenter la discrimination angulaire grâce à des directivités supplémentaires encodage spatial Transf. de Fourier circulaire spectre spatial = {composantes ambisoniques} largeur de bande = fréquence angulaire max améliorer la séparation spatiale pour un usage plus sélectif des haut-parleurs synthétiser des directivités plus fines décodage spatial beamforming multidirectionnel + + + + idem = = = = directivité accrue Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 13
Higher Order Ambisonics (HOA) Front (X) Back Left (Y) Right augmenter la discrimination angulaire grâce à des directivités supplémentaires encodage spatial Transf. de Fourier circulaire spectre spatial = {composantes ambisoniques} largeur de bande = fréquence angulaire max améliorer la séparation spatiale pour un usage plus sélectif des haut-parleurs synthétiser des directivités plus fines décodage spatial beamforming multidirectionnel Transf. Fourier inverse à support discret images sonores plus précises (étalement angulaire réduit) idem 3rd order 4th order 1st order 2nd order Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 14
scalabilité spatiale du format HOA 2nd order 3rd order 1st order 4th order W X Y Decodage : matrice (+ filtres) Front (X) Back Left (Y) Right Rappeler au passage: nb de composantes HOA // ordre; nb HP min requis; … plus ou moins de composantes utilisées selon les contraintes de transmission et/ou reproduction Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 15
3 bénéfices de HOA sur le plan de la restitution Discours: on a illustré et argumenté les choses de façon qualitative et "intuitive"; maintenant on va décrire différentes caractéristiques de la restitution, suivant les paramètres du système et les conditions d'écoute reconstruction "holophonique" (ordre élevé, large zone) au-delà de la reconstruction "parfaite" / contrôlée… caractérisation globale par vecteur énergie reconsutrction binaurale Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 16
reconstruction acoustique élargie ordre 1 ordre 2 ordre 3 ordre 4 fréquence angulaire croissante (spectre spatial + riche) expansion radiale de la reconstruction acoustique (prop. longueur d'onde) 1st order 2nd order 5th order 10th order Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 17
reconstruction "holophonique" reconstruction en fonction de la fréquence (zone cible donnée) f=125Hz, 2nd order f=300Hz, 5th order f=450Hz, 8th order f=600Hz, 10th order là où la reconstruction est correcte ITD et ILD corrects bonne localisation, stable avec le déplacement lien vers animations? ici: hypothèse d'ondes planes (HPs "à l'infini")! or, HPs à distance finie front d'onde "infléchi" Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 18
synthèse de front d'onde avec NFC-HOA compenser le champ proche des HPs (bass-boost et déphasage) et modéliser celui de la source virtuelle contrôle de la courbure du front d'onde (Near Field Compensated HOA) [Daniel, 2003] sources "extérieures" et "intérieures" Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 19
et en dehors des conditions de reconstruction "exacte"? ordre modérément élevé ; gamme MF/HF ; écoute excentrée étalement/ponctualité des contributions de HP dégradation/préservation des indices de localisation (ITD, ILD, IS) qualité décrite par le vecteur énergie décodage optimisable impact sur la robustesse en écoute de groupe ponctualité étalement interprétations du vecteur énergie TODO: rajouter illustration off-center!?! Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 20
de la reconstruction holophonique à la reconstruction binaurale reconstruction ciblée sur une zone englobant un auditeur centré meilleure préservation des indices de localisation ordre M 1 2 3 4 flim 700 Hz 1300 Hz 1900 Hz 2500 Hz aE 45° 30° 22.5° 18° bonne reconstruction jusqu'à flim (bon ITD voire ILD selon fq) "angle de flou", compte-tenu seulement des indices de loc. HF (ILD&ITD), altérés au-delà de flim évaluation subjective pour un auditeur centré [Bertet] précise le gain en "qualité" en fonction des ordres croissants Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 21
extension à l'encodage et la reproduction 3D encodage vers Format HOA 3D reproduction sur config 3D rotation du champ sonore décodage spatial (idem 2D) K signauxHOA K N signaux HP head-tracker “virtualisation”: filtrage HRTF encodage et décodage 3D reproduction binaural dynamique approche de base: "virtualisation" binaurale des HPs décodage optimisé: [Faure, Daniel, Emerit] rotations de champ sonore piloté par head-tracker reproduction sur casque Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 22
compatibilité avec des dispositifs non-réguliers configurations ITU standard and enrichies (5.0, 7.0, 8.0, etc.) synthétiser des directivités adaptées aux angles inter-HP (couverture optimale) (exemple: décodage d'ordre 4) NB: avec l'ordre 1, on est vraiment très limité (au minimum, disto angulaire ou bien balance spatiale déséquilibrée) (cf Gerzon's Vienna Decoders, où il "triche un peu" 30°45°) NB: ici, on illustre avec l'ordre 4; il faudrait l'ordre 5 pour une séparation spatiale plus "parfaite" entre HP +/-30° et HP centre, et donc une meilleure "présence" du HP frontal (et stabilité) sur la config 5HP NB: présence HPs frontaux mieux rééquilibrée avec 7 ou 8 HP… (équilibre globale rétabli) Commentaires sur "qualité" de restitution: vecteur énergie, interprétation (prédicteur, direction moyenne, étalement des contrib, ?? Ajouter ?? limites "physiques" due à la géométrie, avec pair-wise pan-pot (polygone) ◊ = " vecteur énergie" (* = cible, i.e. image sonore idéale) = limite physique (cas extrême=pan-pot par paire de HP) Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 23
4 principe des microphones 3D HOA Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 24
captation directive: approche progressive approximation du gradient (cas "unidimensionnel") [ex. fonction sinusoïdale: "onde pour une fréquence donnée"] dérivée = pente, estimée entre deux points "proches" assez rapprochés // longueur d'onde pas trop proches non plus, car… la différence doit se détacher du bruit de mesure! (dans la "vraie vie") cas de la prise de son par omnis [hors capteurs de vélocité] fonction = champ de pression points de mesure = lieux des capteurs omni… mêmes positions quelle que soit la longueur d'onde!! e trop petit Bruit de mesure e OK e trop grand Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 25
captation HOA: approche progressive - + capteur de pression gain positif gain négatif compromis sur l'espacement d des capteurs BF (différences noyées dans bruit) HF (aliasing spatial) théoriquement, EQ BF de –m x 6dB/oct !!! en pratique, effort relâché en BF baisse de directivité et/ou de réponse [id pour cardio et bi] réseau microphonique global ici, 9 capteurs rassemblés pour 5 composantes 5 capteurs devraient suffire pour 5 composantes!? + p0 + - + - + - + - p1 p5 p8 p3 p4 p1 p3 p4 Voici comment on pourrait tenter d'estimer les harmos sphériques, ie créer les directivités HOA, séparément. TODO: remplacer (ou compléter) expression dérivées par approximation diff. 1/(jkd)^m p2 p2 p7 p6 bass-boost=6dB/oct bass-boost=12dB/oct Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 26
rationalisation: sphère microphonique HOA Q capsules réparties sur une sphère échantillonnage du champ sonore Q=32 ordre 4, K=25 composantes HOA traitement = matrice + égalisation égalisation: théoriquement -mx6dB / oct ! on relâche l’effort en BF Matrice N x K N signaux captés Q signaux ambisoniques TODO: graphes EQ: ajouter EQ non régularisés en pointillés On repose le problème de façon plus générale, en utilsant un même jeu de capsule pour l'estimation des l'ensemble des directivités HOA; structure sphérique pls naturelle (séparer aspects angulaires de la dépendance fréquentielle et radiale; factoriser le traitement) Notion d'échantillonnage spatial… et d'aliasing spatial! mentionner études internes: Seb, Stéph, Nico Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 27
microphone HOA: limites et compromis estimation correcte aliasing spatial (dB) 7cm, 32 capteurs 25 comp. (ordre 4) estimation error bande spatiale réduite to summarize, here's the plot of the total estimation error of each [estimated] component as a function of the frequency, computed as the quadratic sum of [each line of] the previous matrixes(???) ((we retrieve our 3 typical (sample) frequencies)) […while] the black contour delimits the (blue and green) area of good spherical harmonic reconstruction, according to a limit error [arbitrarily? severely!?] fixed to 20dBs below 0 ((10% on a linear scale)). For each frequency, the spatial bandwidth (and therefore the highest possible beam directivity) is defined by the highest [well estimated] order [for which components are well estimated]. It clearly decreases ((at LF))((as the frequency decreases)), whereas there is a barrier for all orders (about 10kHz) between [about] 7 and 10kHz: This has to be compared with the well known spatial aliasing frequency for which the distance/gap between adjoining(?) sensors is about half the wave-length. [apparition sphère] Now, how to improve the performance? [Animation!] If we enlarge the size of the array to improve low frequency directivity, the entire (good) reconstruction limit shifts [towards low frequencies] and therefore we decrease the spatial aliasing frequency. [Animation!] reciprocally the whole(?) reconstruction limit shifts towards HF when the array radius gets smaller. So, we have to find alternative structures to push back / to solve this tradeoff between LF and HF without necessarily increasing the number of sensors. [next slide] ((formule de Meyer et Elko donne f = 6,9kHz pour R=35mm)) ((formule 8 caps sur un cercle -> donne f=6,2kHz)) [illustration : cas d'un sphère rigide, R=3,5cm, f=200Hz, 4kHz, 10kHz] erreur "cumulée", = somme quadratique des erreurs (// matrice diagonale) expliquer que ces contours subissent une translation vers les BF ou les HF lorsqu'on joue sur le rayon de la sphère (resp. si augmenté ou réduit) interpréter l'aliasing du spectre harmonique sphérique comme l'aliasing spatial bien connu formule (voire modifiée par Meyer&Elko)!?!, lié à l'ambiguïté… dans le brevet de Meyer et Elko, fmax est définie par l'approximation suivante (j'écris la formule en Matlab) : fmax = c / 2 / sqrt( (4*pi*r^2 / N) * (4/pi) ) où N est la nombre de micro et r le rayon de la sphère en gros c'est la formule classique mais la distance entre 2 capteurs est remplacée par la racine de la densité surfacique de micro relativement à la longueur d'onde (nombre de micros divisé par la surface de la sphère exprimée en lambda^2). On peut donc jouer sur le diamètre de la sphère, mais ça ne fait qu'une translation sur l'axe des fréquences: ce qu'on gagne en BF, on le perd en HF et vice-versa. On peut essayer de jouer sur la matrice d'orthogonalité à travers l'échantillonnage spatial (angulaire), mais a priori ça ne change pas bcp les ordres de grandeur des limites On peut essayer de jouer sur les fonctions Wm… ça implique la directivité naturelle des capteurs sur le support; via par exemple une impédance différente de celle d'une sphère rigide (qui est nulle ou infinie??), donc les propriétés d'absorption du matériau, etc. décalé vers BF quand diamètre décalé vers HF quand diamètre ↓ Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 28
sphères microphoniques HOA ou assimilables prototypes de laboratoire [Moreau, Daniel, Bertet], [Meyer, Elko] [Rafaely][Farina] FTR&D 32 caps ordre 4 12 caps ordre 2 20 caps ordre 3 Univ. Maryland [Lee, Duraiswami] 64 caps ordre 6 produits commercialisés (sans label "HOA") EigenMike™ (mh-acoustics) 32 caps ordre 4 B&K (orientée mesure et imagerie acoustique) 36/50 caps. ordre 5-6 perspectives d'amélioration [Epain 2008] "multi-sphère" [Parthy et al] structures particulièrement diffractantes résoudre le compromis LF/HF Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 29
5 récapitulatif et discussion Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 30
récapitulatif points forts (au moins les mêmes qu'à l'ordre 1, plus…) format multicanal scalable (hiérarchique) homogénéité spatiale fidélité acoustique + "haute définition spatiale" reconstruction "holophonique" extension à la 3D - spatialisation binaurale efficace encore plus de flexibilité: transformations spatiales; config de reproduction, y compris irrégulières (surround ITU) microphones HOA (à « haute résolution spatiale ») points faibles aucun? ... vraiment? peut-être les "défauts de ses qualités" !? marge d'amélioration sur les outils (microphones, etc.) défauts de ses qualités: homogénété spatiale… mais si scène plutôt frontale? "fidélité"/"réalisme" acoustique… mais si on préfère une vision artistique? outils de transf., mix, post-prod à dév. et mettre aux mains des ingés son flexibilité // restitution… mais quel contrôle réel du rendu final? progrès nécessaires sur la "transparence" de la restitution modèle d'encodage rationnel… mais qui ignore les artefacts de prise de son Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 31
contextes d'usage contextes d'utilisation potentiels prise de son artistique (musicale, théâtrale…), documentaire… partage d'ambiances sonores 3D captation / reproduction sonore immersive pour des "proches à distance" amélioration de l'audioconférence gain en intelligibilité et confort nouvelles perspectives de création et de "consommation" de contenu audio 3D … un contenu pour une reproduction 2D ou 3D, statique ou interactive, de haute ou basse résolution, selon les contraintes Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 32
pour discussion… HOA par rapport à des approches plus traditionnelles famille "coïncidente" / panning d'amplitude (car DT=0) … mais captation par micros non-coïncidents séparation spatiale approche rationnelle qui tente d'exploiter au mieux les informations spatiales captées mais comme pour toutes les techniques, pas exempte d'artefact ! … certains artefacts sont-ils préférables à d'autres ? un parti-pris: une certaine "fidélité" acoustique (effets de propagation / localisation) ≠ approche purement artistique privilégie l'immersion, homogénéité outils à mettre aux mains des ingés sons approche artistique: "trahir" éventuellement la réalité acoustique (pour l'embellir ou la corriger) mais bénéficier de la solidité des infos spatiales marges d'amélioration éléments technologiques perfectibles (microphones, etc.) outils de post-prod, mixage 3D, retouches spatiales artefacts versus artefacts… aliasing spatial; traitement Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 33
6 système mis en œuvre pour "ears wide open" Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 34
le microphone HOA 20 DPA4060 arrangés suivant les sommets d'un dodécaèdre sur une boule de 7,5cm de diamètre ordre 3 (16 composantes 3D) effort modéré en BF (+6dB de bruit) (éléments défectueux dans la chaîne d'acquisition) Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 35
la restitution HOA (2D) configurations ITU 5.0 et "enrichie" 8.0 suite de plugins VST HOA de FTR&D démonstration de "recadrage" par rotations, etc. appoints non exploités Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 36
merci pour votre attention Ears Wide Open HOA/2008-03-12/Jérôme Daniel – p 37