Jérôme Daniel et Rozenn Nicol jerome.daniel @ francetelecom_. __com Comparaison des approches Wave Field Synthesis et (Higher Order) Ambisonics pour l'encodage et la restitution de scènes sonores Jérôme Daniel et Rozenn Nicol jerome.daniel @ francetelecom_. __com
L’illusion sonore… par quels moyens? L’illusion sonore spatiale, c’est : des images sonores localisées dans l’espace direction+profondeur relief sonore (« stéréophonie ») se représenter la scène sonore de l’enveloppement (sources et/ou réflexions latérales) se sentir immergé dans la scène sonore Au moyen d’une diffusion sur haut-parleurs Stéréophonie sur 2 haut-parleurs Rendu panoramique ou surround sur 5 HPs Dispositifs + complets: grand nombre de HPs, dispositifs 3D Moyens de production sonore Prise de son [naturelle]: arsenal de microphones classiques Mixage, pan-pot : à partir de voies mono Nouveaux moyens: réseaux microphoniques et spatialisation Des formats de représentation pour la transmission Stéréo 2 canaux, discrete surround (5.1, etc.): 1 voie pour 1 HP Surround matriçé vers stéréo: décodage (up-matrixing) avec perte Nouveaux formats sonores 3D + flexibles (cfg HP, canaux transmis) WFS et HOA (Ambisonics) L’objectif général: […] Sur quel modèle? (expérience d’écoute naturelle) Quelques définitions: illusion sonore (spatiale), image sonore localisée (et stable si possible!) [en direction et profondeur] [là où il n’y a pas de source sonore réelle!], enveloppement [effet de salle, notamment réflexions latérales], immersion [enveloppement, propriétés « réalistes » du champ sonore]
L’héritage de la stéréo à 2 voies Couples de micros coïncidents Couple non-coïncident AB-ORTF Encodage spatial XY Stereosonic MS Pan-pot d’amplitude (*) Pan-pot DI + DT Format de transmission: 2 canaux gauche (L) et droit (R) -Microphones employés: omnis, bidirectifs (figure en 8), cardioïdes -Couple de micros (encodage spatial) paire de haut-parleurs (restitution) => Une affaire de goût et de compromis !? Localisation fluctuante (selon la fréquence) Rendu spatial +de largeur apparente +d’enveloppement Image sonore cohérente (*) (localisation prédictible) Scène confinée entre les HPs
Stereo multicanal: le surround standard Des besoins qui dépassent les capacités de la stéréo traditionnelle Besoin d’une scène frontale plus stable (cinéma) Besoin d’enveloppement et d’immersion (composantes latérales) Recommandations de l’ITU: 1 HP central en plus des 2 existants 3 HP frontaux + 2 HP latéraux/arrière ambiance, réflexions latérales, enveloppement Finalement, une configuration relativement critique Les grands écarts entre HPs rendent délicate la création d’images latérales et arrière stables Cela restreint l’écriture ou la composition de l’espace sonore à une dichotomie « scène et dialogue frontaux » / « ambiance et effets latéraux » (convient notamment au cinéma) 30 ° 110°
Stereo multicanal: le surround standard Micros coïncidents Pan-pot d’amplitude Micros non-coïncidents Encodage spatial Double MS (Schoeps) Micro ambisonic (SoundField) Cardios coïncidents Pan-pot DI + DT (+matriçage) B-Format : 3 canaux W, X, Y Format de transmission: 5 canaux L, C, R, SL, SR Traditionnellement, comment s’y prend on (pour recréer une expérience auditive proche du naturel, ie l’illusion sonore)? Qq définitions: encodage spatial (prise de son ou pan-pot) = « comment les sons portés par les fronts d’onde et le champ réverbéré se retrouvent dans les signaux transmis, en fonction de leur incidence, etc. »; … Héritage des techniques stéréophoniques pour 2 canaux (2 HP). Prise de son naturelle et pan-pot (production studio). Eventail des microphones classiquement employés (omni; cardio; bi noter: combinaisons) Deux approches: stéréophonie d’intensité (=micros coïncidents=pan-pot d’amplitude) versus DeltaI+DeltaT (micros non-coïncidents) Tableau comparatif en fonction de différents critères : images sonores localisées (stabilité, prédictibilité), enveloppement et largeur apparente de scène sonore (effet macroscopique du champ) suivant stéréo 2 canaux ou bien multicanal ((coloration?)) Version multi-canal: séparation latérale (pb: cardioomni en BF) => enveloppement (lié aux réflexions latérales) seulement (?) si décorrélation grâce à la non-coïncidence. 30 ° 110° Déc. ambisonic (matriçage) L’écart entre deux micros d’une paire (L et R, et SL et SR) rend l’effet des réflexions latérales par déphasages et décorrélation meilleur enveloppement, en dépit des directivités limitées en BF En pratique: faible directivité des cardios en BF, séparation latérale limitée effet d’enveloppement réduit
Bilan provisoire (approche traditionnelle de la production multicanal) Contrainte de la configuration des HP (standard: 3 front + 2 rear) Limitation de la directivité des microphones classiquement employés Une approche empirique du design des sytèmes microphoniques (pour suppléer aux limitations des micros utilisés « tels quels »): Il s’agit de « bluffer » l’auditeur (l’art de l’ingénieur du son), même si ce n’est pas acoustiquement réaliste En général (en tous cas pour la stratégie « micros non-coïncidents ») : 1 microphone pour 1 HP et (quasiment) pas de traitement (i.e. combinaison des signaux captés) il manque un décodage approprié à cet encodage spatial Deux visions distinctes (voire opposées, dans les esprits): coïncidence versus non-coïncidence des micros Les approches holophoniques WFS et HOA … s’attachent au respect d’une réalité physique du champ sonore proposent des outils avancés de prise de son et d’encodage spatial suggèrent de nouveaux formats de représentation 3D multicanal, plus flexibles Contrainte de la configuration des HP (standard: 3 front + 2 rear) Limitation de la directivité des microphones classiquement employés. Une approche empirique du design des sytèmes microphoniques (pour suppléer aux limitations d’une approche relativement rationnelle): Il s’agit de bluffer l’auditeur (l’art de l’ingénieur du son), même si ce n’est pas acoustiquement réaliste En général, 1 microphone pour 1 HP (en tous cas pour stratégie « non-coïncidente ») et (quasiment) pas de traitement (combinaison des signaux captés), donc encodage spatial = ce qui est capté par les microphones Deux visions distinctes (voire opposées, dans les esprits): coïncidence versus non-coïncidence des micros Et si on regardait une approche plus rationnelle de l’encodage et de la reproduction du champ sonore spatial? Et si on avait de nouveaux outils ( de prise de son)? …
Systèmes holophoniques WFS et HOA… vus de loin Stratégies visant la reconstruction physique du champ (holophonie) Basées sur des descriptions différentes de la réalité du champ sonore Micros non-coïncidents: réseau identique au réseau de HP Micros coïncidents: omni, bidirectifs, quadripôles, etc. (« harmoniques sphériques ») Encodage spatial Format de transmission: N canaux (1 par mic et par HP) B-Format étendu: K canaux ambisonic (indép. HP) Aperçu en gros des 2 approches, pour des conditions identiques de restitution sonore (config circulaire 2D: certes + riche que la config surround standard!!!). 2 stratégies visant la reconstruction physique du champ sonore, mais (originellement) différentes car partant de la description de réalités (en apparence) différentes du champ sonore: WFS: réseau de micros identique au réseau de HP: description du champ sur (l’enveloppe) la bordure de la zone de restitution pour le reconstruire à l’intérieur… cas particulier de l’approche « microphones non-coïncidents » HOA: microphones (virtuellement) coïncidents, au centre du dispositif, composantes directionnelles du champ sonore, champ reconstruit (par extrapolation) sur un voisinage (+ ou -) étendu, à l’intérieur du réseau de HP. Là où s’arrête l’analogie avec la stéréo (multicanal): réseau mic de même dimension que réseau HP; micros coïncidents « d’ordres supérieurs » (« à résolution spatiale supérieure ») Plan du reste de l’exposé… Déc. ambisonic (matriçage) Rendu spatial Le champ est reconstruit par « extrapolation » autour du centre Le champ est reconstruit par « interpolation » à l’intérieur
Holophonie équivalent acoustique de l’holographie Cf. «Acoustique théorique, propagation et holophonie» M. Jessel - 1973 consiste à reproduire un champ sonore à partir d’un enregistrement sur une surface (surface fermée ou plane) qualitativement: Principe de Huygens quantitativement: Résolution d’un problème aux limites
Holophonie: approche intuitive Principe de Huygens front d’onde = distribution de sources secondaires applications: reproduire / annuler un champ acoustique ondelettes
Holophonie : approche théorique Problème aux limites Champ créé par des sources dans 1 Champ capté sur la limite d Champ à reconstruire dans 2 Solution: Intégrale de Kirchhoff-Helmholtz microphone à gradient de pression microphone de pression monopôle dipôle
Application de l’holophonie: la WFS (Wave Field Synthesis) Application à la reproduction 3D d’un champ sonore Les artefacts qui résultent des approximations: [Restriction 2D (horizontale) approximation de la phase stationnaire] Surtout la discrétisation de la distribution de sources espacement entre les capteurs => aliasing spatial (illustré + loin) En pratique (WFS), des approximations : Nombre fini de micros et HPs (discrétisation des réseaux) Restriction au plan horizontal (réseaux 2D) Un seul type de transducteur (typiquement : micros cardios et HP monopolaires) Cas particulier illustré dans l’exposé: réseau circulaire
WFS: synthèse artificielle de front d’onde Simuler la prise de son par le réseau source sonore virtuelle dite « source notionnelle » 1 retard et 1 atténuation par source et par HP correction de la phase stationnaire, car réseaux 2D et non 3D égalisation des haut-parleurs correction de la phase stationnaire source notionelle 1 son mono pour 1 source synthèse de front d’onde artificielle (à partir d’un son mono) = « source notionnelle » prise de son virtuelle = retards et atténuation suivant la position de la source virtuelle // chaque micro virtuel
Ambisonics « traditionnel » (ordre 1) : encodage et informations spatiales Description de la propagation du son en un point de « vue » privilégié W: champ de pression X, Y, Z: gradient de pression vélocité acoustique Rapport (X, Y, Z) / W : vecteur décrivant la direction et vitesse apparente de propagation Information directionnelle contenue dans le rapport d’amplitude entre les composantes Description indépendante d’un quelconque dispositif de restitution Flexibilité Transformation du champ (rotation, focus) par matriçage des composantes ((Commençons doucement)) Décrire la propagation du son (au voisinage /) en un point de « vue » privilégié (qui sera le centre du dispositif de restitution): le son lui-même (champ de pression W), le gradient de pression (X, Y, Z), lié à la vélocité acoustique. (=> microphones aux directivités connues, placés de façon coïncidente). Equations d’encodage… Grâce à ces 4 premières composantes spatiales (format ambisonique d’ordre 1, dit « B-format »), on obtient une caractérisation minimale de la propagation (rapport [XYZ]/W: vecteur vélocité = direction et vitesse apparente de propagation. Si on s’intéresse à une reproduction 2D, on laisse tomber Z (3 composantes). Description indépendante d’un dispositif de restitution: suivant l’arrangement spatial des HPs, on applique un décodage (typiquement un matriçage des signaux) pour obtenir les signaux des HP qui permettront la reconstruction du champ au voisinage de l’auditeur (ex. d’un front d’onde) L’ajout de HPs n’améliore pas la résolution spatiale (à la rigueur, la stabilité) si l’on s’en tient aux seules composantes spatiales d’ordre 1. Noter: encodage + décodage prise de son équivalente avec des micros infra-cardioides (recombinaison des ); décodage
Ambisonics « traditionnel » (ordre 1) : décodage et restitution Matrice de décodage D Signaux Ambisoniques B Signaux des haut-parleurs S = D.B Champ reconstruit par le réseau de haut-parleurs B B ~ Décodage ( matriçage) recomposer le champ acoustique Recombinaison des harmoniques sphériques (omni+bidirectifs) prise de son équivalente avec des micros (infra-)cardioïdes Zone de reconstruction assez large en TBF, réduite en HF Décodages modifiés pour les HF ou pour positions d’écoute excentrées ordre 1 :
Ambisonics à résolution spatiale élevée (Higher Order Ambisonics : HOA) En exploitant les directivités d’ordres supérieurs… Le décodage associé à l’encodage équivaut à une prise de son utilisant des micros très directifs Meilleure utilisation des HPs = meilleure sélectivité angulaire (s’ils sont rapprochés les uns des autres) Reconstruction quand l’ordre croît Sur une zone + large (pour une fréquence donnée) Jusqu’à une fréquence + élevée (pour une position ou une zone donnée) Gradient=dérivées spatiales d’ordre 1… si on va + loin (dérivées d’ordres supérieurs), on va approximer le champ sur un voisinage + large. Autre façon: ordre 1=résolution spatiale limitée; composantes d’ordres sup (harmoniques sphériques) scrutent le champ sonore avec une fréquence angulaire + élevée (note: microphones « virtuels », cf + loin pour voir comment on fait en pratique…) Encodage+décodage microphones équivalents avec des lobes + directifs! Illustration: reconstruction en fonction de l’ordre… Source virtuelle: encodage spatial = directionnel (gains) + distance=courbure du front d’onde (filtres) Onde plane monochromatique f=600Hz ordre 1 : ordre 2: ordre 5 : ordre 10 :
Higher Order Ambisonics : schéma d’encodage spatial de sources virtuelles Distance Coding Directional Input parameters Outputs (NFC HOA) Signal Positional Encoding Encodage directionnel : Contrôle de la distance (courbure du front d’onde) [Daniel, AES23, 2003]
WFS et HOA: comparaison (source virtuelle) HOA (ordre 15) WFS (32 HP) HOA (ordre 15) WFS (32 HP) Onde plane (source lointaine, extérieure au réseau) WFS=HOA en BF WFS: aliasing spatial en HF (« nid d’abeille ») HOA: la zone de reconstruction se rétrécit (HF), mais l’information spatiale reste consistante Source proche, « intérieure » Reconstruction complète impossible HOA: disque excluant la source WFS: retournement temporel Des approches qui peuvent se compléter et bénéficier l’une de l’autre. Cf [Daniel et al, AES114, 2003] Aliasing spatial pour WFS; pas pour HOA Cas de sources virtuelles à l’intérieur du réseau de HP… (commenter ou pas???)
WFS et HOA: tests d’écoute comparative Evaluation subjective et comparaison de WFS et HOA Localisation de source sonore virtuelle Rendu de sources en mouvement Taille de la zone d’écoute: multi-auditeurs et auditeur mobile Evaluation de l’immersion Démonstrateur pour tests Réseau circulaire de 48 HPs (Labo de France Telecom R&D) Elaboration des tests entamée dans le cadre du projet CARROUSO
Prise de son ambisonic d’ordre élevé W = LF + LB + RF + RB X = LF - LB + RF - RB Y = LF + LB - RF - RB Z = LF - LB - RF - RB Ordre 1: (micro SoundField) recomposition d’1 omni et 3 bidir. … à partir de 4 cardios Ordres supérieurs + grand nombre de capsules (non-coïncidentes) réparties sur une sphère (3D) échantillonnage spatial des composantes harmoniques sphériques Matriçage (encodage directionnel) + égalisation (selon directivité et distance des capteurs Compromis: entre BF (élargir le réseau) et HF (diminuer l’espace entre capteurs) Cas particulier (2D) réseau circulaire: similaire au WFS microphones non-coïncidents ! Matrice N x K N signaux captés K signaux ambisoniques Estimation de dérivées spatiales, c’est-à-dire les variations locales du champ: d’après les différences du champ, capté en différents points. On [préfère][considère], pour des raisons de simplification du traitement, un réseau concentrique de micros (circulaire ici, puisqu’on est en 2D). N signaux captés
WFS et HOA : comparaison en condition de prise de son réelle WFS : viser une zone d’écoute pas aussi large que le réseau de HP HOA : aller cherche l’information du champ acoustique sur une zone + large Chacun dispose de procédés d’interpolation ou d’extrapolation du champ On réalise un compromis avec des dimensions intermédiaires pour le réseau microphoniques On montre que dans des conditions de prise de son identiques, les 2 stratégies sont soumises à des qualités et artefacts (aliasing spatial) de reconstruction semblables D’autres variantes techniques des prise de son offrent des solutions satisfaisantes pour les deux approches + d’info spatiale BF Réduction de l’aliasing spatial Simplification : restriction au plan horizontal, réseau horizontal de microphones. Apparition de l’aliasing spatial, même pour ambisonics Schéma original pour le WFS Schéma intermédiaire Schéma original pour le HOA
Retour au multicanal (1/2) Micros coïncidents versus non-coïncidents Un faux clivage !? (lien entre WFS et HOA) La prise de son directive nécessite une capture du champ en des points distincts, voire distants ! (d’où: micros cardio omni en BF) Lois de pan-pot et systèmes de prise de son pour le 5.1 On peut définir des lois de pan-pot optimales pour le 5.1, qui s’expriment en termes d’harmoniques sphériques (Craven 2003) Des systèmes microphones inspirés du HOA ou du WFS peuvent être exploités pour une prise de son quasi-optimale Finesse de directivité (largeur de lobe) en fonction de l’écart entre les haut-parleurs (From Craven, 2003) 30 ° 110°
Retour au multicanal (2/2) Des nouveaux formats de représentation sonore 3D Flexibilité du format (High Order) Ambisonics: Décodage et reproduction sur une grande variété de dispositifs Possibilité de transformation du champ sonore (rotation, focus) Scalabilité spatiale: laisser tomber certains canaux (selon contraintes de transmission ou limitation de la restitution) Possibilité d’assurer une compatibilité avec les formats « discrete multi-channel » (5.1) Pré-décodage (matriçage) pour 5.1 et possibilité de back-matrixing vers (WXY…) L C R SL SR Z U V 5 channels computed from W, X et Y ambisonic comp. Add. vertical amb. component Y X W sound field transformation Spatial decoding Binaural / Transaural Surround (5.1) 3D/2D HP Config. 8 conveyed channels 6 ambisonic components 5 channels computed from W, X et Y ambisonic components Add. vertical amb. Component Ignored By-passed (no spatialization added) (Optional) BackwardMatrix
Conclusion : outils récents et émergeants Encodage spatial « haute résolution » (sources virtuelles) Pan-pot améliorés (en direction et en distance) ... pour la spatialisation dans la composition de scènes 3D interactives (réalité virtuelle, jeux…) plugins (FTR&D) pour Virtools … pour la production musicale, artistique développement (en cours) de plugins VST (FT R&D, Univ. York) Systèmes microphoniques à « haute-résolution spatiale » Microphones 2D en expérimentation (ex. Univ. Delft) Microphones 3D (ex. France Telecom R&D, Trinnov Audio, MH-Acoustics) Microphones dédiés au 5.1 (ex. Trinnov Audio): synthèse de directivités fines De nouveaux formats + flexibles : High Order Ambisonic ou dérivés Format ambisonic avec matriçage partiel (optionnel) des composantes pour compatibilité avec multicanal standard (5.1 ou autre) Scalabilité spatiale Adaptabilité à une multitude de dispositifs de restitution Extension des formats de fichiers multicanal (investigations // WAVE_EX) En cours de discussion pour une future version du standard MPEG-4