Jérôme Daniel et Rozenn Nicol francetelecom_. __com

Jérôme Daniel et Rozenn Nicol jerome.daniel @ francetelecom_. __com
Comparaison des approches Wave Field Synthesis et (Higher Order) Ambisonics pour l'encodage et la restitution de scènes sonores Jérôme Daniel et Rozenn Nicol francetelecom_. __com

L’illusion sonore… par quels moyens?
L’illusion sonore spatiale, c’est : des images sonores localisées dans l’espace direction+profondeur  relief sonore (« stéréophonie »)  se représenter la scène sonore de l’enveloppement (sources et/ou réflexions latérales)  se sentir immergé dans la scène sonore Au moyen d’une diffusion sur haut-parleurs Stéréophonie sur 2 haut-parleurs Rendu panoramique ou surround sur 5 HPs Dispositifs + complets: grand nombre de HPs, dispositifs 3D Moyens de production sonore Prise de son [naturelle]: arsenal de microphones classiques Mixage, pan-pot : à partir de voies mono Nouveaux moyens: réseaux microphoniques et spatialisation Des formats de représentation pour la transmission Stéréo 2 canaux, discrete surround (5.1, etc.): 1 voie pour 1 HP Surround matriçé vers stéréo: décodage (up-matrixing) avec perte Nouveaux formats sonores 3D + flexibles (cfg HP, canaux transmis) WFS et HOA (Ambisonics) L’objectif général: […] Sur quel modèle? (expérience d’écoute naturelle) Quelques définitions: illusion sonore (spatiale), image sonore localisée (et stable si possible!) [en direction et profondeur] [là où il n’y a pas de source sonore réelle!], enveloppement [effet de salle, notamment réflexions latérales], immersion [enveloppement, propriétés « réalistes » du champ sonore]

L’héritage de la stéréo à 2 voies
Couples de micros coïncidents Couple non-coïncident AB-ORTF Encodage spatial XY Stereosonic MS  Pan-pot d’amplitude (*)  Pan-pot DI + DT Format de transmission: 2 canaux gauche (L) et droit (R) -Microphones employés: omnis, bidirectifs (figure en 8), cardioïdes -Couple de micros (encodage spatial)  paire de haut-parleurs (restitution) => Une affaire de goût et de compromis !? Localisation fluctuante (selon la fréquence) Rendu spatial +de largeur apparente +d’enveloppement Image sonore cohérente (*) (localisation prédictible) Scène confinée entre les HPs

Stereo multicanal: le surround standard
Des besoins qui dépassent les capacités de la stéréo traditionnelle Besoin d’une scène frontale plus stable (cinéma) Besoin d’enveloppement et d’immersion (composantes latérales) Recommandations de l’ITU: 1 HP central en plus des 2 existants  3 HP frontaux + 2 HP latéraux/arrière  ambiance, réflexions latérales, enveloppement Finalement, une configuration relativement critique Les grands écarts entre HPs rendent délicate la création d’images latérales et arrière stables Cela restreint l’écriture ou la composition de l’espace sonore à une dichotomie « scène et dialogue frontaux » / « ambiance et effets latéraux » (convient notamment au cinéma) 30 ° 110°

Stereo multicanal: le surround standard
Micros coïncidents  Pan-pot d’amplitude Micros non-coïncidents Encodage spatial Double MS (Schoeps) Micro ambisonic (SoundField) Cardios coïncidents  Pan-pot DI + DT (+matriçage) B-Format : 3 canaux W, X, Y Format de transmission: 5 canaux L, C, R, SL, SR Traditionnellement, comment s’y prend on (pour recréer une expérience auditive proche du naturel, ie l’illusion sonore)? Qq définitions: encodage spatial (prise de son ou pan-pot) = « comment les sons portés par les fronts d’onde et le champ réverbéré se retrouvent dans les signaux transmis, en fonction de leur incidence, etc. »; … Héritage des techniques stéréophoniques pour 2 canaux (2 HP). Prise de son naturelle et pan-pot (production studio). Eventail des microphones classiquement employés (omni; cardio; bi  noter: combinaisons) Deux approches: stéréophonie d’intensité (=micros coïncidents=pan-pot d’amplitude) versus DeltaI+DeltaT (micros non-coïncidents) Tableau comparatif en fonction de différents critères : images sonores localisées (stabilité, prédictibilité), enveloppement et largeur apparente de scène sonore (effet macroscopique du champ)  suivant stéréo 2 canaux ou bien multicanal ((coloration?)) Version multi-canal: séparation latérale (pb: cardioomni en BF) => enveloppement (lié aux réflexions latérales) seulement (?) si décorrélation grâce à la non-coïncidence. 30 ° 110° Déc. ambisonic (matriçage) L’écart entre deux micros d’une paire (L et R, et SL et SR) rend l’effet des réflexions latérales par déphasages et décorrélation meilleur enveloppement, en dépit des directivités limitées en BF En pratique: faible directivité des cardios en BF,  séparation latérale limitée  effet d’enveloppement réduit

Bilan provisoire (approche traditionnelle de la production multicanal)
Contrainte de la configuration des HP (standard: 3 front + 2 rear) Limitation de la directivité des microphones classiquement employés Une approche empirique du design des sytèmes microphoniques (pour suppléer aux limitations des micros utilisés « tels quels »): Il s’agit de « bluffer » l’auditeur (l’art de l’ingénieur du son), même si ce n’est pas acoustiquement réaliste En général (en tous cas pour la stratégie « micros non-coïncidents ») : 1 microphone pour 1 HP et (quasiment) pas de traitement (i.e. combinaison des signaux captés)  il manque un décodage approprié à cet encodage spatial Deux visions distinctes (voire opposées, dans les esprits): coïncidence versus non-coïncidence des micros Les approches holophoniques WFS et HOA … s’attachent au respect d’une réalité physique du champ sonore proposent des outils avancés de prise de son et d’encodage spatial suggèrent de nouveaux formats de représentation 3D multicanal, plus flexibles Contrainte de la configuration des HP (standard: 3 front + 2 rear) Limitation de la directivité des microphones classiquement employés. Une approche empirique du design des sytèmes microphoniques (pour suppléer aux limitations d’une approche relativement rationnelle): Il s’agit de bluffer l’auditeur (l’art de l’ingénieur du son), même si ce n’est pas acoustiquement réaliste En général, 1 microphone pour 1 HP (en tous cas pour stratégie « non-coïncidente ») et (quasiment) pas de traitement (combinaison des signaux captés), donc encodage spatial = ce qui est capté par les microphones Deux visions distinctes (voire opposées, dans les esprits): coïncidence versus non-coïncidence des micros Et si on regardait une approche plus rationnelle de l’encodage et de la reproduction du champ sonore spatial? Et si on avait de nouveaux outils ( de prise de son)? …

Systèmes holophoniques WFS et HOA… vus de loin
Stratégies visant la reconstruction physique du champ (holophonie) Basées sur des descriptions différentes de la réalité du champ sonore Micros non-coïncidents: réseau identique au réseau de HP Micros coïncidents: omni, bidirectifs, quadripôles, etc. (« harmoniques sphériques ») Encodage spatial Format de transmission: N canaux (1 par mic et par HP) B-Format étendu: K canaux ambisonic (indép. HP) Aperçu en gros des 2 approches, pour des conditions identiques de restitution sonore (config circulaire 2D: certes + riche que la config surround standard!!!). 2 stratégies visant la reconstruction physique du champ sonore, mais (originellement) différentes car partant de la description de réalités (en apparence) différentes du champ sonore: WFS: réseau de micros identique au réseau de HP: description du champ sur (l’enveloppe) la bordure de la zone de restitution pour le reconstruire à l’intérieur…  cas particulier de l’approche « microphones non-coïncidents » HOA: microphones (virtuellement) coïncidents, au centre du dispositif, composantes directionnelles du champ sonore, champ reconstruit (par extrapolation) sur un voisinage (+ ou -) étendu, à l’intérieur du réseau de HP. Là où s’arrête l’analogie avec la stéréo (multicanal): réseau mic de même dimension que réseau HP; micros coïncidents « d’ordres supérieurs » (« à résolution spatiale supérieure ») Plan du reste de l’exposé… Déc. ambisonic (matriçage) Rendu spatial Le champ est reconstruit par « extrapolation » autour du centre Le champ est reconstruit par « interpolation » à l’intérieur

Holophonie équivalent acoustique de l’holographie
Cf. «Acoustique théorique, propagation et holophonie» M. Jessel consiste à reproduire un champ sonore à partir d’un enregistrement sur une surface (surface fermée ou plane) qualitativement: Principe de Huygens quantitativement: Résolution d’un problème aux limites

Holophonie: approche intuitive
Principe de Huygens front d’onde = distribution de sources secondaires applications: reproduire / annuler un champ acoustique ondelettes

Holophonie : approche théorique
Problème aux limites Champ créé par des sources dans 1 Champ capté sur la limite d Champ à reconstruire dans 2 Solution: Intégrale de Kirchhoff-Helmholtz microphone à gradient de pression microphone de pression monopôle dipôle

Application de l’holophonie: la WFS (Wave Field Synthesis)
Application à la reproduction 3D d’un champ sonore Les artefacts qui résultent des approximations: [Restriction 2D (horizontale)  approximation de la phase stationnaire] Surtout la discrétisation de la distribution de sources  espacement entre les capteurs => aliasing spatial (illustré + loin) En pratique (WFS), des approximations : Nombre fini de micros et HPs (discrétisation des réseaux) Restriction au plan horizontal (réseaux 2D) Un seul type de transducteur (typiquement : micros cardios et HP monopolaires) Cas particulier illustré dans l’exposé: réseau circulaire

WFS: synthèse artificielle de front d’onde
Simuler la prise de son par le réseau source sonore virtuelle dite « source notionnelle » 1 retard et 1 atténuation par source et par HP correction de la phase stationnaire, car réseaux 2D et non 3D égalisation des haut-parleurs correction de la phase stationnaire source notionelle 1 son mono pour 1 source synthèse de front d’onde artificielle (à partir d’un son mono) = « source notionnelle »  prise de son virtuelle = retards et atténuation suivant la position de la source virtuelle // chaque micro virtuel

Ambisonics « traditionnel » (ordre 1) : encodage et informations spatiales
Description de la propagation du son en un point de « vue » privilégié W: champ de pression X, Y, Z: gradient de pression  vélocité acoustique Rapport (X, Y, Z) / W : vecteur décrivant la direction et vitesse apparente de propagation Information directionnelle contenue dans le rapport d’amplitude entre les composantes Description indépendante d’un quelconque dispositif de restitution Flexibilité Transformation du champ (rotation, focus) par matriçage des composantes ((Commençons doucement)) Décrire la propagation du son (au voisinage /) en un point de « vue » privilégié (qui sera le centre du dispositif de restitution): le son lui-même (champ de pression W), le gradient de pression (X, Y, Z), lié à la vélocité acoustique. (=> microphones aux directivités connues, placés de façon coïncidente). Equations d’encodage… Grâce à ces 4 premières composantes spatiales (format ambisonique d’ordre 1, dit « B-format »), on obtient une caractérisation minimale de la propagation (rapport [XYZ]/W: vecteur vélocité = direction et vitesse apparente de propagation. Si on s’intéresse à une reproduction 2D, on laisse tomber Z (3 composantes). Description indépendante d’un dispositif de restitution: suivant l’arrangement spatial des HPs, on applique un décodage (typiquement un matriçage des signaux) pour obtenir les signaux des HP qui permettront la reconstruction du champ au voisinage de l’auditeur (ex. d’un front d’onde) L’ajout de HPs n’améliore pas la résolution spatiale (à la rigueur, la stabilité) si l’on s’en tient aux seules composantes spatiales d’ordre 1. Noter: encodage + décodage  prise de son équivalente avec des micros infra-cardioides (recombinaison des ); décodage

Ambisonics « traditionnel » (ordre 1) : décodage et restitution
Matrice de décodage D Signaux Ambisoniques B Signaux des haut-parleurs S = D.B Champ reconstruit par le réseau de haut-parleurs B  B ~ Décodage ( matriçage)  recomposer le champ acoustique Recombinaison des harmoniques sphériques (omni+bidirectifs)  prise de son équivalente avec des micros (infra-)cardioïdes Zone de reconstruction assez large en TBF, réduite en HF Décodages modifiés pour les HF ou pour positions d’écoute excentrées ordre 1 :

Ambisonics à résolution spatiale élevée (Higher Order Ambisonics : HOA)
En exploitant les directivités d’ordres supérieurs… Le décodage associé à l’encodage équivaut à une prise de son utilisant des micros très directifs Meilleure utilisation des HPs = meilleure sélectivité angulaire (s’ils sont rapprochés les uns des autres) Reconstruction quand l’ordre croît Sur une zone + large (pour une fréquence donnée) Jusqu’à une fréquence + élevée (pour une position ou une zone donnée) Gradient=dérivées spatiales d’ordre 1… si on va + loin (dérivées d’ordres supérieurs), on va approximer le champ sur un voisinage + large. Autre façon: ordre 1=résolution spatiale limitée; composantes d’ordres sup (harmoniques sphériques)  scrutent le champ sonore avec une fréquence angulaire + élevée (note: microphones « virtuels », cf + loin pour voir comment on fait en pratique…) Encodage+décodage  microphones équivalents avec des lobes + directifs! Illustration: reconstruction en fonction de l’ordre… Source virtuelle: encodage spatial = directionnel (gains) + distance=courbure du front d’onde (filtres) Onde plane monochromatique f=600Hz ordre 1 : ordre 2: ordre 5 : ordre 10 :

Higher Order Ambisonics : schéma d’encodage spatial de sources virtuelles
Distance Coding Directional Input parameters Outputs (NFC HOA) Signal Positional Encoding Encodage directionnel : Contrôle de la distance (courbure du front d’onde) [Daniel, AES23, 2003]

WFS et HOA: comparaison (source virtuelle)
HOA (ordre 15) WFS (32 HP) HOA (ordre 15) WFS (32 HP) Onde plane (source lointaine, extérieure au réseau) WFS=HOA en BF WFS: aliasing spatial en HF (« nid d’abeille ») HOA: la zone de reconstruction se rétrécit (HF), mais l’information spatiale reste consistante Source proche, « intérieure » Reconstruction complète impossible HOA: disque excluant la source WFS: retournement temporel Des approches qui peuvent se compléter et bénéficier l’une de l’autre. Cf [Daniel et al, AES114, 2003] Aliasing spatial pour WFS; pas pour HOA Cas de sources virtuelles à l’intérieur du réseau de HP… (commenter ou pas???)

WFS et HOA: tests d’écoute comparative
Evaluation subjective et comparaison de WFS et HOA Localisation de source sonore virtuelle Rendu de sources en mouvement Taille de la zone d’écoute: multi-auditeurs et auditeur mobile Evaluation de l’immersion Démonstrateur pour tests Réseau circulaire de 48 HPs (Labo de France Telecom R&D) Elaboration des tests entamée dans le cadre du projet CARROUSO

Prise de son ambisonic d’ordre élevé
W = LF + LB + RF + RB X = LF - LB + RF - RB Y = LF + LB - RF - RB Z = LF - LB - RF - RB Ordre 1: (micro SoundField) recomposition d’1 omni et 3 bidir. … à partir de 4 cardios Ordres supérieurs + grand nombre de capsules (non-coïncidentes) réparties sur une sphère (3D)  échantillonnage spatial des composantes harmoniques sphériques Matriçage (encodage directionnel) + égalisation (selon directivité et distance des capteurs Compromis: entre BF (élargir le réseau) et HF (diminuer l’espace entre capteurs) Cas particulier (2D) réseau circulaire: similaire au WFS microphones non-coïncidents ! Matrice N x K N signaux captés K signaux ambisoniques Estimation de dérivées spatiales, c’est-à-dire les variations locales du champ: d’après les différences du champ, capté en différents points. On [préfère][considère], pour des raisons de simplification du traitement, un réseau concentrique de micros (circulaire ici, puisqu’on est en 2D). N signaux captés

WFS et HOA : comparaison en condition de prise de son réelle
WFS : viser une zone d’écoute pas aussi large que le réseau de HP HOA : aller cherche l’information du champ acoustique sur une zone + large Chacun dispose de procédés d’interpolation ou d’extrapolation du champ On réalise un compromis avec des dimensions intermédiaires pour le réseau microphoniques On montre que dans des conditions de prise de son identiques, les 2 stratégies sont soumises à des qualités et artefacts (aliasing spatial) de reconstruction semblables D’autres variantes techniques des prise de son offrent des solutions satisfaisantes pour les deux approches + d’info spatiale BF Réduction de l’aliasing spatial Simplification : restriction au plan horizontal, réseau horizontal de microphones. Apparition de l’aliasing spatial, même pour ambisonics Schéma original pour le WFS Schéma intermédiaire Schéma original pour le HOA

Retour au multicanal (1/2)
Micros coïncidents versus non-coïncidents Un faux clivage !? (lien entre WFS et HOA) La prise de son directive nécessite une capture du champ en des points distincts, voire distants ! (d’où: micros cardio  omni en BF) Lois de pan-pot et systèmes de prise de son pour le 5.1 On peut définir des lois de pan-pot optimales pour le 5.1, qui s’expriment en termes d’harmoniques sphériques (Craven 2003) Des systèmes microphones inspirés du HOA ou du WFS peuvent être exploités pour une prise de son quasi-optimale Finesse de directivité (largeur de lobe) en fonction de l’écart entre les haut-parleurs (From Craven, 2003) 30 ° 110°

Retour au multicanal (2/2)
Des nouveaux formats de représentation sonore 3D Flexibilité du format (High Order) Ambisonics: Décodage et reproduction sur une grande variété de dispositifs Possibilité de transformation du champ sonore (rotation, focus) Scalabilité spatiale: laisser tomber certains canaux (selon contraintes de transmission ou limitation de la restitution) Possibilité d’assurer une compatibilité avec les formats « discrete multi-channel » (5.1) Pré-décodage (matriçage) pour 5.1 et possibilité de back-matrixing vers (WXY…) L C R SL SR Z U V 5 channels computed from W, X et Y ambisonic comp. Add. vertical amb. component Y X W sound field transformation Spatial decoding Binaural / Transaural Surround (5.1) 3D/2D HP Config. 8 conveyed channels 6 ambisonic components 5 channels computed from W, X et Y ambisonic components Add. vertical amb. Component Ignored By-passed (no spatialization added) (Optional) BackwardMatrix

Conclusion : outils récents et émergeants
Encodage spatial « haute résolution » (sources virtuelles) Pan-pot améliorés (en direction et en distance) ... pour la spatialisation dans la composition de scènes 3D interactives (réalité virtuelle, jeux…) plugins (FTR&D) pour Virtools … pour la production musicale, artistique développement (en cours) de plugins VST (FT R&D, Univ. York) Systèmes microphoniques à « haute-résolution spatiale » Microphones 2D en expérimentation (ex. Univ. Delft) Microphones 3D (ex. France Telecom R&D, Trinnov Audio, MH-Acoustics) Microphones dédiés au 5.1 (ex. Trinnov Audio): synthèse de directivités fines De nouveaux formats + flexibles : High Order Ambisonic ou dérivés Format ambisonic avec matriçage partiel (optionnel) des composantes pour compatibilité avec multicanal standard (5.1 ou autre) Scalabilité spatiale Adaptabilité à une multitude de dispositifs de restitution Extension des formats de fichiers multicanal (investigations // WAVE_EX) En cours de discussion pour une future version du standard MPEG-4

Jérôme Daniel et Rozenn Nicol francetelecom_. __com

Présentations similaires

Présentation au sujet: "Jérôme Daniel et Rozenn Nicol francetelecom_. __com"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Jérôme Daniel et Rozenn Nicol francetelecom_. __com

Présentations similaires

Présentation au sujet: "Jérôme Daniel et Rozenn Nicol francetelecom_. __com"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back