Chapitre 5 -------- Analyse de scènes auditives Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05
Théorie de la Gestalt Réaction à la psychologie associationniste Le tout est plus que la somme des parties Forme forte / Forme faible Figure et fond Insight "Lois de structuration" régularité, symétrie destin commun ….
Structuration gestaltiste au bas niveau Dans le domaine visuel: proximité et ressemblance
Structuration en flux sonores Albert Bregman, Auditory scene analysis, MIT Press, 1990 Structuration ascendante proximité et ressemblance dans l'espace temps-fréquence ---> Stream (flux) Quand les deux sons sont proches en fréquence ils forment un seul flux perceptif, traduit ici par un changement de rythme (Structuration séquentielle)
Structuration en flux sonores Facteurs de structuration séquentielle Exemples de Steve McAdams (Ircam) - Mélodies mélangées Deux mélodies (sons alternés) forment un même flux perceptif quand elles sont dans le même registre. Elles se distinguent quand les registres s'écartent. - Formation de flux à partir de la similarité spectrale Le même instrument jouant toutes les notes provoque un même flux perceptif. Puis deux instruments différents jouent les notes en alternance et cela produit deux flux différents. - Formation de flux à partir de la similarité d'intensité Deux mélodies mélangées jouées en notes alternées forment un même flux quand elles sont dans le même intervalle d'intensité. Elles se distinguent quand elles sont jouées avec deux intensités différentes
Structuration en flux sonores Facteurs de structuration simultanée Exemples de Steve McAdams (Ircam) - Instants d'apparition (onset times) Plusieurs sons simultanés forment un flux quand ils apparaissent au même instant. Ils sont dissociés quand leurs instants d'apparition diffèrent. - Emergence d'un harmonique fluctuant en fréquence Spectre harmonique fixe; l'harmonique fluctuant se dissocie du fond. - Emergence d'une voyelle dans un accord Permutation de 3 voyelle simultanées [a, o, i] émises sur 3 Fo différents. Une modulation cohérente des harmoniques du [a] provoque la perception du flux correspondant
Structuration en flux sonores Structuration descendante - rôle de l'apprentissage: une suite d'états acoustiques sans ressemblance intrinsèque peut être associée à une même source sonore - rôle de l'attention: en cas de flux simultanés, l'attention peut conduire à privilégier un flux plus que les autres. - Parole: selon Bregman, structuration ascendante au bas niveau, structuration descendante aux niveaux supérieurs, selon des "schémas" appris - effet de cocktail party: plusieurs facteurs mélangés - directivité - timbre - prédiction de la suite d'un discours - le problème est aussi celui de la ségrégation figure-fond et des figures ambiguës (cf Gestalt) : un indice minime (bn ou hn) peut faire basculer la formation de flux. Mélange d'une voix à elle-même (8 masquants) Égal niveau (a+m0) M0 -= 8dB (m4)
Computational Auditory Scene Analysis (CASA) De l'ASA à la CASA Psychoacoustique modélisation informatique La CASA peut-elle résoudre les problèmes rencontrés par la reconnaissance automatique ? Problèmes posés dans une perspective différente: séparation de sources, modélisation perceptive, identification de flux sonores Articles prélevés dans un symposium récent, voir http://www.ebire.org/speechseparation/attendee.html