Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

Apprentissage spectral
Indexation Parole / Musique / Bruit
Une approche informationnelle de la restauration d’images
RECONNAISSANCE DE FORMES
Recent Advances in the Automatic Recognition of Audiovisual Speech
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Reconnaissance Automatique de la Parole
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Les TESTS STATISTIQUES
Application de réseaux bayésiens à la détection de fumées polluantes
INTRODUCTION 1. Une représentation du signal où le bruit est isolé
Les TESTS STATISTIQUES
Colloque GRETSI, Paris, 8-11 septembre 2003 Sur la Décomposition Modale Empirique P. Flandrin (Cnrs - Éns Lyon) et P. Gonçalvès (Inrialpes)
Les tests d’hypothèses
Maria-João Rendas CNRS – I3S Novembre 2006
Fusion de données SENSO
SON COMPLEXE - SPECTRE Le son pur est un modèle mathématique (sinusoïde…) Un son complexe peut être décomposé en une sommes de sinusoïdes (Théorème de.
Directeur de thèse : Régine André-Obrecht
Analyse et diagnostic Développement d’Outils
Reconnaissance de la parole
Le modèle de Bayes Christelle Scharff IFI La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.
Le filtrage au cours des âges Du filtre de Kalman au filtrage particulaire André Monin.
Zone de rejet et scoring
RECONNAISSANCE DE FORMES
Décodage des informations
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Méthode des k plus proches voisins
Champs de Markov cachés pour la classification de gènes..
DEA Perception et Traitement de l’Information
Le cahier de charge d'un système de RAP
DEA Perception et Traitement de l’Information
Reconnaissance Vocale
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Filtrage de Kalman et aperçu probabiliste
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Classification automatique de textes
Introduction à la reconnaissance:
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Mise-à-jour de données de haute incertitude spatiale Présentation dans le cadre du groupe de discussion sur la fusion de données géospatiales – 22 nov.
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Classification : objectifs
Reconnaissance automatique de la parole
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Analyse spectrale Raphaël ARROUAS Etienne OUSS
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
TNS et Analyse Spectrale
La prosodie pour l’Identification Automatique des Langues
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Présenté par Mathieu Almeida, Amine Ghozlane
Méthode des moindres carrés (1)
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
Dans l’axe Systèmes Sociotechniques Ambiants
M.D., PNC, paramètres cosmo 18/01/ Paramètres cosmologiques par Combinaisons Marian Douspis (IAS), Alain Blanchard (LATT) Nabila Aghanim (IAS), Jim.
I Qu’est ce que le son? Éléments de M.A.O. – support de cours
Validation d’une méthode d’analyse
ECHANTILLONAGE ET ESTIMATION
Introduction aux statistiques Intervalles de confiance
1 Reconstruction des événements Top enregistrés avec le détecteur ATLAS Apport des techniques multi-variables Diane CINCA Stage de Master 2 ème année.
Prédiction du niveau de certification des établissements de santé Soutenance de stage 12 septembre 2012 Benjamin Robillard.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Transcription de la présentation:

Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Plan  Cadre de l’étude  Définitions  Le système  Réalisations et expériences  Conclusion et perspectives

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Cadre de l’étude : indexation sonore  Accroissement du volume des données numériques  Méthodes actuelles d’indexation : manuelles  Réduire le temps de recherche de l’utilisateur (JT)  Bande sonore souvent très complexe  Discrimination entre parole et musique

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Cadre de l’étude : pourquoi la détection PMB ? Locuteur 1 (homme)Locuteur 2 (femme)silencemusiqueparole françaisAnglais jingle 1 leçonlesson

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions  Parole Formants

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions  Musique Harmoniques

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : paramétrisation  Paramètres temporels  ZCR et énergie  Paramètres fréquentiels (DSP)  centroïde spectral, flux spectral et spectral rollof point  Paramètres mixtes  modulation de l’énergie à 4hz, fréquence fondamentale, harmonicité, timbre…  Paramètres issus de modélisation  MFCC [Saunders 96], [Scheirer 97], [Zhang 98] et [Foote 97]

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : modélisation  Stratégies bayésiennes  lois paramétriques de type loi gaussienne  mélanges de lois gaussiennes (MMG)  lois non paramétriques : k plus proches voisins  Modèles de Markov cachés (MMC)  Histogramme  Arbres de décision (hiérarchiques)  …

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : fusion d’informations Théorie des probabilités  Connaissances a priori nécessaires  Mise à jour des informations à l’aide du théorème de Bayes  Attention : ignorance pas prise en compte  Pour chaque classifieur : indices de confiance [Leray00]  Expert α : taux de confiance en son propos  Classe β : expérience du modèle expert  Observation γ : croyance en l’observation courante  Décision sur l’ensemble des experts par celui qui a le meilleur indice de confiance global

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : fusion d’informations Théorie de l’évidence  Θ = {H 1, H 2, …,H n } hypothèses  classes  Information portée sur les hypothèses singletons mais aussi sur les disjonctions de celles-ci [Janez96]  Ex : H 1, H 2  H 3, …  Opinion sur le système = degrés de croyance : m Θ  Mesures de croyance :  La cr é dibilit é (Cr) : Cr Θ (A) =  m Θ (B) B  A  La plausibilit é (Pl) : Pl Θ (A) =  m Θ (B) B  A  Ø

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : théorie de l’évidence S1S1 S2S2 S 12 S3S3 SnSn où  est la combinaison de Dempster-Shafer :  Décision : Max [Pl (H i )] ou Max [Cr (H i )] i i  Fusion :

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système Signal Détection de parole Détection de musique Modulation de l’entropie Modulation de l’énergie à 4 Hz Nombre de segments Durée des segments Classification Parole / NonParole Classification Musique / NonMusique Fusion

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation  Modulation de l’énergie à 4 Hz  Fenêtrage (16ms)  40 coefficients spectraux (Mel)  Filtrage (RIF passe-bande 4hz)  Somme et normalisation  Modulation (variance)  Modulation de l’entropie  Fenêtrage (16ms)  Histogramme (amplitude du signal)  Entropie (estimateur non biaisé)  Modulation (variance)

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation  Exemple : modulation de l’entropie Musique (Mozart) Parole (lue, 6 phrases)

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation  « Divergence Forward-Backward » [André-Obrecht 88]  Nombre de segments  Durée des segments Signal

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : fusion  Distributions  P : MULTEXT  M : Base Perso  Système référence  MAX Seuil : 0,5

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie des probabilités  Pourcentage d’erreurs :  Modulation de l’énergie à 4Hz Pr (Nparole | Parole) = Pr (Nparole > seuil) = 6,4 % Pr (Parole | NParole) = 3,2 %  Modulation de l’entropie  Nombre de segments  Durée des segments  4 paramètres  experts (α)  Modulation de l’énergie à 4 Hz : α 1 = 90.4 %  Modulation de l’entropie : α 2 = 89.4 %  Nombre de segments : α 3 = 84.8 %  Durée des segments : α 4 = 53.8 %

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie des probabilités  Matrice de confusion Classe/NonClasse  β 1P = 79.9 %β 1NP = 85.5 %  β 2P = 79.7 %β 2NP = 88.8 %  …  Décision par expert :  Décision finale : Max (  e * ( 1 - S e * (y)))

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie de l’évidence   = {P, M, PM, B} : 4 classes à discriminer  m e (  ) : masse associée à l’ignorance (erreur) m 1 (  ) = 9,6 %m 2 (  ) = 10,6 % m 3 (  ) = 15,2 %m 4 (  ) = 46,2 %  Jeu de masse pour chaque observation m 1 (y  {P  PM}) = m 1 (P  PM) = Pr (y | Parole) m 1 (M  B) = Pr (y | NonParole)  Utilisation de la loi de combinaison de Dempster-Shafer  Prise de décision avec maximum de plausibilité

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Réalisations et expériences  Corpus RFI  Tests : 20 h P/NP M/NM

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Conclusion et perspectives  Conclusion  Pertinence des paramètres  Robustesse, RT  Amélioration des résultats par la fusion (max)  Validation de notre approche par la théorie des probabilités et la théorie de l’évidence : Détection parole + Détection musique ~  Perspectives  Ajout de nouveaux paramètres (détection musique)  Autres types de combinaison  Ajout de classes : Parole / Voix chantée / Musique

Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril MERCI !