Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Plan Cadre de l’étude Définitions Le système Réalisations et expériences Conclusion et perspectives
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Cadre de l’étude : indexation sonore Accroissement du volume des données numériques Méthodes actuelles d’indexation : manuelles Réduire le temps de recherche de l’utilisateur (JT) Bande sonore souvent très complexe Discrimination entre parole et musique
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Cadre de l’étude : pourquoi la détection PMB ? Locuteur 1 (homme)Locuteur 2 (femme)silencemusiqueparole françaisAnglais jingle 1 leçonlesson
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions Parole Formants
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions Musique Harmoniques
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : paramétrisation Paramètres temporels ZCR et énergie Paramètres fréquentiels (DSP) centroïde spectral, flux spectral et spectral rollof point Paramètres mixtes modulation de l’énergie à 4hz, fréquence fondamentale, harmonicité, timbre… Paramètres issus de modélisation MFCC [Saunders 96], [Scheirer 97], [Zhang 98] et [Foote 97]
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : modélisation Stratégies bayésiennes lois paramétriques de type loi gaussienne mélanges de lois gaussiennes (MMG) lois non paramétriques : k plus proches voisins Modèles de Markov cachés (MMC) Histogramme Arbres de décision (hiérarchiques) …
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : fusion d’informations Théorie des probabilités Connaissances a priori nécessaires Mise à jour des informations à l’aide du théorème de Bayes Attention : ignorance pas prise en compte Pour chaque classifieur : indices de confiance [Leray00] Expert α : taux de confiance en son propos Classe β : expérience du modèle expert Observation γ : croyance en l’observation courante Décision sur l’ensemble des experts par celui qui a le meilleur indice de confiance global
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : fusion d’informations Théorie de l’évidence Θ = {H 1, H 2, …,H n } hypothèses classes Information portée sur les hypothèses singletons mais aussi sur les disjonctions de celles-ci [Janez96] Ex : H 1, H 2 H 3, … Opinion sur le système = degrés de croyance : m Θ Mesures de croyance : La cr é dibilit é (Cr) : Cr Θ (A) = m Θ (B) B A La plausibilit é (Pl) : Pl Θ (A) = m Θ (B) B A Ø
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : théorie de l’évidence S1S1 S2S2 S 12 S3S3 SnSn où est la combinaison de Dempster-Shafer : Décision : Max [Pl (H i )] ou Max [Cr (H i )] i i Fusion :
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système Signal Détection de parole Détection de musique Modulation de l’entropie Modulation de l’énergie à 4 Hz Nombre de segments Durée des segments Classification Parole / NonParole Classification Musique / NonMusique Fusion
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation Modulation de l’énergie à 4 Hz Fenêtrage (16ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4hz) Somme et normalisation Modulation (variance) Modulation de l’entropie Fenêtrage (16ms) Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Modulation (variance)
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation Exemple : modulation de l’entropie Musique (Mozart) Parole (lue, 6 phrases)
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation « Divergence Forward-Backward » [André-Obrecht 88] Nombre de segments Durée des segments Signal
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : fusion Distributions P : MULTEXT M : Base Perso Système référence MAX Seuil : 0,5
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie des probabilités Pourcentage d’erreurs : Modulation de l’énergie à 4Hz Pr (Nparole | Parole) = Pr (Nparole > seuil) = 6,4 % Pr (Parole | NParole) = 3,2 % Modulation de l’entropie Nombre de segments Durée des segments 4 paramètres experts (α) Modulation de l’énergie à 4 Hz : α 1 = 90.4 % Modulation de l’entropie : α 2 = 89.4 % Nombre de segments : α 3 = 84.8 % Durée des segments : α 4 = 53.8 %
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie des probabilités Matrice de confusion Classe/NonClasse β 1P = 79.9 %β 1NP = 85.5 % β 2P = 79.7 %β 2NP = 88.8 % … Décision par expert : Décision finale : Max ( e * ( 1 - S e * (y)))
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie de l’évidence = {P, M, PM, B} : 4 classes à discriminer m e ( ) : masse associée à l’ignorance (erreur) m 1 ( ) = 9,6 %m 2 ( ) = 10,6 % m 3 ( ) = 15,2 %m 4 ( ) = 46,2 % Jeu de masse pour chaque observation m 1 (y {P PM}) = m 1 (P PM) = Pr (y | Parole) m 1 (M B) = Pr (y | NonParole) Utilisation de la loi de combinaison de Dempster-Shafer Prise de décision avec maximum de plausibilité
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Réalisations et expériences Corpus RFI Tests : 20 h P/NP M/NM
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Conclusion et perspectives Conclusion Pertinence des paramètres Robustesse, RT Amélioration des résultats par la fusion (max) Validation de notre approche par la théorie des probabilités et la théorie de l’évidence : Détection parole + Détection musique ~ Perspectives Ajout de nouveaux paramètres (détection musique) Autres types de combinaison Ajout de classes : Parole / Voix chantée / Musique
Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril MERCI !