La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.

Présentations similaires


Présentation au sujet: "Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA."— Transcription de la présentation:

1 Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA

2 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Plan  Cadre de l’étude  Définitions  Le système  Réalisations et expériences  Conclusion et perspectives

3 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Cadre de l’étude : indexation sonore  Accroissement du volume des données numériques  Méthodes actuelles d’indexation : manuelles  Réduire le temps de recherche de l’utilisateur (JT)  Bande sonore souvent très complexe  Discrimination entre parole et musique

4 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Cadre de l’étude : pourquoi la détection PMB ? Locuteur 1 (homme)Locuteur 2 (femme)silencemusiqueparole françaisAnglais jingle 1 leçonlesson

5 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions  Parole Formants

6 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions  Musique Harmoniques

7 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : paramétrisation  Paramètres temporels  ZCR et énergie  Paramètres fréquentiels (DSP)  centroïde spectral, flux spectral et spectral rollof point  Paramètres mixtes  modulation de l’énergie à 4hz, fréquence fondamentale, harmonicité, timbre…  Paramètres issus de modélisation  MFCC [Saunders 96], [Scheirer 97], [Zhang 98] et [Foote 97]

8 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : modélisation  Stratégies bayésiennes  lois paramétriques de type loi gaussienne  mélanges de lois gaussiennes (MMG)  lois non paramétriques : k plus proches voisins  Modèles de Markov cachés (MMC)  Histogramme  Arbres de décision (hiérarchiques)  …

9 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : fusion d’informations Théorie des probabilités  Connaissances a priori nécessaires  Mise à jour des informations à l’aide du théorème de Bayes  Attention : ignorance pas prise en compte  Pour chaque classifieur : indices de confiance [Leray00]  Expert α : taux de confiance en son propos  Classe β : expérience du modèle expert  Observation γ : croyance en l’observation courante  Décision sur l’ensemble des experts par celui qui a le meilleur indice de confiance global

10 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : fusion d’informations Théorie de l’évidence  Θ = {H 1, H 2, …,H n } hypothèses  classes  Information portée sur les hypothèses singletons mais aussi sur les disjonctions de celles-ci [Janez96]  Ex : H 1, H 2  H 3, …  Opinion sur le système = degrés de croyance : m Θ  Mesures de croyance :  La cr é dibilit é (Cr) : Cr Θ (A) =  m Θ (B) B  A  La plausibilit é (Pl) : Pl Θ (A) =  m Θ (B) B  A  Ø

11 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Définitions : théorie de l’évidence S1S1 S2S2 S 12 S3S3 SnSn où  est la combinaison de Dempster-Shafer :  Décision : Max [Pl (H i )] ou Max [Cr (H i )] i i  Fusion :

12 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système Signal Détection de parole Détection de musique Modulation de l’entropie Modulation de l’énergie à 4 Hz Nombre de segments Durée des segments Classification Parole / NonParole Classification Musique / NonMusique Fusion

13 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation  Modulation de l’énergie à 4 Hz  Fenêtrage (16ms)  40 coefficients spectraux (Mel)  Filtrage (RIF passe-bande 4hz)  Somme et normalisation  Modulation (variance)  Modulation de l’entropie  Fenêtrage (16ms)  Histogramme (amplitude du signal)  Entropie (estimateur non biaisé)  Modulation (variance)

14 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation  Exemple : modulation de l’entropie Musique (Mozart) Parole (lue, 6 phrases)

15 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : paramétrisation  « Divergence Forward-Backward » [André-Obrecht 88]  Nombre de segments  Durée des segments Signal

16 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Le système : fusion  Distributions  P : MULTEXT  M : Base Perso  Système référence  MAX Seuil : 0,5

17 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie des probabilités  Pourcentage d’erreurs :  Modulation de l’énergie à 4Hz Pr (Nparole | Parole) = Pr (Nparole > seuil) = 6,4 % Pr (Parole | NParole) = 3,2 %  Modulation de l’entropie  Nombre de segments  Durée des segments  4 paramètres  experts (α)  Modulation de l’énergie à 4 Hz : α 1 = 90.4 %  Modulation de l’entropie : α 2 = 89.4 %  Nombre de segments : α 3 = 84.8 %  Durée des segments : α 4 = 53.8 %

18 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie des probabilités  Matrice de confusion Classe/NonClasse  β 1P = 79.9 %β 1NP = 85.5 %  β 2P = 79.7 %β 2NP = 88.8 %  …  Décision par expert :  Décision finale : Max (  e * ( 1 - S e * (y)))

19 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Fusion de données : théorie de l’évidence   = {P, M, PM, B} : 4 classes à discriminer  m e (  ) : masse associée à l’ignorance (erreur) m 1 (  ) = 9,6 %m 2 (  ) = 10,6 % m 3 (  ) = 15,2 %m 4 (  ) = 46,2 %  Jeu de masse pour chaque observation m 1 (y  {P  PM}) = m 1 (P  PM) = Pr (y | Parole) m 1 (M  B) = Pr (y | NonParole)  Utilisation de la loi de combinaison de Dempster-Shafer  Prise de décision avec maximum de plausibilité

20 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Réalisations et expériences  Corpus RFI  Tests : 20 h P/NP M/NM

21 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril Conclusion et perspectives  Conclusion  Pertinence des paramètres  Robustesse, RT  Amélioration des résultats par la fusion (max)  Validation de notre approche par la théorie des probabilités et la théorie de l’évidence : Détection parole + Détection musique ~  Perspectives  Ajout de nouveaux paramètres (détection musique)  Autres types de combinaison  Ajout de classes : Parole / Voix chantée / Musique

22 Fusion de paramètres en classification Parole/MusiqueJEP 2004 – FÈS Jeudi 22 avril MERCI !


Télécharger ppt "Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA."

Présentations similaires


Annonces Google