La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.

Présentations similaires


Présentation au sujet: "Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la."— Transcription de la présentation:

1

2 Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de lAudio) Julien Pinquier Directeur de recherche : Régine André-Obrecht

3 2 Présentation de thèseLundi 20 décembre 2004 Objectifs Contribution à lanalyse automatique Recherche de composantes primaires Apport doutils utiles Pour la structuration automatique Contexte : indexation

4 3 Présentation de thèseLundi 20 décembre 2004 Indexation sonore : que faire ? locuteur 1 (homme)locuteur 2 (femme)silencemusiqueparole françaisanglais jingle 1 leçonlesson

5 4 Présentation de thèseLundi 20 décembre 2004 Plan Détection PMB Etat de lart Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 2 3

6 5 Présentation de thèseLundi 20 décembre 2004 Plan Détection PMB Etat de lart Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 23

7 6 Présentation de thèseLundi 20 décembre 2004 Etat de lart Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants 1 23

8 7 Présentation de thèseLundi 20 décembre 2004 Etat de lart Musique Instrumentale traditionnelle Structure harmonique Harmoniques 1 23

9 8 Présentation de thèseLundi 20 décembre 2004 Etat de lart : paramétrisation Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98] Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99] Classification Approche statistique : méthodes paramétriques méthodes non paramétriques Réseaux de neurones SVM 1 23

10 9 Présentation de thèseLundi 20 décembre 2004 Spectral rolloff point ZCR Énergie Signal Etat de lart : paramétrisation Flux spectral ParoleMusique 1 23

11 10 Présentation de thèseLundi 20 décembre 2004 Etat de lart : classification Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC Classification Approche statistique : méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] méthodes non paramétriques [Foote97] et [Rossignol2000] Réseaux de neurones [Rossignol2000] SVM [Chapelle2002] 1 23

12 11 Présentation de thèseLundi 20 décembre 2004 Etat de lart : quelques systèmes Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv 10% derreurs Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % derreurs Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98] < 10% derreurs Identification 1 23

13 12 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Signal Classification Modèles Apprentissage Analyse cepstrale Signal Classification Parole NonParole Analyse spectrale Musique NonMusique 1 23 Modélisation différenciée

14 13 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Pré-traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) Paramètres indicés (NonParole) VQEM VQEM Modèle Parole Affectation Paramètres indicés (Musique) Paramètres indicés (NonMusique) VQEM VQEM 29 Coeff. Spectraux 128 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique Apprentissage des MMG 1 23

15 14 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Problème : apprentissage 1 23

16 15 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Signal Détection de paroleDétection de musique Modulation de lentropie Modulation de lénergie à 4 Hz Nombre de segments Durée des segments Classification Parole / NonParole Classification Musique / NonMusique Segmentation 1 23 Fusion (scores)

17 16 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Modulation de lénergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s) Modulation de lentropie Fenêtrage (16 ms) Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Modulation (variance sur 1 s) 1 23 Parole Musique

18 17 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Segmentation (DFB) [André-Obrecht88] Nombre de segments Durée des segments Signal ParoleMusique 1 23

19 18 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Les seuils Parole : corpus MULTEXT [Campione98] Musique : base personnelle Seuil 1 23 Exemple : Modulation de lénergie à 4 Hertz

20 19 Présentation de thèseLundi 20 décembre 2004 Résultats ParamètresScore Coef. Spectraux + MMG79,7 %Coef. Spectraux + MMG (adaptation)87 % Modulation de lénergie à 4 Hertz Modulation de lentropie 87,3 % 87,5 % Nombre de segments Durée des segments 86,4 % 78,1 % Fusion (max)90,5 %Fusion (max)89 %MFCC + MMG (adaptation)90,9 %MFCC + MMG86,1 % PAROLEPAROLE MUSIQUEMUSIQUE Fusion (théorie des probabilités) Fusion (théorie de lévidence) 90,7 % 90,9 % Fusion (théorie des probabilités) Fusion (théorie de lévidence) 84,8 % 86,9 % max 93,9 % max 89,8 % CORPUS RFI (6 heures) Etiquetage manuel Système de base Système hybride 2 heures détiquetage 1 23 Décalage parole : 500 ms Décalage musique : 1 s

21 20 Présentation de thèseLundi 20 décembre 2004 Plan Détection PMB Etat de lart Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 23

22 21 Présentation de thèseLundi 20 décembre 2004 Détection de sons clés Jingles (reproduction) Référence (signature) Applaudissements, rires et locuteur cible Mots clés MMG MMC Modèles 1 23 ApplaudissementsRiresJingle

23 22 Présentation de thèseLundi 20 décembre 2004 Détection de jingles Extrait sonore Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics » 1 23 Hamming| FFT |Filtrage Signal Coefficients spectraux

24 23 Présentation de thèseLundi 20 décembre 2004 Détection de jingles Méthode danalyse des pics 1 23 h

25 24 Présentation de thèseLundi 20 décembre 2004 Résultats 2 erreurs Précision : ~ 0,5 s Détection de jingles CorpusDuréeJingles Détection manuelle Détection automatique France 315 min144 M615 min116 Canal +30 min166 France Info60 min11211 RFI360 min360 Publicités90 min Total570 min France Info

26 25 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et dun locuteur cible Pourquoi ? 1 23

27 26 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et dun locuteur cible Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires} Apprentissage du locuteur cible 1 23 Pré traitement acoustique SIGNAL Affectation Paramètres indicés (Classe) Paramètres indicés (Non-classe) VQEM VQEM Étiquetage manuel (Classe/Non-classe) Modèle Non-classe Modèle Classe

28 27 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et dun locuteur cible Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission Résultats Locuteur cible = présentateur « Jacques Chancel » : 92,9 % (P/NP manuel) 89,7 % (P/NP auto à 94,6 %) Applaudissements et rires : problème du critère évaluation Taux > 98 % : segments significatifs Applaudissements : excellents Rires : problèmes 1 23

29 28 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Buts : Notion de thème (cf. texte) Structuration Rapidité dexécution, robustesse légèreté de mise en œuvre Etat de lart Modèle poubelle Anti-modèles Mesures de confiance Système 1 23

30 29 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Pré-traitement acoustique MFCC Modélisation : MMC Unité : phonème 1 23

31 30 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ intéressant Grammaire 1 23 φ1φ1 φpφp DebFin « b »« a »« l » pénaliser

32 31 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Corpus Apprentissage : 30h ESTER (Technolangue) France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB) Mise en œuvre Phonème victoire : v i k t w a Rv i k t w a i k t w a R silv i k t w a sil Faisabilité : 20 mots clés, 5 thèmes Politique : politique, président, ministre, Europe, gouvernement Économie : technologie, industrie, travail, entreprise Catastrophe : génocide, attentat, victime, sécurité, militaire Sport : championnat, victoire, football Météo : dépression, précipitations, température 1 23

33 32 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Résultats Thèmes Nombre de sujets (manuel) Nombre de sujets retrouvés Politique3433 Économie1410 Catastrophe98 Sports1817 Météo66 Total8174 Erreurs Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 % Amélioration (en cours) Passage aux triphones 1 23

34 33 Présentation de thèseLundi 20 décembre 2004 Plan D é tection PMB Etat de lart Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 23

35 34 Présentation de thèseLundi 20 décembre 2004 Structuration sonore Détection de motif dans une collection démissions « Le grand Échiquier » 54 émissions de 3h Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur Détections automatiques, indépendantes : Détection de musique (chansons, spectacle) Détection de parole, puis du présentateur Détection des applaudissements Résultats : 1 émission détection de 10 motifs Besoins ? autres émissions de la collection 1 23

36 35 Présentation de thèseLundi 20 décembre 2004 Structuration sonore Structuration dun journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ? 1 23 J

37 36 Présentation de thèseLundi 20 décembre 2004 Structuration : perspectives Apport de la vidéo Détection de logos Extraction de texte Reconnaissance de lintervenant 1 23 Chanteur ?

38 37 Présentation de thèseLundi 20 décembre 2004 Structuration : perspectives Macrosegmentation automatique (exemple du motif) Annotations automatiques Recherche de suites récurrentes [Haidar04] Inférence dun motif Structuration Important : difficile manuellement 1 23

39 38 Présentation de thèseLundi 20 décembre 2004 D é tection PMB Etat de lart Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Plan 1 23 CONCLUSION

40 39 Présentation de thèseLundi 20 décembre 2004 Conclusion Indexation sonore : étude de composantes primaires « Unités communes » Parole et musique : robustesse (plus dapprentissage) Mots clés : faisabilité mise en œuvre intéressante Thèmes : validation Locuteur cible : résultats encourageants « Unités caractéristiques » Jingles : résultats excellents 1 occurrence Applaudissements : résultats très bons universel Rires : problèmes rires de foule

41 40 Présentation de thèseLundi 20 décembre 2004 Perspectives 2 études de structuration sonore très intéressantes Structuration dun JT Détection dun motif Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel Information audiovisuelle ou une indexation audiovisuelle ? Analyse audiovisuelle ?

42 41 Présentation de thèseLundi 20 décembre 2004 Merci de votre attention…


Télécharger ppt "Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la."

Présentations similaires


Annonces Google