La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.

Présentations similaires


Présentation au sujet: "Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la."— Transcription de la présentation:

1

2 Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht

3 2 Présentation de thèseLundi 20 décembre 2004 Objectifs  Contribution à l’analyse automatique  Recherche de composantes primaires  Apport d’outils utiles  Pour la structuration automatique Contexte : indexation

4 3 Présentation de thèseLundi 20 décembre 2004 Indexation sonore : que faire ? locuteur 1 (homme)locuteur 2 (femme)silencemusiqueparole françaisanglais jingle 1 leçonlesson

5 4 Présentation de thèseLundi 20 décembre 2004 Plan  Détection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration 1 2 3

6 5 Présentation de thèseLundi 20 décembre 2004 Plan  Détection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration 1 23

7 6 Présentation de thèseLundi 20 décembre 2004 Etat de l’art  Parole  Structure formantique [Calliope89]  Formants = Fréquences de résonance du conduit vocal Formants 1 23

8 7 Présentation de thèseLundi 20 décembre 2004 Etat de l’art  Musique  Instrumentale traditionnelle  Structure harmonique Harmoniques 1 23

9 8 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : paramétrisation  Paramétrisation  Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98]  Fréquentielle : DSP [Saunders96] et [Scheirer97]  Mixte [Scheirer97]  MFCC [Gauvain99]  Classification  Approche statistique : méthodes paramétriques méthodes non paramétriques  Réseaux de neurones  SVM 1 23

10 9 Présentation de thèseLundi 20 décembre 2004 Spectral rolloff point ZCR Énergie Signal Etat de l’art : paramétrisation Flux spectral ParoleMusique 1 23

11 10 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : classification  Paramétrisation  Temporelle : ZCR et énergie  Fréquentielle : DSP  Mixte  MFCC  Classification  Approche statistique : méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] méthodes non paramétriques [Foote97] et [Rossignol2000]  Réseaux de neurones [Rossignol2000]  SVM [Chapelle2002] 1 23

12 11 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : quelques systèmes  Détection de musique : système IRCAM  Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre)  Décision : RN, kppv  ≈ 10% d’erreurs  Détection de parole : système LIMSI  Paramétrisation : MFCC (38 coefficients)  Décision : MMG  3 à 8 % d’erreurs  Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98]  < 10% d’erreurs  Identification 1 23

13 12 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Signal Classification Modèles Apprentissage Analyse cepstrale Signal Classification Parole NonParole Analyse spectrale Musique NonMusique 1 23 Modélisation différenciée

14 13 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Pré-traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) Paramètres indicés (NonParole) VQEM VQEM Modèle Parole Affectation Paramètres indicés (Musique) Paramètres indicés (NonMusique) VQEM VQEM 29 Coeff. Spectraux 128 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique  Apprentissage des MMG 1 23

15 14 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Problème : apprentissage 1 23

16 15 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Signal Détection de paroleDétection de musique Modulation de l’entropie Modulation de l’énergie à 4 Hz Nombre de segments Durée des segments Classification Parole / NonParole Classification Musique / NonMusique Segmentation 1 23 Fusion (scores)

17 16 Présentation de thèseLundi 20 décembre 2004 Notre système hybride  Modulation de l’énergie à 4 Hz  Fenêtrage (16 ms)  40 coefficients spectraux (Mel)  Filtrage (RIF passe-bande 4 Hz)  Somme et normalisation  Modulation (variance sur 1 s)  Modulation de l’entropie  Fenêtrage (16 ms)  Histogramme (amplitude du signal)  Entropie (estimateur non biaisé)  Modulation (variance sur 1 s) 1 23 Parole Musique

18 17 Présentation de thèseLundi 20 décembre 2004 Notre système hybride  Segmentation (DFB) [André-Obrecht88]  Nombre de segments  Durée des segments Signal ParoleMusique 1 23

19 18 Présentation de thèseLundi 20 décembre 2004 Notre système hybride  Les seuils  Parole : corpus MULTEXT [Campione98]  Musique : base personnelle Seuil 1 23 Exemple : Modulation de l’énergie à 4 Hertz

20 19 Présentation de thèseLundi 20 décembre 2004 Résultats ParamètresScore Coef. Spectraux + MMG79,7 %Coef. Spectraux + MMG (adaptation)87 % Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % Nombre de segments Durée des segments 86,4 % 78,1 % Fusion (max)90,5 %Fusion (max)89 %MFCC + MMG (adaptation)90,9 %MFCC + MMG86,1 % PAROLEPAROLE MUSIQUEMUSIQUE Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 84,8 % 86,9 % max 93,9 % max 89,8 % CORPUS RFI (6 heures) Etiquetage manuel Système de base Système hybride 2 heures d’étiquetage 1 23 Décalage parole : 500 ms Décalage musique : 1 s

21 20 Présentation de thèseLundi 20 décembre 2004 Plan  Détection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration 1 23

22 21 Présentation de thèseLundi 20 décembre 2004 Détection de sons clés  Jingles (reproduction) → Référence (signature)  Applaudissements, rires et locuteur cible  Mots clés MMG MMC Modèles 1 23 ApplaudissementsRiresJingle

23 22 Présentation de thèseLundi 20 décembre 2004 Détection de jingles  Extrait sonore  Système classique  Analyse spectrale (29 coefficients)  Comparaison (distance Euclidienne)  Analyse des « pics » 1 23 Hamming| FFT |Filtrage Signal Coefficients spectraux

24 23 Présentation de thèseLundi 20 décembre 2004 Détection de jingles  Méthode d’analyse des pics 1 23 h

25 24 Présentation de thèseLundi 20 décembre 2004  Résultats  2 erreurs  Précision : ~ 0,5 s Détection de jingles CorpusDuréeJingles Détection manuelle Détection automatique France 315 min144 M615 min116 Canal +30 min166 France Info60 min11211 RFI360 min360 Publicités90 min253433 Total570 min32132130 1 23 France Info

26 25 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible  Pourquoi ? 1 23

27 26 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible  Apprentissage des applaudissements et des rires  Classe={Applaudissements,Rires}  Apprentissage du locuteur cible 1 23 Pré traitement acoustique SIGNAL Affectation Paramètres indicés (Classe) Paramètres indicés (Non-classe) VQEM VQEM Étiquetage manuel (Classe/Non-classe) Modèle Non-classe Modèle Classe

28 27 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible  Corpus : « Le Grand Échiquier », projet FERIA  Apprentissage : 1 émission  Reconnaissance : 1 émission  Résultats  Locuteur cible = présentateur « Jacques Chancel » : 92,9 % (P/NP manuel) 89,7 % (P/NP auto à 94,6 %)  Applaudissements et rires : problème du critère évaluation Taux > 98 % : segments significatifs Applaudissements : excellents Rires : problèmes 1 23

29 28 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Buts :  Notion de thème (cf. texte)  Structuration Rapidité d’exécution, robustesse → légèreté de mise en œuvre  Etat de l’art  Modèle poubelle  Anti-modèles  Mesures de confiance  Système 1 23

30 29 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Pré-traitement acoustique  MFCC  Modélisation : MMC  Unité : phonème 1 23

31 30 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Modèles : mots clés, poubelle et silence  Poubelle : φ  Mot clé : concaténation des modèles de φ → intéressant  Grammaire 1 23 φ1φ1 φpφp DebFin « b »« a »« l » → pénaliser

32 31 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Corpus  Apprentissage : 30h ESTER (Technolangue) France Inter (20h) et RFI (10h)  Reconnaissance : RFI (6 h, cf. PMB)  Mise en œuvre  Phonème → victoire : v i k t w a Rv i k t w a R @v i k t w a R silv i k t w a R @ sil  Faisabilité : 20 mots clés, 5 thèmes Politique : politique, président, ministre, Europe, gouvernement Économie : technologie, industrie, travail, entreprise Catastrophe : génocide, attentat, victime, sécurité, militaire Sport : championnat, victoire, football Météo : dépression, précipitations, température 1 23

33 32 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Résultats Thèmes Nombre de sujets (manuel) Nombre de sujets retrouvés Politique3433 Économie1410 Catastrophe98 Sports1817 Météo66 Total8174  Erreurs  Système  12 MFCC, Δ, ΔΔ, ΔE  MMC, 32G / état  Accuracy : 56,62 %  Amélioration (en cours)  Passage aux triphones 1 23

34 33 Présentation de thèseLundi 20 décembre 2004 Plan  D é tection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration 1 23

35 34 Présentation de thèseLundi 20 décembre 2004 Structuration sonore  Détection de motif dans une collection d’émissions  « Le grand Échiquier » 54 émissions de 3h  Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur  Détections automatiques, indépendantes : Détection de musique (chansons, spectacle) Détection de parole, puis du présentateur Détection des applaudissements  Résultats : 1 émission → détection de 10 motifs  Besoins ? → autres émissions de la collection 1 23

36 35 Présentation de thèseLundi 20 décembre 2004 Structuration sonore  Structuration d’un journal télévisé (« 6 minutes » de M6)  Détection de jingles (J et JG)  Détections de parole et de musique  Détection de mots clés  1 erreur  Besoins ? 1 23 J

37 36 Présentation de thèseLundi 20 décembre 2004 Structuration : perspectives  Apport de la vidéo  Détection de logos  Extraction de texte  Reconnaissance de l’intervenant 1 23 Chanteur ?

38 37 Présentation de thèseLundi 20 décembre 2004 Structuration : perspectives  Macrosegmentation automatique (exemple du motif)  Annotations automatiques  Recherche de suites récurrentes [Haidar04]  Inférence d’un motif  Structuration Important : difficile manuellement 1 23

39 38 Présentation de thèseLundi 20 décembre 2004  D é tection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration Plan 1 23 CONCLUSION

40 39 Présentation de thèseLundi 20 décembre 2004 Conclusion  Indexation sonore : étude de composantes primaires  « Unités communes »  Parole et musique : → robustesse (plus d’apprentissage)  Mots clés : faisabilité → mise en œuvre intéressante Thèmes : validation  Locuteur cible : résultats encourageants  « Unités caractéristiques »  Jingles : résultats excellents → 1 occurrence  Applaudissements : résultats très bons → universel  Rires : problèmes → rires de foule

41 40 Présentation de thèseLundi 20 décembre 2004 Perspectives  2 études de structuration sonore → très intéressantes  Structuration d’un JT  Détection d’un motif  Ne pas se limiter à un seul média  Quelques pistes (analyse vidéo)  Difficulté du couplage audio/vidéo  Problèmes du traitement audiovisuel Information audiovisuelle ou une indexation audiovisuelle ? Analyse audiovisuelle ?

42 41 Présentation de thèseLundi 20 décembre 2004  Merci de votre attention…


Télécharger ppt "Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la."

Présentations similaires


Annonces Google