Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht
2 Présentation de thèseLundi 20 décembre 2004 Objectifs Contribution à l’analyse automatique Recherche de composantes primaires Apport d’outils utiles Pour la structuration automatique Contexte : indexation
3 Présentation de thèseLundi 20 décembre 2004 Indexation sonore : que faire ? locuteur 1 (homme)locuteur 2 (femme)silencemusiqueparole françaisanglais jingle 1 leçonlesson
4 Présentation de thèseLundi 20 décembre 2004 Plan Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 2 3
5 Présentation de thèseLundi 20 décembre 2004 Plan Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 23
6 Présentation de thèseLundi 20 décembre 2004 Etat de l’art Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants 1 23
7 Présentation de thèseLundi 20 décembre 2004 Etat de l’art Musique Instrumentale traditionnelle Structure harmonique Harmoniques 1 23
8 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : paramétrisation Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98] Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99] Classification Approche statistique : méthodes paramétriques méthodes non paramétriques Réseaux de neurones SVM 1 23
9 Présentation de thèseLundi 20 décembre 2004 Spectral rolloff point ZCR Énergie Signal Etat de l’art : paramétrisation Flux spectral ParoleMusique 1 23
10 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : classification Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC Classification Approche statistique : méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] méthodes non paramétriques [Foote97] et [Rossignol2000] Réseaux de neurones [Rossignol2000] SVM [Chapelle2002] 1 23
11 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : quelques systèmes Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98] < 10% d’erreurs Identification 1 23
12 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Signal Classification Modèles Apprentissage Analyse cepstrale Signal Classification Parole NonParole Analyse spectrale Musique NonMusique 1 23 Modélisation différenciée
13 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Pré-traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) Paramètres indicés (NonParole) VQEM VQEM Modèle Parole Affectation Paramètres indicés (Musique) Paramètres indicés (NonMusique) VQEM VQEM 29 Coeff. Spectraux 128 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique Apprentissage des MMG 1 23
14 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Problème : apprentissage 1 23
15 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Signal Détection de paroleDétection de musique Modulation de l’entropie Modulation de l’énergie à 4 Hz Nombre de segments Durée des segments Classification Parole / NonParole Classification Musique / NonMusique Segmentation 1 23 Fusion (scores)
16 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s) Modulation de l’entropie Fenêtrage (16 ms) Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Modulation (variance sur 1 s) 1 23 Parole Musique
17 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Segmentation (DFB) [André-Obrecht88] Nombre de segments Durée des segments Signal ParoleMusique 1 23
18 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Les seuils Parole : corpus MULTEXT [Campione98] Musique : base personnelle Seuil 1 23 Exemple : Modulation de l’énergie à 4 Hertz
19 Présentation de thèseLundi 20 décembre 2004 Résultats ParamètresScore Coef. Spectraux + MMG79,7 %Coef. Spectraux + MMG (adaptation)87 % Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % Nombre de segments Durée des segments 86,4 % 78,1 % Fusion (max)90,5 %Fusion (max)89 %MFCC + MMG (adaptation)90,9 %MFCC + MMG86,1 % PAROLEPAROLE MUSIQUEMUSIQUE Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 84,8 % 86,9 % max 93,9 % max 89,8 % CORPUS RFI (6 heures) Etiquetage manuel Système de base Système hybride 2 heures d’étiquetage 1 23 Décalage parole : 500 ms Décalage musique : 1 s
20 Présentation de thèseLundi 20 décembre 2004 Plan Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 23
21 Présentation de thèseLundi 20 décembre 2004 Détection de sons clés Jingles (reproduction) → Référence (signature) Applaudissements, rires et locuteur cible Mots clés MMG MMC Modèles 1 23 ApplaudissementsRiresJingle
22 Présentation de thèseLundi 20 décembre 2004 Détection de jingles Extrait sonore Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics » 1 23 Hamming| FFT |Filtrage Signal Coefficients spectraux
23 Présentation de thèseLundi 20 décembre 2004 Détection de jingles Méthode d’analyse des pics 1 23 h
24 Présentation de thèseLundi 20 décembre 2004 Résultats 2 erreurs Précision : ~ 0,5 s Détection de jingles CorpusDuréeJingles Détection manuelle Détection automatique France 315 min144 M615 min116 Canal +30 min166 France Info60 min11211 RFI360 min360 Publicités90 min Total570 min France Info
25 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible Pourquoi ? 1 23
26 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires} Apprentissage du locuteur cible 1 23 Pré traitement acoustique SIGNAL Affectation Paramètres indicés (Classe) Paramètres indicés (Non-classe) VQEM VQEM Étiquetage manuel (Classe/Non-classe) Modèle Non-classe Modèle Classe
27 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission Résultats Locuteur cible = présentateur « Jacques Chancel » : 92,9 % (P/NP manuel) 89,7 % (P/NP auto à 94,6 %) Applaudissements et rires : problème du critère évaluation Taux > 98 % : segments significatifs Applaudissements : excellents Rires : problèmes 1 23
28 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Buts : Notion de thème (cf. texte) Structuration Rapidité d’exécution, robustesse → légèreté de mise en œuvre Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance Système 1 23
29 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Pré-traitement acoustique MFCC Modélisation : MMC Unité : phonème 1 23
30 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant Grammaire 1 23 φ1φ1 φpφp DebFin « b »« a »« l » → pénaliser
31 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Corpus Apprentissage : 30h ESTER (Technolangue) France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB) Mise en œuvre Phonème → victoire : v i k t w a Rv i k t w a i k t w a R silv i k t w a sil Faisabilité : 20 mots clés, 5 thèmes Politique : politique, président, ministre, Europe, gouvernement Économie : technologie, industrie, travail, entreprise Catastrophe : génocide, attentat, victime, sécurité, militaire Sport : championnat, victoire, football Météo : dépression, précipitations, température 1 23
32 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés Résultats Thèmes Nombre de sujets (manuel) Nombre de sujets retrouvés Politique3433 Économie1410 Catastrophe98 Sports1817 Météo66 Total8174 Erreurs Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 % Amélioration (en cours) Passage aux triphones 1 23
33 Présentation de thèseLundi 20 décembre 2004 Plan D é tection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 23
34 Présentation de thèseLundi 20 décembre 2004 Structuration sonore Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur Détections automatiques, indépendantes : Détection de musique (chansons, spectacle) Détection de parole, puis du présentateur Détection des applaudissements Résultats : 1 émission → détection de 10 motifs Besoins ? → autres émissions de la collection 1 23
35 Présentation de thèseLundi 20 décembre 2004 Structuration sonore Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ? 1 23 J
36 Présentation de thèseLundi 20 décembre 2004 Structuration : perspectives Apport de la vidéo Détection de logos Extraction de texte Reconnaissance de l’intervenant 1 23 Chanteur ?
37 Présentation de thèseLundi 20 décembre 2004 Structuration : perspectives Macrosegmentation automatique (exemple du motif) Annotations automatiques Recherche de suites récurrentes [Haidar04] Inférence d’un motif Structuration Important : difficile manuellement 1 23
38 Présentation de thèseLundi 20 décembre 2004 D é tection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Plan 1 23 CONCLUSION
39 Présentation de thèseLundi 20 décembre 2004 Conclusion Indexation sonore : étude de composantes primaires « Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante Thèmes : validation Locuteur cible : résultats encourageants « Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule
40 Présentation de thèseLundi 20 décembre 2004 Perspectives 2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel Information audiovisuelle ou une indexation audiovisuelle ? Analyse audiovisuelle ?
41 Présentation de thèseLundi 20 décembre 2004 Merci de votre attention…