Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht
Présentation de thèse Lundi 20 décembre 2004 Objectifs Contribution à l’analyse automatique Recherche de composantes primaires Apport d’outils utiles Pour la structuration automatique Contexte : indexation Présentation de thèse Lundi 20 décembre 2004
Indexation sonore : que faire ? silence musique parole jingle 1 leçon lesson locuteur 1 (homme) locuteur 2 (femme) français anglais Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Plan Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 2 3 Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Etat de l’art 1 2 3 Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Etat de l’art 1 2 3 Musique Instrumentale traditionnelle Structure harmonique Harmoniques Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : paramétrisation 1 2 3 Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98] Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99] Classification Approche statistique : méthodes paramétriques méthodes non paramétriques Réseaux de neurones SVM Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : paramétrisation 1 2 3 Parole Musique Signal ZCR Énergie Spectral rolloff point Flux spectral Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : classification 1 2 3 Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC Classification Approche statistique : méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] méthodes non paramétriques [Foote97] et [Rossignol2000] Réseaux de neurones [Rossignol2000] SVM [Chapelle2002] Présentation de thèse Lundi 20 décembre 2004
Etat de l’art : quelques systèmes 1 2 3 Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98] < 10% d’erreurs Identification Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base 1 2 3 Signal Parole NonParole Analyse cepstrale Classification Modélisation différenciée Apprentissage Modèles Signal Musique Analyse spectrale Classification NonMusique Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base 1 2 3 Apprentissage des MMG Pré-traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) (NonParole) VQ EM Modèle Parole (Musique) (NonMusique) 29 Coeff. Spectraux 128 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique Présentation de thèse Lundi 20 décembre 2004
Notre système PMB de base 1 2 3 Problème : apprentissage Présentation de thèse Lundi 20 décembre 2004
Notre système hybride Détection de parole Détection de musique 1 2 3 Signal Détection de parole Détection de musique Segmentation Modulation de l’entropie Nombre de segments Durée des segments Modulation de l’énergie à 4 Hz Fusion (scores) Fusion (scores) Classification Parole / NonParole Classification Musique / NonMusique Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Notre système hybride 1 2 3 Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s) Modulation de l’entropie Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Parole Musique Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Notre système hybride 1 2 3 Segmentation (DFB) [André-Obrecht88] Nombre de segments Durée des segments Signal Parole Musique Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Notre système hybride 1 2 3 Les seuils Parole : corpus MULTEXT [Campione98] Musique : base personnelle Exemple : Modulation de l’énergie à 4 Hertz Seuil Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Résultats 1 2 3 Paramètres Score CORPUS RFI (6 heures) Système de base P A R O L E Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % Système hybride MFCC + MMG 86,1 % Etiquetage manuel max 93,9 % MFCC + MMG (adaptation) 90,9 % Fusion (max) 90,5 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % 2 heures d’étiquetage M U S I Q E Nombre de segments Durée des segments 86,4 % 78,1 % Coef. Spectraux + MMG 79,7 % Décalage parole : 500 ms Décalage musique : 1 s Coef. Spectraux + MMG (adaptation) 87 % max 89,8 % Fusion (max) 89 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 84,8 % 86,9 % Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Détection de sons clés 1 2 3 Jingles (reproduction) → Référence (signature) Applaudissements, rires et locuteur cible Mots clés MMG Modèles MMC Jingle Applaudissements Rires Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Détection de jingles 1 2 3 Extrait sonore Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics » Hamming | FFT | Filtrage Signal Coefficients spectraux Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Détection de jingles 1 2 3 Méthode d’analyse des pics h Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Détection de jingles 1 2 3 Résultats 2 erreurs Précision : ~ 0,5 s Corpus Durée Jingles Détection manuelle automatique France 3 15 min 1 4 M6 16 Canal + 30 min 6 France Info 60 min 12 11 RFI 360 min 3 60 Publicités 90 min 25 34 33 Total 570 min 32 132 130 France Info Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible 1 2 3 Pourquoi ? Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible 1 2 3 Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires} Apprentissage du locuteur cible Pré traitement acoustique SIGNAL Affectation Paramètres indicés (Classe) (Non-classe) VQ EM Étiquetage manuel (Classe/Non-classe) Modèle Non-classe Classe Présentation de thèse Lundi 20 décembre 2004
Détection des applaudissements, des rires et d’un locuteur cible 1 2 3 Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission Résultats Locuteur cible = présentateur « Jacques Chancel » : 92,9 % (P/NP manuel) 89,7 % (P/NP auto à 94,6 %) Applaudissements et rires : problème du critère évaluation Taux > 98 % : segments significatifs Applaudissements : excellents Rires : problèmes Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Détection de mots clés 1 2 3 Buts : Notion de thème (cf. texte) Structuration Rapidité d’exécution, robustesse → légèreté de mise en œuvre Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance Système Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Détection de mots clés 1 2 3 Pré-traitement acoustique MFCC Modélisation : MMC Unité : phonème Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Détection de mots clés 1 2 3 Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant Grammaire → pénaliser « b » « a » « l » φ1 φp Deb Fin Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Détection de mots clés 1 2 3 Corpus Apprentissage : 30h ESTER (Technolangue) France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB) Mise en œuvre Phonème → victoire : v i k t w a R v i k t w a R @ v i k t w a R sil v i k t w a R @ sil Faisabilité : 20 mots clés, 5 thèmes Politique : politique, président, ministre, Europe, gouvernement Économie : technologie, industrie, travail, entreprise Catastrophe : génocide, attentat, victime, sécurité, militaire Sport : championnat, victoire, football Météo : dépression, précipitations, température Présentation de thèse Lundi 20 décembre 2004
Nombre de sujets (manuel) Nombre de sujets retrouvés Détection de mots clés 1 2 3 Résultats Thèmes Nombre de sujets (manuel) Nombre de sujets retrouvés Politique 34 33 Économie 14 10 Catastrophe 9 8 Sports 18 17 Météo 6 Total 81 74 Erreurs Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 % Amélioration (en cours) Passage aux triphones Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Structuration sonore 1 2 3 Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur Détections automatiques, indépendantes : Détection de musique (chansons, spectacle) Détection de parole, puis du présentateur Détection des applaudissements Résultats : 1 émission → détection de 10 motifs Besoins ? → autres émissions de la collection Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Structuration sonore 1 2 3 Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ? J Présentation de thèse Lundi 20 décembre 2004
Structuration : perspectives 1 2 3 Apport de la vidéo Détection de logos Extraction de texte Reconnaissance de l’intervenant Chanteur ? Présentation de thèse Lundi 20 décembre 2004
Structuration : perspectives 1 2 3 Macrosegmentation automatique (exemple du motif) Annotations automatiques Recherche de suites récurrentes [Haidar04] Inférence d’un motif Structuration Important : difficile manuellement Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration CONCLUSION Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Conclusion Indexation sonore : étude de composantes primaires « Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante Thèmes : validation Locuteur cible : résultats encourageants « Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Perspectives 2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel Information audiovisuelle ou une indexation audiovisuelle ? Analyse audiovisuelle ? Présentation de thèse Lundi 20 décembre 2004
Présentation de thèse Lundi 20 décembre 2004 Merci de votre attention… Présentation de thèse Lundi 20 décembre 2004