Télécharger la présentation
Publié parAlaina Chartier Modifié depuis plus de 11 années
1
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle
Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht
2
Présentation de thèse Lundi 20 décembre 2004
Objectifs Contribution à l’analyse automatique Recherche de composantes primaires Apport d’outils utiles Pour la structuration automatique Contexte : indexation Présentation de thèse Lundi 20 décembre 2004
3
Indexation sonore : que faire ?
silence musique parole jingle 1 leçon lesson locuteur 1 (homme) locuteur 2 (femme) français anglais Présentation de thèse Lundi 20 décembre 2004
4
Présentation de thèse Lundi 20 décembre 2004
Plan Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 2 3 Présentation de thèse Lundi 20 décembre 2004
5
Présentation de thèse Lundi 20 décembre 2004
Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004
6
Présentation de thèse Lundi 20 décembre 2004
Etat de l’art 1 2 3 Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants Présentation de thèse Lundi 20 décembre 2004
7
Présentation de thèse Lundi 20 décembre 2004
Etat de l’art 1 2 3 Musique Instrumentale traditionnelle Structure harmonique Harmoniques Présentation de thèse Lundi 20 décembre 2004
8
Etat de l’art : paramétrisation
1 2 3 Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98] Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99] Classification Approche statistique : méthodes paramétriques méthodes non paramétriques Réseaux de neurones SVM Présentation de thèse Lundi 20 décembre 2004
9
Etat de l’art : paramétrisation
1 2 3 Parole Musique Signal ZCR Énergie Spectral rolloff point Flux spectral Présentation de thèse Lundi 20 décembre 2004
10
Etat de l’art : classification
1 2 3 Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC Classification Approche statistique : méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] méthodes non paramétriques [Foote97] et [Rossignol2000] Réseaux de neurones [Rossignol2000] SVM [Chapelle2002] Présentation de thèse Lundi 20 décembre 2004
11
Etat de l’art : quelques systèmes
1 2 3 Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98] < 10% d’erreurs Identification Présentation de thèse Lundi 20 décembre 2004
12
Notre système PMB de base
1 2 3 Signal Parole NonParole Analyse cepstrale Classification Modélisation différenciée Apprentissage Modèles Signal Musique Analyse spectrale Classification NonMusique Présentation de thèse Lundi 20 décembre 2004
13
Notre système PMB de base
1 2 3 Apprentissage des MMG Pré-traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) (NonParole) VQ EM Modèle Parole (Musique) (NonMusique) 29 Coeff. Spectraux 128 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique Présentation de thèse Lundi 20 décembre 2004
14
Notre système PMB de base
1 2 3 Problème : apprentissage Présentation de thèse Lundi 20 décembre 2004
15
Notre système hybride Détection de parole Détection de musique
1 2 3 Signal Détection de parole Détection de musique Segmentation Modulation de l’entropie Nombre de segments Durée des segments Modulation de l’énergie à 4 Hz Fusion (scores) Fusion (scores) Classification Parole / NonParole Classification Musique / NonMusique Présentation de thèse Lundi 20 décembre 2004
16
Présentation de thèse Lundi 20 décembre 2004
Notre système hybride 1 2 3 Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s) Modulation de l’entropie Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Parole Musique Présentation de thèse Lundi 20 décembre 2004
17
Présentation de thèse Lundi 20 décembre 2004
Notre système hybride 1 2 3 Segmentation (DFB) [André-Obrecht88] Nombre de segments Durée des segments Signal Parole Musique Présentation de thèse Lundi 20 décembre 2004
18
Présentation de thèse Lundi 20 décembre 2004
Notre système hybride 1 2 3 Les seuils Parole : corpus MULTEXT [Campione98] Musique : base personnelle Exemple : Modulation de l’énergie à 4 Hertz Seuil Présentation de thèse Lundi 20 décembre 2004
19
Présentation de thèse Lundi 20 décembre 2004
Résultats 1 2 3 Paramètres Score CORPUS RFI (6 heures) Système de base P A R O L E Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % Système hybride MFCC + MMG 86,1 % Etiquetage manuel max 93,9 % MFCC + MMG (adaptation) 90,9 % Fusion (max) 90,5 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % 2 heures d’étiquetage M U S I Q E Nombre de segments Durée des segments 86,4 % 78,1 % Coef. Spectraux + MMG 79,7 % Décalage parole : 500 ms Décalage musique : 1 s Coef. Spectraux + MMG (adaptation) 87 % max 89,8 % Fusion (max) 89 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 84,8 % 86,9 % Présentation de thèse Lundi 20 décembre 2004
20
Présentation de thèse Lundi 20 décembre 2004
Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004
21
Présentation de thèse Lundi 20 décembre 2004
Détection de sons clés 1 2 3 Jingles (reproduction) → Référence (signature) Applaudissements, rires et locuteur cible Mots clés MMG Modèles MMC Jingle Applaudissements Rires Présentation de thèse Lundi 20 décembre 2004
22
Présentation de thèse Lundi 20 décembre 2004
Détection de jingles 1 2 3 Extrait sonore Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics » Hamming | FFT | Filtrage Signal Coefficients spectraux Présentation de thèse Lundi 20 décembre 2004
23
Présentation de thèse Lundi 20 décembre 2004
Détection de jingles 1 2 3 Méthode d’analyse des pics h Présentation de thèse Lundi 20 décembre 2004
24
Présentation de thèse Lundi 20 décembre 2004
Détection de jingles 1 2 3 Résultats 2 erreurs Précision : ~ 0,5 s Corpus Durée Jingles Détection manuelle automatique France 3 15 min 1 4 M6 16 Canal + 30 min 6 France Info 60 min 12 11 RFI 360 min 3 60 Publicités 90 min 25 34 33 Total 570 min 32 132 130 France Info Présentation de thèse Lundi 20 décembre 2004
25
Détection des applaudissements, des rires et d’un locuteur cible
1 2 3 Pourquoi ? Présentation de thèse Lundi 20 décembre 2004
26
Détection des applaudissements, des rires et d’un locuteur cible
1 2 3 Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires} Apprentissage du locuteur cible Pré traitement acoustique SIGNAL Affectation Paramètres indicés (Classe) (Non-classe) VQ EM Étiquetage manuel (Classe/Non-classe) Modèle Non-classe Classe Présentation de thèse Lundi 20 décembre 2004
27
Détection des applaudissements, des rires et d’un locuteur cible
1 2 3 Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission Résultats Locuteur cible = présentateur « Jacques Chancel » : 92,9 % (P/NP manuel) 89,7 % (P/NP auto à 94,6 %) Applaudissements et rires : problème du critère évaluation Taux > 98 % : segments significatifs Applaudissements : excellents Rires : problèmes Présentation de thèse Lundi 20 décembre 2004
28
Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 1 2 3 Buts : Notion de thème (cf. texte) Structuration Rapidité d’exécution, robustesse → légèreté de mise en œuvre Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance Système Présentation de thèse Lundi 20 décembre 2004
29
Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 1 2 3 Pré-traitement acoustique MFCC Modélisation : MMC Unité : phonème Présentation de thèse Lundi 20 décembre 2004
30
Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 1 2 3 Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant Grammaire → pénaliser « b » « a » « l » φ1 φp Deb Fin Présentation de thèse Lundi 20 décembre 2004
31
Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 1 2 3 Corpus Apprentissage : 30h ESTER (Technolangue) France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB) Mise en œuvre Phonème → victoire : v i k t w a R v i k t w a v i k t w a R sil v i k t w a sil Faisabilité : 20 mots clés, 5 thèmes Politique : politique, président, ministre, Europe, gouvernement Économie : technologie, industrie, travail, entreprise Catastrophe : génocide, attentat, victime, sécurité, militaire Sport : championnat, victoire, football Météo : dépression, précipitations, température Présentation de thèse Lundi 20 décembre 2004
32
Nombre de sujets (manuel) Nombre de sujets retrouvés
Détection de mots clés 1 2 3 Résultats Thèmes Nombre de sujets (manuel) Nombre de sujets retrouvés Politique 34 33 Économie 14 10 Catastrophe 9 8 Sports 18 17 Météo 6 Total 81 74 Erreurs Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 % Amélioration (en cours) Passage aux triphones Présentation de thèse Lundi 20 décembre 2004
33
Présentation de thèse Lundi 20 décembre 2004
Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004
34
Présentation de thèse Lundi 20 décembre 2004
Structuration sonore 1 2 3 Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur Détections automatiques, indépendantes : Détection de musique (chansons, spectacle) Détection de parole, puis du présentateur Détection des applaudissements Résultats : 1 émission → détection de 10 motifs Besoins ? → autres émissions de la collection Présentation de thèse Lundi 20 décembre 2004
35
Présentation de thèse Lundi 20 décembre 2004
Structuration sonore 1 2 3 Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ? J Présentation de thèse Lundi 20 décembre 2004
36
Structuration : perspectives
1 2 3 Apport de la vidéo Détection de logos Extraction de texte Reconnaissance de l’intervenant Chanteur ? Présentation de thèse Lundi 20 décembre 2004
37
Structuration : perspectives
1 2 3 Macrosegmentation automatique (exemple du motif) Annotations automatiques Recherche de suites récurrentes [Haidar04] Inférence d’un motif Structuration Important : difficile manuellement Présentation de thèse Lundi 20 décembre 2004
38
Présentation de thèse Lundi 20 décembre 2004
Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration CONCLUSION Présentation de thèse Lundi 20 décembre 2004
39
Présentation de thèse Lundi 20 décembre 2004
Conclusion Indexation sonore : étude de composantes primaires « Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante Thèmes : validation Locuteur cible : résultats encourageants « Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule Présentation de thèse Lundi 20 décembre 2004
40
Présentation de thèse Lundi 20 décembre 2004
Perspectives 2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel Information audiovisuelle ou une indexation audiovisuelle ? Analyse audiovisuelle ? Présentation de thèse Lundi 20 décembre 2004
41
Présentation de thèse Lundi 20 décembre 2004
Merci de votre attention… Présentation de thèse Lundi 20 décembre 2004
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.