La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.

Présentations similaires


Présentation au sujet: "Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la."— Transcription de la présentation:

1 Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle
Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht

2 Présentation de thèse Lundi 20 décembre 2004
Objectifs Contribution à l’analyse automatique Recherche de composantes primaires Apport d’outils utiles Pour la structuration automatique Contexte : indexation Présentation de thèse Lundi 20 décembre 2004

3 Indexation sonore : que faire ?
silence musique parole jingle 1 leçon lesson locuteur 1 (homme) locuteur 2 (femme) français anglais Présentation de thèse Lundi 20 décembre 2004

4 Présentation de thèse Lundi 20 décembre 2004
Plan Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 2 3 Présentation de thèse Lundi 20 décembre 2004

5 Présentation de thèse Lundi 20 décembre 2004
Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004

6 Présentation de thèse Lundi 20 décembre 2004
Etat de l’art 1 2 3 Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants Présentation de thèse Lundi 20 décembre 2004

7 Présentation de thèse Lundi 20 décembre 2004
Etat de l’art 1 2 3 Musique Instrumentale traditionnelle Structure harmonique Harmoniques Présentation de thèse Lundi 20 décembre 2004

8 Etat de l’art : paramétrisation
1 2 3 Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98] Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99] Classification Approche statistique : méthodes paramétriques méthodes non paramétriques Réseaux de neurones SVM Présentation de thèse Lundi 20 décembre 2004

9 Etat de l’art : paramétrisation
1 2 3 Parole Musique Signal ZCR Énergie Spectral rolloff point Flux spectral Présentation de thèse Lundi 20 décembre 2004

10 Etat de l’art : classification
1 2 3 Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC Classification Approche statistique : méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] méthodes non paramétriques [Foote97] et [Rossignol2000] Réseaux de neurones [Rossignol2000] SVM [Chapelle2002] Présentation de thèse Lundi 20 décembre 2004

11 Etat de l’art : quelques systèmes
1 2 3 Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98] < 10% d’erreurs Identification Présentation de thèse Lundi 20 décembre 2004

12 Notre système PMB de base
1 2 3 Signal Parole NonParole Analyse cepstrale Classification Modélisation différenciée Apprentissage Modèles Signal Musique Analyse spectrale Classification NonMusique Présentation de thèse Lundi 20 décembre 2004

13 Notre système PMB de base
1 2 3 Apprentissage des MMG Pré-traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) (NonParole) VQ EM Modèle Parole (Musique) (NonMusique) 29 Coeff. Spectraux 128 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique Présentation de thèse Lundi 20 décembre 2004

14 Notre système PMB de base
1 2 3 Problème : apprentissage Présentation de thèse Lundi 20 décembre 2004

15 Notre système hybride Détection de parole Détection de musique
1 2 3 Signal Détection de parole Détection de musique Segmentation Modulation de l’entropie Nombre de segments Durée des segments Modulation de l’énergie à 4 Hz Fusion (scores) Fusion (scores) Classification Parole / NonParole Classification Musique / NonMusique Présentation de thèse Lundi 20 décembre 2004

16 Présentation de thèse Lundi 20 décembre 2004
Notre système hybride 1 2 3 Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s) Modulation de l’entropie Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Parole Musique Présentation de thèse Lundi 20 décembre 2004

17 Présentation de thèse Lundi 20 décembre 2004
Notre système hybride 1 2 3 Segmentation (DFB) [André-Obrecht88] Nombre de segments Durée des segments Signal Parole Musique Présentation de thèse Lundi 20 décembre 2004

18 Présentation de thèse Lundi 20 décembre 2004
Notre système hybride 1 2 3 Les seuils Parole : corpus MULTEXT [Campione98] Musique : base personnelle Exemple : Modulation de l’énergie à 4 Hertz Seuil Présentation de thèse Lundi 20 décembre 2004

19 Présentation de thèse Lundi 20 décembre 2004
Résultats 1 2 3 Paramètres Score CORPUS RFI (6 heures) Système de base P A R O L E Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % Système hybride MFCC + MMG 86,1 % Etiquetage manuel max 93,9 % MFCC + MMG (adaptation) 90,9 % Fusion (max) 90,5 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % 2 heures d’étiquetage M U S I Q E Nombre de segments Durée des segments 86,4 % 78,1 % Coef. Spectraux + MMG 79,7 % Décalage parole : 500 ms Décalage musique : 1 s Coef. Spectraux + MMG (adaptation) 87 % max 89,8 % Fusion (max) 89 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 84,8 % 86,9 % Présentation de thèse Lundi 20 décembre 2004

20 Présentation de thèse Lundi 20 décembre 2004
Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004

21 Présentation de thèse Lundi 20 décembre 2004
Détection de sons clés 1 2 3 Jingles (reproduction) → Référence (signature) Applaudissements, rires et locuteur cible Mots clés MMG Modèles MMC Jingle Applaudissements Rires Présentation de thèse Lundi 20 décembre 2004

22 Présentation de thèse Lundi 20 décembre 2004
Détection de jingles 1 2 3 Extrait sonore Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics » Hamming | FFT | Filtrage Signal Coefficients spectraux Présentation de thèse Lundi 20 décembre 2004

23 Présentation de thèse Lundi 20 décembre 2004
Détection de jingles 1 2 3 Méthode d’analyse des pics h Présentation de thèse Lundi 20 décembre 2004

24 Présentation de thèse Lundi 20 décembre 2004
Détection de jingles 1 2 3 Résultats 2 erreurs Précision : ~ 0,5 s Corpus Durée Jingles Détection manuelle automatique France 3 15 min 1 4 M6 16 Canal + 30 min 6 France Info 60 min 12 11 RFI 360 min 3 60 Publicités 90 min 25 34 33 Total 570 min 32 132 130 France Info Présentation de thèse Lundi 20 décembre 2004

25 Détection des applaudissements, des rires et d’un locuteur cible
1 2 3 Pourquoi ? Présentation de thèse Lundi 20 décembre 2004

26 Détection des applaudissements, des rires et d’un locuteur cible
1 2 3 Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires} Apprentissage du locuteur cible Pré traitement acoustique SIGNAL Affectation Paramètres indicés (Classe) (Non-classe) VQ EM Étiquetage manuel (Classe/Non-classe) Modèle Non-classe Classe Présentation de thèse Lundi 20 décembre 2004

27 Détection des applaudissements, des rires et d’un locuteur cible
1 2 3 Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission Résultats Locuteur cible = présentateur « Jacques Chancel » : 92,9 % (P/NP manuel) 89,7 % (P/NP auto à 94,6 %) Applaudissements et rires : problème du critère évaluation Taux > 98 % : segments significatifs Applaudissements : excellents Rires : problèmes Présentation de thèse Lundi 20 décembre 2004

28 Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 1 2 3 Buts : Notion de thème (cf. texte) Structuration Rapidité d’exécution, robustesse → légèreté de mise en œuvre Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance Système Présentation de thèse Lundi 20 décembre 2004

29 Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 1 2 3 Pré-traitement acoustique MFCC Modélisation : MMC Unité : phonème Présentation de thèse Lundi 20 décembre 2004

30 Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 1 2 3 Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant Grammaire → pénaliser « b » « a » « l » φ1 φp Deb Fin Présentation de thèse Lundi 20 décembre 2004

31 Présentation de thèse Lundi 20 décembre 2004
Détection de mots clés 1 2 3 Corpus Apprentissage : 30h ESTER (Technolangue) France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB) Mise en œuvre Phonème → victoire : v i k t w a R v i k t w a v i k t w a R sil v i k t w a sil Faisabilité : 20 mots clés, 5 thèmes Politique : politique, président, ministre, Europe, gouvernement Économie : technologie, industrie, travail, entreprise Catastrophe : génocide, attentat, victime, sécurité, militaire Sport : championnat, victoire, football Météo : dépression, précipitations, température Présentation de thèse Lundi 20 décembre 2004

32 Nombre de sujets (manuel) Nombre de sujets retrouvés
Détection de mots clés 1 2 3 Résultats Thèmes Nombre de sujets (manuel) Nombre de sujets retrouvés Politique 34 33 Économie 14 10 Catastrophe 9 8 Sports 18 17 Météo 6 Total 81 74 Erreurs Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 % Amélioration (en cours) Passage aux triphones Présentation de thèse Lundi 20 décembre 2004

33 Présentation de thèse Lundi 20 décembre 2004
Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004

34 Présentation de thèse Lundi 20 décembre 2004
Structuration sonore 1 2 3 Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur Détections automatiques, indépendantes : Détection de musique (chansons, spectacle) Détection de parole, puis du présentateur Détection des applaudissements Résultats : 1 émission → détection de 10 motifs Besoins ? → autres émissions de la collection Présentation de thèse Lundi 20 décembre 2004

35 Présentation de thèse Lundi 20 décembre 2004
Structuration sonore 1 2 3 Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ? J Présentation de thèse Lundi 20 décembre 2004

36 Structuration : perspectives
1 2 3 Apport de la vidéo Détection de logos Extraction de texte Reconnaissance de l’intervenant Chanteur ? Présentation de thèse Lundi 20 décembre 2004

37 Structuration : perspectives
1 2 3 Macrosegmentation automatique (exemple du motif) Annotations automatiques Recherche de suites récurrentes [Haidar04] Inférence d’un motif Structuration Important : difficile manuellement Présentation de thèse Lundi 20 décembre 2004

38 Présentation de thèse Lundi 20 décembre 2004
Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration CONCLUSION Présentation de thèse Lundi 20 décembre 2004

39 Présentation de thèse Lundi 20 décembre 2004
Conclusion Indexation sonore : étude de composantes primaires « Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante Thèmes : validation Locuteur cible : résultats encourageants « Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule Présentation de thèse Lundi 20 décembre 2004

40 Présentation de thèse Lundi 20 décembre 2004
Perspectives 2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel Information audiovisuelle ou une indexation audiovisuelle ? Analyse audiovisuelle ? Présentation de thèse Lundi 20 décembre 2004

41 Présentation de thèse Lundi 20 décembre 2004
Merci de votre attention… Présentation de thèse Lundi 20 décembre 2004


Télécharger ppt "Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la."

Présentations similaires


Annonces Google