Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Indexation Parole / Musique / Bruit
Analyse temps-fréquence
Reconnaissance de la parole
Les numéros 70 –
Les numéros
Sud Ouest Est Nord Individuel 36 joueurs
Les Prepositions.
1. 2 Informations nécessaires à la création dun intervenant 1.Sa désignation –Son identité, ses coordonnées, son statut 2.Sa situation administrative.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
Reconnaissance de la parole
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
PROMOTION 2012 Les résultats. Baccalauréat général et technologique Filière STG CFE STG COM RH STG MERC LES 1ES 2S1S2S3TOTAL Nb de candidats
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Classification Multi Source En Intégrant La Texture
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Evaluation de la qualité des documents anciens
Titre : Implémentation des éléments finis sous Matlab
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
INDUSTRIE sa Tel : 0033(0) Fax : Projet: SKIP CAPSULES – v.1 Client: CARDIVAL HEALTH.
LES NOMBRES PREMIERS ET COMPOSÉS
Partie 1: Ondes et Particules.
Les chiffres & les nombres
Unit 4: Les animaux Unit 4: Les animaux.
Reconnaissance Vocale
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
1 INETOP
Veuillez trouver ci-joint
Aire d’une figure par encadrement
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Antennes-BIE à surface combinée
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Nom:____________ Prénom: ___________
LES COURSES SUR PISTE.
CALENDRIER-PLAYBOY 2020.
1. Présentation générale du système
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
Les Chiffres Prêts?
Elles avaient envahi le jardin, mais derrière... 1.
Médiathèque de Chauffailles du 3 au 28 mars 2009.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Présentation RFIA janvier 2002
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Transcription de la présentation:

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht

Présentation de thèse Lundi 20 décembre 2004 Objectifs Contribution à l’analyse automatique Recherche de composantes primaires Apport d’outils utiles Pour la structuration automatique Contexte : indexation Présentation de thèse Lundi 20 décembre 2004

Indexation sonore : que faire ? silence musique parole jingle 1 leçon lesson locuteur 1 (homme) locuteur 2 (femme) français anglais Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Plan Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration 1 2 3 Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Etat de l’art 1 2 3 Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Etat de l’art 1 2 3 Musique Instrumentale traditionnelle Structure harmonique Harmoniques Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : paramétrisation 1 2 3 Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98] Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99] Classification Approche statistique : méthodes paramétriques méthodes non paramétriques Réseaux de neurones SVM Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : paramétrisation 1 2 3 Parole Musique Signal ZCR Énergie Spectral rolloff point Flux spectral Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : classification 1 2 3 Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC Classification Approche statistique : méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] méthodes non paramétriques [Foote97] et [Rossignol2000] Réseaux de neurones [Rossignol2000] SVM [Chapelle2002] Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : quelques systèmes 1 2 3 Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98] < 10% d’erreurs Identification Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base 1 2 3 Signal Parole NonParole Analyse cepstrale Classification Modélisation différenciée Apprentissage Modèles Signal Musique Analyse spectrale Classification NonMusique Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base 1 2 3 Apprentissage des MMG Pré-traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) (NonParole) VQ EM Modèle Parole (Musique) (NonMusique) 29 Coeff. Spectraux 128 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base 1 2 3 Problème : apprentissage Présentation de thèse Lundi 20 décembre 2004

Notre système hybride Détection de parole Détection de musique 1 2 3 Signal Détection de parole Détection de musique Segmentation Modulation de l’entropie Nombre de segments Durée des segments Modulation de l’énergie à 4 Hz Fusion (scores) Fusion (scores) Classification Parole / NonParole Classification Musique / NonMusique Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Notre système hybride 1 2 3 Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s) Modulation de l’entropie Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Parole Musique Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Notre système hybride 1 2 3 Segmentation (DFB) [André-Obrecht88] Nombre de segments Durée des segments Signal Parole Musique Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Notre système hybride 1 2 3 Les seuils Parole : corpus MULTEXT [Campione98] Musique : base personnelle Exemple : Modulation de l’énergie à 4 Hertz Seuil Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Résultats 1 2 3 Paramètres Score CORPUS RFI (6 heures) Système de base P A R O L E Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % Système hybride MFCC + MMG 86,1 % Etiquetage manuel max 93,9 % MFCC + MMG (adaptation) 90,9 % Fusion (max) 90,5 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % 2 heures d’étiquetage M U S I Q E Nombre de segments Durée des segments 86,4 % 78,1 % Coef. Spectraux + MMG 79,7 % Décalage parole : 500 ms Décalage musique : 1 s Coef. Spectraux + MMG (adaptation) 87 % max 89,8 % Fusion (max) 89 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 84,8 % 86,9 % Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Détection de sons clés 1 2 3 Jingles (reproduction) → Référence (signature) Applaudissements, rires et locuteur cible Mots clés MMG Modèles MMC Jingle Applaudissements Rires Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Détection de jingles 1 2 3 Extrait sonore Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics » Hamming | FFT | Filtrage Signal Coefficients spectraux Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Détection de jingles 1 2 3 Méthode d’analyse des pics h Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Détection de jingles 1 2 3 Résultats 2 erreurs Précision : ~ 0,5 s Corpus Durée Jingles Détection manuelle automatique France 3 15 min 1 4 M6 16 Canal + 30 min 6 France Info 60 min 12 11 RFI 360 min 3 60 Publicités 90 min 25 34 33 Total 570 min 32 132 130 France Info Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible 1 2 3 Pourquoi ? Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible 1 2 3 Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires} Apprentissage du locuteur cible Pré traitement acoustique SIGNAL Affectation Paramètres indicés (Classe) (Non-classe) VQ EM Étiquetage manuel (Classe/Non-classe) Modèle Non-classe Classe Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible 1 2 3 Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission Résultats Locuteur cible = présentateur « Jacques Chancel » : 92,9 % (P/NP manuel) 89,7 % (P/NP auto à 94,6 %) Applaudissements et rires : problème du critère évaluation Taux > 98 % : segments significatifs Applaudissements : excellents Rires : problèmes Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Détection de mots clés 1 2 3 Buts : Notion de thème (cf. texte) Structuration Rapidité d’exécution, robustesse → légèreté de mise en œuvre Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance Système Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Détection de mots clés 1 2 3 Pré-traitement acoustique MFCC Modélisation : MMC Unité : phonème Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Détection de mots clés 1 2 3 Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant Grammaire → pénaliser « b » « a » « l » φ1 φp Deb Fin Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Détection de mots clés 1 2 3 Corpus Apprentissage : 30h ESTER (Technolangue) France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB) Mise en œuvre Phonème → victoire : v i k t w a R v i k t w a R @ v i k t w a R sil v i k t w a R @ sil Faisabilité : 20 mots clés, 5 thèmes Politique : politique, président, ministre, Europe, gouvernement Économie : technologie, industrie, travail, entreprise Catastrophe : génocide, attentat, victime, sécurité, militaire Sport : championnat, victoire, football Météo : dépression, précipitations, température Présentation de thèse Lundi 20 décembre 2004

Nombre de sujets (manuel) Nombre de sujets retrouvés Détection de mots clés 1 2 3 Résultats Thèmes Nombre de sujets (manuel) Nombre de sujets retrouvés Politique 34 33 Économie 14 10 Catastrophe 9 8 Sports 18 17 Météo 6 Total 81 74 Erreurs Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 % Amélioration (en cours) Passage aux triphones Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Structuration sonore 1 2 3 Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur Détections automatiques, indépendantes : Détection de musique (chansons, spectacle) Détection de parole, puis du présentateur Détection des applaudissements Résultats : 1 émission → détection de 10 motifs Besoins ? → autres émissions de la collection Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Structuration sonore 1 2 3 Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ? J Présentation de thèse Lundi 20 décembre 2004

Structuration : perspectives 1 2 3 Apport de la vidéo Détection de logos Extraction de texte Reconnaissance de l’intervenant Chanteur ? Présentation de thèse Lundi 20 décembre 2004

Structuration : perspectives 1 2 3 Macrosegmentation automatique (exemple du motif) Annotations automatiques Recherche de suites récurrentes [Haidar04] Inférence d’un motif Structuration Important : difficile manuellement Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Plan 1 2 3 Détection PMB Etat de l’art Système de base Système hybride (fusion) Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés Structuration CONCLUSION Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Conclusion Indexation sonore : étude de composantes primaires « Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante Thèmes : validation Locuteur cible : résultats encourageants « Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Perspectives 2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel Information audiovisuelle ou une indexation audiovisuelle ? Analyse audiovisuelle ? Présentation de thèse Lundi 20 décembre 2004

Présentation de thèse Lundi 20 décembre 2004 Merci de votre attention… Présentation de thèse Lundi 20 décembre 2004