Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.

Slides:



Advertisements
Présentations similaires
Indexation Parole / Musique / Bruit
Advertisements

Détecteur de mélodie sujet proposé par J. Le Roux le détecteur sera fondé sur une analyse double : dune.
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Mesures dans le domaine fréquentiel
SON COMPLEXE - SPECTRE Le son pur est un modèle mathématique (sinusoïde…) Un son complexe peut être décomposé en une sommes de sinusoïdes (Théorème de.
Directeur de thèse : Régine André-Obrecht
Reconnaissance de la parole
Le cahier de charge d'un système de RAP
Reconnaissance Vocale
L'audition.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Reconnaissance automatique de la parole
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Présentation RFIA janvier 2002
TNS et Analyse Spectrale
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Thème Habitat Chap. VIII : Le confort acoustique
AUTO - EVALUATION DE L'ELEVE GENERALITES POURQUOI ? - Permettre à l'élève de mesurer ses réussites, ses difficultés et d'identifier ses besoins. - L 'élève.
Développement de la technique d'holographie acoustique de champ proche temps réel pour l'analyse de sources de bruit fluctuantes Doctorant : Directeurs.
Chapitre 4: Variation dans le temps  Les données : audience totale en milliers (tableau 4.1, p. 47, extrait) o Origine : enquête sur les habitudes d’écoute.
Comparing color edge detection and segmentation methods Projet TIM.
Présentation  Objectif : Une initiation au « Machine learning ».  Comprendre et assimiler les différentes techniques permettant d’indexer ou de classifier.
1 Reconnaissance automatique de la parole Exposé sur les différentes méthodes d’analyse acoustique Présenter par : Mounir GRARI Najlae KORIKACHE.
Les rprésentation des signaux dans le cadre décisionnel de Bayes Jorge F. Silva Shrikanth S. Narayanan.
Synchronisation des modes en phase
Chapitre 4: Variation dans le temps
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Journée des Doctorants 2013
Tice (logiciels) et aide personnalisée.
Paolo Montenegro Cours de formation en Monitoring du pluralisme politique dans les médias en campagne électorale pour les.
Analyse du vibrato avec VOCALAB
Etude de l’influence des palmiers sur la régénération de la forêt
Forum des Industries de la Langue, 17 mars 2010
Système à étalement spectral
Cyber-Sphinx Séance 2.
Les apports du cours Des concepts Des outils à mettre en œuvre Savoir
Mesure de la Contribution du Spin des Gluons au Spin du Nucléon
Technologies de l’intelligence d’affaires Séance 12
Rencontres Jeunes Chercheurs - Annecy
Epreuve de mise en situation professionnelle
Modulation numérique. Transmission numérique  Avantages techniques Immunité au bruit Optimalisation de la bande passante Facilité de traitement de l’information.
Mathématiques et Sports. La course à pied La course à pied  Les mathématiques, sont un outil qui permet d’analyser, de simuler, de prédire et d’optimiser.
2 La phonétique physique
Jacques Tagoudjeu.  GENERALITES SUR LES SIGNAUX  SERIES DE FOURIER  IMPULSION (DISTRIBUTION) DE DIRAC  CONVOLUTION  TRANSFORMATION DE FOURIER  TRANSFORMATION.
Fadoua BRAHIM Encadrant: Thierry CHONAVEL
L’analyse morpho-syntaxique dans un synthétiseur de parole.
Ch.5 - Les fonctions macroéconomiques - Diapo 3
Tout retard conduira à une note de zéro.
VI. Introduction à l ’indexation
Triangle Vocalique et extension aux consonnes
Analyse de l’intelligibilité
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Modulation numérique. Transmission numérique  Avantages techniques Immunité au bruit Optimalisation de la bande passante Facilité de traitement de l’information.
Sujets Spéciaux en informatique II
Epreuve de mise en situation professionnelle
Epreuve de mise en situation professionnelle
Modulation numérique. Transmission numérique  Avantages techniques Immunité au bruit Optimalisation de la bande passante Facilité de traitement de l’information.
Programme d’appui à la gestion publique et aux statistiques
Le module d’approfondissement
Année – scolaire 2018/2019 P 1. TOUAIMIA Shelihane 1 STMG 3Lycée Hugues Libergier à ReimsRéalisation d’une Etude de Gestion en 1 STMGTravail de recherche,
Année – scolaire 2018/2019 P 1. TOUAIMIA Shelihane 1 STMG 3Lycée Hugues Libergier à ReimsRéalisation d’une Etude de Gestion en 1 STMGTravail de recherche,
INTELLIGENCE ARTIFICIELLE
Exploiter la fonction fft(.) de Scilab
CHAPITRE 05 Caractéristiques des Ondes dans la Matière
Travaux internationaux : BEPS, transparence, etc.
Transcription de la présentation:

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht

2 Présentation de thèseLundi 20 décembre 2004 Objectifs  Contribution à l’analyse automatique  Recherche de composantes primaires  Apport d’outils utiles  Pour la structuration automatique Contexte : indexation

3 Présentation de thèseLundi 20 décembre 2004 Indexation sonore : que faire ? locuteur 1 (homme)locuteur 2 (femme)silencemusiqueparole françaisanglais jingle 1 leçonlesson

4 Présentation de thèseLundi 20 décembre 2004 Plan  Détection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration 1 2 3

5 Présentation de thèseLundi 20 décembre 2004 Plan  Détection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration 1 23

6 Présentation de thèseLundi 20 décembre 2004 Etat de l’art  Parole  Structure formantique [Calliope89]  Formants = Fréquences de résonance du conduit vocal Formants 1 23

7 Présentation de thèseLundi 20 décembre 2004 Etat de l’art  Musique  Instrumentale traditionnelle  Structure harmonique Harmoniques 1 23

8 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : paramétrisation  Paramétrisation  Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98]  Fréquentielle : DSP [Saunders96] et [Scheirer97]  Mixte [Scheirer97]  MFCC [Gauvain99]  Classification  Approche statistique : méthodes paramétriques méthodes non paramétriques  Réseaux de neurones  SVM 1 23

9 Présentation de thèseLundi 20 décembre 2004 Spectral rolloff point ZCR Énergie Signal Etat de l’art : paramétrisation Flux spectral ParoleMusique 1 23

10 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : classification  Paramétrisation  Temporelle : ZCR et énergie  Fréquentielle : DSP  Mixte  MFCC  Classification  Approche statistique : méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99] méthodes non paramétriques [Foote97] et [Rossignol2000]  Réseaux de neurones [Rossignol2000]  SVM [Chapelle2002] 1 23

11 Présentation de thèseLundi 20 décembre 2004 Etat de l’art : quelques systèmes  Détection de musique : système IRCAM  Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre)  Décision : RN, kppv  ≈ 10% d’erreurs  Détection de parole : système LIMSI  Paramétrisation : MFCC (38 coefficients)  Décision : MMG  3 à 8 % d’erreurs  Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98]  < 10% d’erreurs  Identification 1 23

12 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Signal Classification Modèles Apprentissage Analyse cepstrale Signal Classification Parole NonParole Analyse spectrale Musique NonMusique 1 23 Modélisation différenciée

13 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Pré-traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) Paramètres indicés (NonParole) VQEM VQEM Modèle Parole Affectation Paramètres indicés (Musique) Paramètres indicés (NonMusique) VQEM VQEM 29 Coeff. Spectraux 128 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique  Apprentissage des MMG 1 23

14 Présentation de thèseLundi 20 décembre 2004 Notre système PMB de base Problème : apprentissage 1 23

15 Présentation de thèseLundi 20 décembre 2004 Notre système hybride Signal Détection de paroleDétection de musique Modulation de l’entropie Modulation de l’énergie à 4 Hz Nombre de segments Durée des segments Classification Parole / NonParole Classification Musique / NonMusique Segmentation 1 23 Fusion (scores)

16 Présentation de thèseLundi 20 décembre 2004 Notre système hybride  Modulation de l’énergie à 4 Hz  Fenêtrage (16 ms)  40 coefficients spectraux (Mel)  Filtrage (RIF passe-bande 4 Hz)  Somme et normalisation  Modulation (variance sur 1 s)  Modulation de l’entropie  Fenêtrage (16 ms)  Histogramme (amplitude du signal)  Entropie (estimateur non biaisé)  Modulation (variance sur 1 s) 1 23 Parole Musique

17 Présentation de thèseLundi 20 décembre 2004 Notre système hybride  Segmentation (DFB) [André-Obrecht88]  Nombre de segments  Durée des segments Signal ParoleMusique 1 23

18 Présentation de thèseLundi 20 décembre 2004 Notre système hybride  Les seuils  Parole : corpus MULTEXT [Campione98]  Musique : base personnelle Seuil 1 23 Exemple : Modulation de l’énergie à 4 Hertz

19 Présentation de thèseLundi 20 décembre 2004 Résultats ParamètresScore Coef. Spectraux + MMG79,7 %Coef. Spectraux + MMG (adaptation)87 % Modulation de l’énergie à 4 Hertz Modulation de l’entropie 87,3 % 87,5 % Nombre de segments Durée des segments 86,4 % 78,1 % Fusion (max)90,5 %Fusion (max)89 %MFCC + MMG (adaptation)90,9 %MFCC + MMG86,1 % PAROLEPAROLE MUSIQUEMUSIQUE Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 90,7 % 90,9 % Fusion (théorie des probabilités) Fusion (théorie de l’évidence) 84,8 % 86,9 % max 93,9 % max 89,8 % CORPUS RFI (6 heures) Etiquetage manuel Système de base Système hybride 2 heures d’étiquetage 1 23 Décalage parole : 500 ms Décalage musique : 1 s

20 Présentation de thèseLundi 20 décembre 2004 Plan  Détection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration 1 23

21 Présentation de thèseLundi 20 décembre 2004 Détection de sons clés  Jingles (reproduction) → Référence (signature)  Applaudissements, rires et locuteur cible  Mots clés MMG MMC Modèles 1 23 ApplaudissementsRiresJingle

22 Présentation de thèseLundi 20 décembre 2004 Détection de jingles  Extrait sonore  Système classique  Analyse spectrale (29 coefficients)  Comparaison (distance Euclidienne)  Analyse des « pics » 1 23 Hamming| FFT |Filtrage Signal Coefficients spectraux

23 Présentation de thèseLundi 20 décembre 2004 Détection de jingles  Méthode d’analyse des pics 1 23 h

24 Présentation de thèseLundi 20 décembre 2004  Résultats  2 erreurs  Précision : ~ 0,5 s Détection de jingles CorpusDuréeJingles Détection manuelle Détection automatique France 315 min144 M615 min116 Canal +30 min166 France Info60 min11211 RFI360 min360 Publicités90 min Total570 min France Info

25 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible  Pourquoi ? 1 23

26 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible  Apprentissage des applaudissements et des rires  Classe={Applaudissements,Rires}  Apprentissage du locuteur cible 1 23 Pré traitement acoustique SIGNAL Affectation Paramètres indicés (Classe) Paramètres indicés (Non-classe) VQEM VQEM Étiquetage manuel (Classe/Non-classe) Modèle Non-classe Modèle Classe

27 Présentation de thèseLundi 20 décembre 2004 Détection des applaudissements, des rires et d’un locuteur cible  Corpus : « Le Grand Échiquier », projet FERIA  Apprentissage : 1 émission  Reconnaissance : 1 émission  Résultats  Locuteur cible = présentateur « Jacques Chancel » : 92,9 % (P/NP manuel) 89,7 % (P/NP auto à 94,6 %)  Applaudissements et rires : problème du critère évaluation Taux > 98 % : segments significatifs Applaudissements : excellents Rires : problèmes 1 23

28 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Buts :  Notion de thème (cf. texte)  Structuration Rapidité d’exécution, robustesse → légèreté de mise en œuvre  Etat de l’art  Modèle poubelle  Anti-modèles  Mesures de confiance  Système 1 23

29 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Pré-traitement acoustique  MFCC  Modélisation : MMC  Unité : phonème 1 23

30 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Modèles : mots clés, poubelle et silence  Poubelle : φ  Mot clé : concaténation des modèles de φ → intéressant  Grammaire 1 23 φ1φ1 φpφp DebFin « b »« a »« l » → pénaliser

31 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Corpus  Apprentissage : 30h ESTER (Technolangue) France Inter (20h) et RFI (10h)  Reconnaissance : RFI (6 h, cf. PMB)  Mise en œuvre  Phonème → victoire : v i k t w a Rv i k t w a i k t w a R silv i k t w a sil  Faisabilité : 20 mots clés, 5 thèmes Politique : politique, président, ministre, Europe, gouvernement Économie : technologie, industrie, travail, entreprise Catastrophe : génocide, attentat, victime, sécurité, militaire Sport : championnat, victoire, football Météo : dépression, précipitations, température 1 23

32 Présentation de thèseLundi 20 décembre 2004 Détection de mots clés  Résultats Thèmes Nombre de sujets (manuel) Nombre de sujets retrouvés Politique3433 Économie1410 Catastrophe98 Sports1817 Météo66 Total8174  Erreurs  Système  12 MFCC, Δ, ΔΔ, ΔE  MMC, 32G / état  Accuracy : 56,62 %  Amélioration (en cours)  Passage aux triphones 1 23

33 Présentation de thèseLundi 20 décembre 2004 Plan  D é tection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration 1 23

34 Présentation de thèseLundi 20 décembre 2004 Structuration sonore  Détection de motif dans une collection d’émissions  « Le grand Échiquier » 54 émissions de 3h  Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur  Détections automatiques, indépendantes : Détection de musique (chansons, spectacle) Détection de parole, puis du présentateur Détection des applaudissements  Résultats : 1 émission → détection de 10 motifs  Besoins ? → autres émissions de la collection 1 23

35 Présentation de thèseLundi 20 décembre 2004 Structuration sonore  Structuration d’un journal télévisé (« 6 minutes » de M6)  Détection de jingles (J et JG)  Détections de parole et de musique  Détection de mots clés  1 erreur  Besoins ? 1 23 J

36 Présentation de thèseLundi 20 décembre 2004 Structuration : perspectives  Apport de la vidéo  Détection de logos  Extraction de texte  Reconnaissance de l’intervenant 1 23 Chanteur ?

37 Présentation de thèseLundi 20 décembre 2004 Structuration : perspectives  Macrosegmentation automatique (exemple du motif)  Annotations automatiques  Recherche de suites récurrentes [Haidar04]  Inférence d’un motif  Structuration Important : difficile manuellement 1 23

38 Présentation de thèseLundi 20 décembre 2004  D é tection PMB  Etat de l’art  Système de base  Système hybride (fusion)  Détection de sons clés  Jingles  Applaudissements, rires et locuteur cible  Mots clés  Structuration Plan 1 23 CONCLUSION

39 Présentation de thèseLundi 20 décembre 2004 Conclusion  Indexation sonore : étude de composantes primaires  « Unités communes »  Parole et musique : → robustesse (plus d’apprentissage)  Mots clés : faisabilité → mise en œuvre intéressante Thèmes : validation  Locuteur cible : résultats encourageants  « Unités caractéristiques »  Jingles : résultats excellents → 1 occurrence  Applaudissements : résultats très bons → universel  Rires : problèmes → rires de foule

40 Présentation de thèseLundi 20 décembre 2004 Perspectives  2 études de structuration sonore → très intéressantes  Structuration d’un JT  Détection d’un motif  Ne pas se limiter à un seul média  Quelques pistes (analyse vidéo)  Difficulté du couplage audio/vidéo  Problèmes du traitement audiovisuel Information audiovisuelle ou une indexation audiovisuelle ? Analyse audiovisuelle ?

41 Présentation de thèseLundi 20 décembre 2004  Merci de votre attention…