Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parArman Le breton Modifié depuis plus de 9 années
1
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118, route de Narbonne – 31062 Toulouse Cedex 04, France Tél. : ++33 (0)5 61 55 88 35 – Fax : ++33 (0)5 61 55 62 58 Email : pinquier@irit.fr – Web : http://www.irit.fr/ACTIVITES/EQ_ARTPS Bruit de voiture, explosion Musique faibleInsertions - Voix faible ou forte, parole téléphonique Omissions 93 %95 %Accuracy (2) 91 %86 %Délai < 20 cs (1) MusiqueParole Résultats 1ère exp. Résultats 2ème exp. Parole Délai < 20 cs (1) 96 % Accuracy (2) 99,5 % (1)1) Mesure des délais entre frontières manuelles et automatiques (2)2) Accuracy = (durée corpus test – durée insertions – durée omissions ) / (durée corpus test ) Ces travaux traitent de l'indexation de la bande sonore de documents audiovisuels : le but est la détection des composantes Parole et/ou Musique. L’originalité réside dans la modélisation différenciée des composantes recherchées. Il s’agit en effet de caractériser au mieux de façon indépendante la parole et la musique afin de faire une séparation de type Classe / NonClasse. Ainsi, chacune des classes est définie par son espace de représentation et son ensemble de modèles (MMG). Des expérimentations sont conduites sur un corpus de l’INA (films, reportages sportifs et extraits de journaux télévisés). Les premiers résultats sont très satisfaisants compte tenu de la nature du corpus et du volume restreint de données en apprentissage. Résumé Indexation : à partir du signal, recherche d’informations servant à caractériser le document. Recherche des composantes Parole et Musique. Système d’indexation basé sur la modélisation différenciée. Mise en œuvre à partir de Modèles de Mélanges de Gaussiennes (MMG). Introduction L’apprentissage des MMGs But : trouver les composantes Parole et Musique de façon indépendante. Moyen : en caractérisant au mieux chacune des classes Parole : structure formantique Musique : structure harmonique 1 classe = {Espace de représentation, Modèle Classe, Modèle NonClasse} La modélisation différenciée Schéma du système d’indexation Apprentissage : 60 mn Test : 20 mn de film disjointes de l’apprentissage (nouveau locuteur, nouvelle musique, parole téléphonique non représenté en apprentissage) Corpus Episode de « Chapeau melon et bottes de cuir » + commentaires en direct de patinage Durée totale : 80 mn Composition : parole pure, musique pure et zones « mixtes » Parole : téléphonique, extérieure, foule, … Musique : cordes, vents, basses, batterie, … Locuteurs : environ 10 (hommes et femmes) Modèles : Parole Pure / NonParole et Musique Pure / Non Musique 1ère Expérience Corpus Journaux télévisés sportifs Durée totale : 34 mn Composition : parole pure et parole très bruitée Apprentissage : 14 mn Test : 20 mn Modèles : Parole Audible / NonParole 2ème Expérience (a) Etiquetage manuel (b) Indexation Parole / NonParole (P / NP) (c) Indexation Musique / NonMusique (M / NM) (d) Fusion des indexations Parole / NonParole et Musique/NonMusique (P, M, P&M, -) Exemple d’indexation
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.