Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,

Slides:



Advertisements
Présentations similaires
Définitions Analyse documentaire
Advertisements

EG - PS - 7 janvier Pourquoi un logiciel de Gestion Electronique de Documents ? (plate-forme opérationnelle mutualisée)
Indexation Parole / Musique / Bruit
Projet Sample Orchestrator Réunion plénière, 10 octobre 2007 SP2 - Indexation audio et navigation par le contenu Equipe Perception et Design Sonores A.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Reconnaissance du locuteur
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Caractérisation de la qualité sonore de lenvironnement urbain : Une approche physique et perceptive basée sur lidentification des sources sonores.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Préparation d’une séquence pédagogique
EOI MAIRENA DEL ALJARAJE- 5ème ANNÉE
EVALSPORT.
Indexation vidéo Indexation multimédia
Réorganisation du site Web Conférence des Directeurs de Service Universitaire de formation Continue.
Histoire des arts Travailler en équipe pluridisciplinaire sur un « objet » visuel Saintes –Abbaye aux Dames le 9 novembre 2009 Sylvie Lay IA-IPR novembre.
Comment présenter un projet
Analyse de séquence.
M. KINTZLER, professeur de Sciences Économiques et Sociales
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Processus DE Capitalisation
LA GESTION FINANCIERE DES ASSOCIATIONS ( le plan comptable )
Hésitations autonomes en 8 langues :
DEA Perception et Traitement de l’Information
Etude globale de système.
Nouveaux programmes Éducation Musicale BO spécial août 2008
I.Tarride et JC Desarnaud Avignon - Réunion IANTE 2006 Travaux académiques Capacitésexpérimentales en chimie Capacités expérimentales en chimie
Jean-Marc Labat AIDA A pproche I nterdisciplinaire pour les D ispositifs informatisés d' A pprentissage Jean-Marc.
Structure discriminante (analyse discriminante)
Master 2 recherche en informatique
Normalisation graphique dans le domaine de la sécurité incendie et intrusion.
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Ce projet a été financé avec le soutien de la Commission européenne. PREMIER SEMINAIRE TRANSNATIONAL 24, 25 ET 26 NOVEMBRE 2010 INTRODUCTION AU KIT PAC.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Valoriser les ressources externes pour développer des compétences transversales Excel pour la réalisation des graphiques Activité CDS 38 Liège.
Traitement de la parole : Synthèse et reconnaissance
Les archives en ligne et l'histoire
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Evaluation des incertitudes dans le recalage non rigide de formes Application à la segmentation avec ensemble apprentissage Maxime TARON Nikos PARAGIOS.
L ’apport du son gt/isac_9920_04. Son/image L ’appréhension du phénomène auditif est plus abstrait que le phénomène visuel. Ex : le son d ’un galop de.
Introduction des NTIC dans la pratique pédagogique
Comparaison de deux dispositifs d'apprentissage, coopératif et individuel, au regard des performances obtenues par les étudiants Comparaison de deux dispositifs.
S. Canu, laboratoire PSI, INSA de Rouen
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
1 La différenciation Atelier préparé par Les Services éducatifs Mars 2004.
François CARCENAC,Frédéric BONIOL ONERA-DTIM Zoubir MAMMERI IRIT
Les bases de la modélisation Primitives simples et CSG.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Période de formation en entreprise
Les différents modèles
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Du discours aux modèles… Une tentative d’articulation
Module : Langage XML (21h)
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Automate pour sites web Yannick Bensacq Stage Uranie 2005.
Réunion GafoDonnées: Equipe SIG/IRIT 24/25 janvier 2002
Le Traitement Automatique des Langues (TAL)
Savoirs disciplinaires et Manipulations
Dans l’axe Systèmes Sociotechniques Ambiants
Video.
Séries chronologiques univariées (STT-6615)
2ème partie Son et musique..
Acoustique musicale.
Présentation par Brigitte Auclair Collège Montmorency
Les ondes.
Au cœur des réalités éducatives.... LPP de SAINT HENRI - 37, Chemin de Bernex Marseille - LPP de SAINT HENRI - 37, Chemin de Bernex Marseille.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Transcription de la présentation:

Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118, route de Narbonne – Toulouse Cedex 04, France Tél. : ++33 (0) – Fax : ++33 (0) – Web : Bruit de voiture, explosion Musique faibleInsertions - Voix faible ou forte, parole téléphonique Omissions 93 %95 %Accuracy (2) 91 %86 %Délai < 20 cs (1) MusiqueParole Résultats 1ère exp. Résultats 2ème exp. Parole Délai < 20 cs (1) 96 % Accuracy (2) 99,5 % (1)1) Mesure des délais entre frontières manuelles et automatiques (2)2) Accuracy = (durée corpus test – durée insertions – durée omissions ) / (durée corpus test ) Ces travaux traitent de l'indexation de la bande sonore de documents audiovisuels : le but est la détection des composantes Parole et/ou Musique. L’originalité réside dans la modélisation différenciée des composantes recherchées. Il s’agit en effet de caractériser au mieux de façon indépendante la parole et la musique afin de faire une séparation de type Classe / NonClasse. Ainsi, chacune des classes est définie par son espace de représentation et son ensemble de modèles (MMG). Des expérimentations sont conduites sur un corpus de l’INA (films, reportages sportifs et extraits de journaux télévisés). Les premiers résultats sont très satisfaisants compte tenu de la nature du corpus et du volume restreint de données en apprentissage. Résumé  Indexation : à partir du signal, recherche d’informations servant à caractériser le document.  Recherche des composantes Parole et Musique.  Système d’indexation basé sur la modélisation différenciée.  Mise en œuvre à partir de Modèles de Mélanges de Gaussiennes (MMG). Introduction L’apprentissage des MMGs  But : trouver les composantes Parole et Musique de façon indépendante.  Moyen : en caractérisant au mieux chacune des classes  Parole : structure formantique  Musique : structure harmonique  1 classe = {Espace de représentation, Modèle Classe, Modèle NonClasse} La modélisation différenciée Schéma du système d’indexation  Apprentissage : 60 mn  Test : 20 mn de film disjointes de l’apprentissage (nouveau locuteur, nouvelle musique, parole téléphonique non représenté en apprentissage)  Corpus  Episode de « Chapeau melon et bottes de cuir » + commentaires en direct de patinage  Durée totale : 80 mn  Composition : parole pure, musique pure et zones « mixtes »  Parole : téléphonique, extérieure, foule, …  Musique : cordes, vents, basses, batterie, …  Locuteurs : environ 10 (hommes et femmes)  Modèles : Parole Pure / NonParole et Musique Pure / Non Musique 1ère Expérience  Corpus  Journaux télévisés sportifs  Durée totale : 34 mn  Composition : parole pure et parole très bruitée  Apprentissage : 14 mn  Test : 20 mn  Modèles : Parole Audible / NonParole 2ème Expérience (a) Etiquetage manuel (b) Indexation Parole / NonParole (P / NP) (c) Indexation Musique / NonMusique (M / NM) (d) Fusion des indexations Parole / NonParole et Musique/NonMusique (P, M, P&M, -) Exemple d’indexation