Indexation Parole / Musique / Bruit

Slides:



Advertisements
Présentations similaires
Le moteur
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Distance inter-locuteur
Mon carnet De comportement
M1 MASTER GESTION Séance 3 Pilotage coûts- délais
Licence 2 Option de découverte (1L4INJM) APPLICATIONS INFORMATIQUES POUR LINTERACTION HOMME-ROBOT Responsable : Julien PINQUIER
La Cyclostationnarité Aspects théoriques et application au Diagnostic
Analyse temps-fréquence
Classe : …………… Nom : …………………………………… Date : ………………..
RECONNAISSANCE DE FORMES
Reconnaissance de la parole
THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Caractérisation de la qualité sonore de lenvironnement urbain : Une approche physique et perceptive basée sur lidentification des sources sonores.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Sud Ouest Est Nord Individuel 36 joueurs
ACTIVITES Le calcul littéral (3).
Les Prepositions.
JXDVDTEK – Une DVDthèque en Java et XML
Validation de la marée dans le modèle HYCOM du Golfe Normand-BretonLPG – 30/11/ Validation de la marée dans le modèle HYCOM du Golfe Normand-Breton.
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
Directeur de thèse : Régine André-Obrecht
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Formation au module Structure de ZENTO
Monique THONNAT et Nathanaël ROTA Projet ORION
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Titre : Implémentation des éléments finis sous Matlab
Construction de modèles visuels
CLASSIFICATION DES SONS, “COMMENT CA MARCHE ?”
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
La Saint-Valentin Par Matt Maxwell.
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
Reconnaissance Vocale
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
Modélisation de la topologie avec le Graphe Génératif Gaussien
Notre calendrier français MARS 2014
3ème partie: les filtres
C'est pour bientôt.....
Veuillez trouver ci-joint
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
SUJET D’ENTRAINEMENT n°4
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
CALENDRIER-PLAYBOY 2020.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Les Chiffres Prêts?
Relevez le numéro de votre logo préféré et adressez-le à : En cas d’hésitation, vous pouvez choisir jusqu’à 3 logos. Seront pris.
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Présentation RFIA janvier 2002
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Transcription de la présentation:

Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche en Informatique de Toulouse Soutenance DEA 2IL - 27 juin 2001

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Cadre de l’étude Importance de l’indexation Accroissement du volume des données numériques Description du contenu (« norme » ISO_MPEG7) Analogie avec la recherche textuelle Méthodes actuelles d’indexation : manuelles Réduire le temps de recherche Bande sonore souvent très complexe Discrimination entre parole et musique Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Cadre de l’étude Le Projet de recherche : AGIR (RNRT) Documents Signatures multimédia Application et validation Signatures images Moteur d’indexation et de recherche Documents multimédia Signatures vidéo Signatures texte Signatures son Signatures son Le sujet de DEA Caractérisation : Parole / Musique Un système d’indexation basé sur la modélisation différenciée Approche statistique (Modèles de Mélanges de lois Gaussiennes) Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Etat de l’art Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Etat de l’art Musique Structure harmonique Harmoniques Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Etat de l ’art Paramètres Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] Mixtes : modulation de l’énergie à 4 Hz [Scheirer97] représente le rythme syllabique Issus de modélisation : MFCC [Foote97] musique parole Classification Fonctions à seuils Approche statistique Méthodes paramétriques : mélanges de gaussiennes, MMC Méthodes non paramétriques : k plus proches voisins... Réseaux de neurones Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Le système Décomposition Parole / Musique Modélisation Différenciée 1 classe = {Espace de représentation, Modèle} Description du système Signal Décision Pré traitement Classification 2 systèmes : parole et musique Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Le pré traitement Parole : analyse cepstrale MFCC (18 coefficients par vecteur d’observation) Soustraction cepstrale Coefficients Signal Cepstraux Accentuation Fenêtrage FFT Filtrage+Mel Log FFT -1 Musique : analyse spectrale SPL (29 coefficients par vecteur d’observation) Signal Coefficients Accentuation Fenêtrage FFT Filtrage Spectraux Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Reconnaissance Méthode de classification Approche statistique Classe 2 modèles NonClasse MMG Maximum de vraisemblance (vecteur observation - modèles) Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

La reconnaissance Classification Fenêtre d’analyse (256 ou 512 points) Exemple de classification Parole / NonParole Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit La reconnaissance Assemblage Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit La reconnaissance 1er Lissage (20 ms) Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit La reconnaissance 2ème Lissage (indexation) Parole (environ 400 ms) et musique (environ 2 s) Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit La reconnaissance Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Le système Apprentissage Modèles Signal Décision Pré traitement Classification Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

L’apprentissage des MMG (supervisé) Etiquetage manuel Transcriber (C. Barras) http://www.etca.fr/CTA/gip/Projets/Transcriber/ Affectation des paramètres 3 fichiers labels  fichiers de paramètres Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

L’apprentissage des GMM Initialisation des modèles : algorithme VQ Représenter les éléments d’une classe par son centroïde Optimisation des paramètres : algorithme EM Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par la loi gaussienne k. Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

L’apprentissage des GMM 32 lois gaussiennes Parole Etiquetage manuel (parole) Paramètres indicés (Parole) VQ EM Affectation Coeff. Cepstraux 18 NonParole Paramètres indicés (NonParole) VQ EM Signal MODELES Pré traitement Musique Paramètres indicés (Musique) 29 Coeff. spectraux VQ EM Affectation NonMusique Paramètres indicés (NonMusique) VQ EM Etiquetage manuel (musique) 16 lois gaussiennes Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Réalisations et expériences Première expérience Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir » durée totale : 50mn composition : parole pure, musique pure et zones « mixtes » parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures… musique : cordes, vents, basses, guitare électrique, batterie … locuteurs : 4 hommes + 1 femme Apprentissage durée : 35mn composante parole : zone parole pure + non parole composante musique : zone musique pure + non musique Reconnaissance 15mn différentes de celles de l’apprentissage Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Réalisations et expériences Résultats Calcul des délais (frontières automatiques / manuelles) Omissions et insertions Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test . 86 % 91 % L’accuracy est de 95 % pour la parole et de 93 % pour la musique. Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Réalisations et expériences Exemple d’indexation automatique Omission Délai 70 cs Lissage Problème la parole superposée au bruit et / ou à la musique Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Réalisations et expériences Deuxième expérience Corpus Journaux télévisés sportifs : 34mn environ Apprentissage : 14mn Reconnaissance : 20mn Résultats (465 segments) 96 % L’accuracy est excellente : 99,5 %. Evolution nécessaire adapter les modèles à n’importe quelle source apprentissage volumineux et diversifié Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit

Conclusion et perspectives Résultats excellents, validation de la modélisation différenciée Intérêt du stage : de la recherche à l’intégration Perspectives Adaptation des modèles à des corpus différents Indexation multimédia basée sur la fusion audio / vidéo Reconnaissance du locuteur Détection mots clés, jingles Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit