Présentation RFIA janvier 2002

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

Apprentissage spectral
Indexation Parole / Musique / Bruit
La Cyclostationnarité Aspects théoriques et application au Diagnostic
RECONNAISSANCE DE FORMES
Recent Advances in the Automatic Recognition of Audiovisual Speech
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Reconnaissance Automatique de la Parole
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Mesures dans le domaine fréquentiel
Indexation vidéo Indexation multimédia
Application de réseaux bayésiens à la détection de fumées polluantes
INTRODUCTION 1. Une représentation du signal où le bruit est isolé
Colloque GRETSI, Paris, 8-11 septembre 2003 Sur la Décomposition Modale Empirique P. Flandrin (Cnrs - Éns Lyon) et P. Gonçalvès (Inrialpes)
3. Analyse et estimation du mouvement dans la vidéo
Piecewise Affine Registration of Biological Images
Indexation textuelle : Systèmes de recherche d’informations
SON COMPLEXE - SPECTRE Le son pur est un modèle mathématique (sinusoïde…) Un son complexe peut être décomposé en une sommes de sinusoïdes (Théorème de.
Directeur de thèse : Régine André-Obrecht
Analyse et diagnostic Développement d’Outils
Modélisation des systèmes non linéaires par des SIFs
Reconnaissance de la parole
Classification Multi Source En Intégrant La Texture
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Décodage des informations
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Traitement du signal TD0 : Introduction.
Reconnaissance de Yes/No à l’aide du HTK
Construction de modèles visuels
Le cahier de charge d'un système de RAP
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Reconnaissance Vocale
Modélisation de la topologie avec le Graphe Génératif Gaussien
Sylvain Daudé DEA ATIAM
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Université d’Avignon et du pays du Vaucluse
Classification automatique de textes
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Reconnaissance automatique de la parole
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
TNS et Analyse Spectrale
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
Présenté par Mathieu Almeida, Amine Ghozlane
Knowledge discovery in Databases (KDD)
Méthode des moindres carrés (1)
Reconnaissance de Yes/No à l’aide du HTK Adapté d’un tutoriel du HTK par Nicolas Moreau.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
Le Traitement Automatique des Langues (TAL)
Dans l’axe Systèmes Sociotechniques Ambiants
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
I Qu’est ce que le son? Éléments de M.A.O. – support de cours
14/10/2004 Parcours et unités d’enseignement du domaine : Signal et Images Isabelle Bloch, Bertrand David, Yves Grenier.
la reconnaissance de visages
Algorithmes d’analyse spectrale en spectrométrie gamma embarquée
François Léonard Modélisation de la distribution multidimensionnelle des erreurs : Les nuages de données bruitées sont creux Février 2016.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Transcription de la présentation:

Présentation RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique Julien PINQUIER, Christine SENAC, Régine ANDRE-OBRECHT Équipe ART.ps (Analyse, Reconnaissance et Traitement automatique de la parole et des sons) Institut de Recherche en Informatique de Toulouse Présentation RFIA 2002 - 8 janvier 2002

Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Introduction Importance de l’indexation Accroissement du volume des données numériques Description du contenu (« norme » ISO_MPEG7) Analogie avec la recherche textuelle Méthodes actuelles d’indexation : manuelles Réduire le temps de recherche Bande sonore souvent très complexe Discrimination entre parole et musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Moteur d’indexation et de recherche Introduction Le Projet de recherche : AGIR (RNRT) Signatures multimédia Application et validation Signatures images Moteur d’indexation et de recherche Documents multimédia Signatures vidéo Signatures texte Signatures son Signatures son Objectifs Caractérisation : Parole / Musique Un système d’indexation basé sur la modélisation différenciée Approche statistique (Modèles de Mélanges de lois Gaussiennes) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

La modélisation différenciée Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

La modélisation différenciée Musique Structure harmonique Harmoniques RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

La modélisation différenciée Paramètres Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] Mixtes : modulation de l’énergie à 4 Hz [Scheirer97] représente le rythme syllabique Issus de modélisation : MFCC [Foote97] musique parole Classification Fonctions à seuils Approche statistique Méthodes paramétriques : mélanges de gaussiennes, MMC Méthodes non paramétriques : k plus proches voisins... Réseaux de neurones RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Le système Décomposition Parole / Musique Modélisation Différenciée 1 classe = {Espace de représentation, Modèle} Description du système Pré traitement Signal Décision Classification 2 systèmes : parole et musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Le pré traitement Parole : analyse cepstrale MFCC (18 coefficients par vecteur d’observation) Soustraction cepstrale Coefficients Signal Cepstraux Accentuation Fenêtrage FFT Filtrage+Mel Log FFT -1 Musique : analyse spectrale SPL (29 coefficients par vecteur d’observation) Accentuation Fenêtrage FFT Filtrage Coefficients Signal Spectraux RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Reconnaissance Méthode de classification Approche statistique Classe 2 modèles NonClasse MMG Maximum de vraisemblance (vecteur observation - modèles) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Exemple de classification Parole / NonParole La reconnaissance Classification Fenêtre d’analyse (256 ou 512 points) Exemple de classification Parole / NonParole RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

La reconnaissance Assemblage RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

La reconnaissance 1er Lissage (20 ms) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

La reconnaissance 2ème Lissage (indexation) Parole (environ 400 ms) et musique (environ 2 s) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

La reconnaissance RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Le système Apprentissage Modèles Signal Décision Pré traitement Classification RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

L’apprentissage des MMG (supervisé) Étiquetage manuel Transcriber (C. Barras) http://www.etca.fr/CTA/gip/Projets/Transcriber/ Affectation des paramètres 3 fichiers labels  fichiers de paramètres RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

L’apprentissage des MMG Initialisation des modèles : algorithme VQ Représenter les éléments d’une classe par son centroïde Optimisation des paramètres : algorithme EM Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par la loi gaussienne k. Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

L’apprentissage des MMG Pré traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) (NonParole) VQ EM ModèleParole (Musique) (NonMusique) 29 Coeff. Spectraux 16 lois gaussiennes 32 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Réalisations et expériences Première expérience Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir » durée totale : 50mn composition : parole pure, musique pure et zones « mixtes » parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures… musique : cordes, vents, basses, guitare électrique, batterie … locuteurs : 4 hommes + 1 femme Apprentissage durée : 35mn composante parole : zone parole pure + non parole composante musique : zone musique pure + non musique Reconnaissance 15mn différentes de celles de l’apprentissage RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Réalisations et expériences Résultats Calcul des délais (frontières automatiques / manuelles) Omissions et insertions Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test . 86 % 91 % L’accuracy est de 95 % pour la parole et de 93 % pour la musique. RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Réalisations et expériences Exemple d’indexation automatique Omission Délai 70 cs Lissage Problème la parole superposée au bruit et / ou à la musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Réalisations et expériences Deuxième expérience Corpus Journaux télévisés sportifs : 34mn environ Apprentissage : 14mn Reconnaissance : 20mn Résultats (465 segments) 96 % L’accuracy est excellente : 99,5 %. Evolution nécessaire adapter les modèles à n’importe quelle source apprentissage volumineux et diversifié RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique

Conclusion et perspectives Résultats excellents Intérêt de la modélisation différenciée Perspectives Adaptation des modèles à des corpus différents Etude de la durée Indexation multimédia basée sur la fusion audio / vidéo Détection locuteurs, mots clés et jingles RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique