Présentation RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique Julien PINQUIER, Christine SENAC, Régine ANDRE-OBRECHT Équipe ART.ps (Analyse, Reconnaissance et Traitement automatique de la parole et des sons) Institut de Recherche en Informatique de Toulouse Présentation RFIA 2002 - 8 janvier 2002
Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Introduction Importance de l’indexation Accroissement du volume des données numériques Description du contenu (« norme » ISO_MPEG7) Analogie avec la recherche textuelle Méthodes actuelles d’indexation : manuelles Réduire le temps de recherche Bande sonore souvent très complexe Discrimination entre parole et musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Moteur d’indexation et de recherche Introduction Le Projet de recherche : AGIR (RNRT) Signatures multimédia Application et validation Signatures images Moteur d’indexation et de recherche Documents multimédia Signatures vidéo Signatures texte Signatures son Signatures son Objectifs Caractérisation : Parole / Musique Un système d’indexation basé sur la modélisation différenciée Approche statistique (Modèles de Mélanges de lois Gaussiennes) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
La modélisation différenciée Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
La modélisation différenciée Musique Structure harmonique Harmoniques RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
La modélisation différenciée Paramètres Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] Mixtes : modulation de l’énergie à 4 Hz [Scheirer97] représente le rythme syllabique Issus de modélisation : MFCC [Foote97] musique parole Classification Fonctions à seuils Approche statistique Méthodes paramétriques : mélanges de gaussiennes, MMC Méthodes non paramétriques : k plus proches voisins... Réseaux de neurones RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Le système Décomposition Parole / Musique Modélisation Différenciée 1 classe = {Espace de représentation, Modèle} Description du système Pré traitement Signal Décision Classification 2 systèmes : parole et musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Le pré traitement Parole : analyse cepstrale MFCC (18 coefficients par vecteur d’observation) Soustraction cepstrale Coefficients Signal Cepstraux Accentuation Fenêtrage FFT Filtrage+Mel Log FFT -1 Musique : analyse spectrale SPL (29 coefficients par vecteur d’observation) Accentuation Fenêtrage FFT Filtrage Coefficients Signal Spectraux RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Reconnaissance Méthode de classification Approche statistique Classe 2 modèles NonClasse MMG Maximum de vraisemblance (vecteur observation - modèles) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Exemple de classification Parole / NonParole La reconnaissance Classification Fenêtre d’analyse (256 ou 512 points) Exemple de classification Parole / NonParole RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
La reconnaissance Assemblage RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
La reconnaissance 1er Lissage (20 ms) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
La reconnaissance 2ème Lissage (indexation) Parole (environ 400 ms) et musique (environ 2 s) RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
La reconnaissance RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Le système Apprentissage Modèles Signal Décision Pré traitement Classification RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
L’apprentissage des MMG (supervisé) Étiquetage manuel Transcriber (C. Barras) http://www.etca.fr/CTA/gip/Projets/Transcriber/ Affectation des paramètres 3 fichiers labels fichiers de paramètres RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
L’apprentissage des MMG Initialisation des modèles : algorithme VQ Représenter les éléments d’une classe par son centroïde Optimisation des paramètres : algorithme EM Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par la loi gaussienne k. Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
L’apprentissage des MMG Pré traitement acoustique SIGNAL Étiquetage manuel (parole) Affectation Paramètres indicés (Parole) (NonParole) VQ EM ModèleParole (Musique) (NonMusique) 29 Coeff. Spectraux 16 lois gaussiennes 32 lois gaussiennes Étiquetage manuel (musique) Coeff. Cepstraux 18 Modèle NonParole Modèle Musique Modèle NonMusique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Réalisations et expériences Première expérience Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir » durée totale : 50mn composition : parole pure, musique pure et zones « mixtes » parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures… musique : cordes, vents, basses, guitare électrique, batterie … locuteurs : 4 hommes + 1 femme Apprentissage durée : 35mn composante parole : zone parole pure + non parole composante musique : zone musique pure + non musique Reconnaissance 15mn différentes de celles de l’apprentissage RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Réalisations et expériences Résultats Calcul des délais (frontières automatiques / manuelles) Omissions et insertions Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test . 86 % 91 % L’accuracy est de 95 % pour la parole et de 93 % pour la musique. RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Réalisations et expériences Exemple d’indexation automatique Omission Délai 70 cs Lissage Problème la parole superposée au bruit et / ou à la musique RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Réalisations et expériences Deuxième expérience Corpus Journaux télévisés sportifs : 34mn environ Apprentissage : 14mn Reconnaissance : 20mn Résultats (465 segments) 96 % L’accuracy est excellente : 99,5 %. Evolution nécessaire adapter les modèles à n’importe quelle source apprentissage volumineux et diversifié RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Plan Introduction La modélisation différenciée Le système Réalisations et expériences Conclusion et perspectives RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique
Conclusion et perspectives Résultats excellents Intérêt de la modélisation différenciée Perspectives Adaptation des modèles à des corpus différents Etude de la durée Indexation multimédia basée sur la fusion audio / vidéo Détection locuteurs, mots clés et jingles RFIA 2002 - 8 janvier 2002 Indexation de la bande sonore : recherche des composantes Parole et Musique