La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche.

Présentations similaires


Présentation au sujet: "Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche."— Transcription de la présentation:

1 Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche en Informatique de Toulouse Soutenance DEA 2IL - 27 juin 2001

2 2 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Plan Cadre de létude Etat de lart Le système Réalisations et expériences Conclusion et perspectives

3 3 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Plan Cadre de létude Etat de lart Le système Réalisations et expériences Conclusion et perspectives

4 4 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Cadre de létude Importance de lindexation Accroissement du volume des données numériques Description du contenu (« norme » ISO_MPEG7) Analogie avec la recherche textuelle Méthodes actuelles dindexation : manuelles Réduire le temps de recherche Bande sonore souvent très complexe Discrimination entre parole et musique

5 5 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Signatures multimédia Application et validation Signatures images Signatures vidéo Signatures texte Signatures son Moteur dindexation et de recherche Signatures son Documents multimédia Cadre de létude Le Projet de recherche : AGIR (RNRT) Le sujet de DEA Caractérisation : Parole / Musique Un système dindexation basé sur la modélisation différenciée Approche statistique (Modèles de Mélanges de lois Gaussiennes)

6 6 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Plan Cadre de létude Etat de lart Le système Réalisations et expériences Conclusion et perspectives

7 7 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Etat de lart Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants

8 8 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Etat de lart Musique Structure harmonique Harmoniques

9 9 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Etat de l art Paramètres Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] Mixtes : modulation de lénergie à 4 Hz [Scheirer97] représente le rythme syllabique Issus de modélisation : MFCC [Foote97] Classification Fonctions à seuils Approche statistique Méthodes paramétriques : mélanges de gaussiennes, MMC Méthodes non paramétriques : k plus proches voisins... Réseaux de neurones musique parole

10 10 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Plan Cadre de létude Etat de lart Le système Réalisations et expériences Conclusion et perspectives

11 11 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Le système Pré traitement SignalDécision Classification Modélisation Différenciée 1 classe = {Espace de représentation, Modèle} Décomposition Parole / Musique Description du système 2 systèmes : parole et musique

12 12 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Le pré traitement Parole : analyse cepstrale MFCC (18 coefficients par vecteur dobservation) Soustraction cepstrale Musique : analyse spectrale SPL (29 coefficients par vecteur dobservation) AccentuationFenêtrageFFTFiltrage+MelLogFFT -1 Coefficients Signal Cepstraux AccentuationFenêtrageFFTFiltrage Coefficients Signal Spectraux

13 13 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Reconnaissance Méthode de classification Approche statistique Classe 2 modèles NonClasse MMG Maximum de vraisemblance (vecteur observation - modèles)

14 14 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit La reconnaissance Classification Fenêtre danalyse (256 ou 512 points) Exemple de classification Parole / NonParole

15 15 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit La reconnaissance Assemblage

16 16 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit La reconnaissance 1er Lissage (20 ms)

17 17 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit La reconnaissance 2ème Lissage (indexation) Parole (environ 400 ms) et musique (environ 2 s)

18 18 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit La reconnaissance

19 19 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Le système Pré traitement SignalDécision Classification Modèles Apprentissage

20 20 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Lapprentissage des MMG (supervisé) Etiquetage manuel Transcriber (C. Barras) Affectation des paramètres 3 fichiers labels fichiers de paramètres

21 21 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Lapprentissage des GMM Initialisation des modèles : algorithme VQ Représenter les éléments dune classe par son centroïde Optimisation des paramètres : algorithme EM Estimation : calcul des probabilités P nk que le vecteur y n soit généré par la loi gaussienne k. Maximisation : Ré-estimation des paramètres k, m k et k à partir des probabilités P nk

22 22 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Lapprentissage des GMM Pré traitement Signal Coeff. Cepstraux 18 Etiquetage manuel (parole) Affectation Paramètres indicés (Parole) Paramètres indicés (NonParole) VQEM VQEM Parole NonParole Affectation Paramètres indicés (Musique) Paramètres indicés (NonMusique) VQEM VQEM Musique NonMusique 29 Coeff. spectraux MODELES 16 lois gaussiennes 32 lois gaussiennes Etiquetage manuel (musique)

23 23 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Plan Cadre de létude Etat de lart Le système Réalisations et expériences Conclusion et perspectives

24 24 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Réalisations et expériences Première expérience Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir » durée totale : 50mn composition : parole pure, musique pure et zones « mixtes » parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures… musique : cordes, vents, basses, guitare électrique, batterie … locuteurs : 4 hommes + 1 femme Apprentissage durée : 35mn composante parole : zone parole pure + non parole composante musique : zone musique pure + non musique Reconnaissance 15mn différentes de celles de lapprentissage

25 25 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Réalisations et expériences Laccuracy est de 95 % pour la parole et de 93 % pour la musique. 86 % 91 % Résultats Calcul des délais (frontières automatiques / manuelles) Omissions et insertions Calcul de laccuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test.

26 26 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Réalisations et expériences Exemple dindexation automatique Problème la parole superposée au bruit et / ou à la musique Délai 70 cs Lissage Omission

27 27 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Réalisations et expériences Deuxième expérience Corpus Journaux télévisés sportifs : 34mn environ Apprentissage : 14mn Reconnaissance : 20mn Résultats (465 segments) 96 % Laccuracy est excellente : 99,5 %. Evolution nécessaire adapter les modèles à nimporte quelle source apprentissage volumineux et diversifié

28 28 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Plan Cadre de létude Etat de lart Le système Réalisations et expériences Conclusion et perspectives

29 29 Soutenance DEA 2IL - 27 juin 2001Indexation Parole / Musique / Bruit Conclusion et perspectives Conclusion Résultats excellents, validation de la modélisation différenciée Intérêt du stage : de la recherche à lintégration Perspectives Adaptation des modèles à des corpus différents Indexation multimédia basée sur la fusion audio / vidéo Reconnaissance du locuteur Détection mots clés, jingles


Télécharger ppt "Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche."

Présentations similaires


Annonces Google