La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Indexation Parole / Musique / Bruit

Présentations similaires


Présentation au sujet: "Indexation Parole / Musique / Bruit"— Transcription de la présentation:

1 Indexation Parole / Musique / Bruit
Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche en Informatique de Toulouse Soutenance DEA 2IL juin 2001

2 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

3 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

4 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Cadre de l’étude Importance de l’indexation Accroissement du volume des données numériques Description du contenu (« norme » ISO_MPEG7) Analogie avec la recherche textuelle Méthodes actuelles d’indexation : manuelles Réduire le temps de recherche Bande sonore souvent très complexe Discrimination entre parole et musique Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

5 Cadre de l’étude Le Projet de recherche : AGIR (RNRT) Documents
Signatures multimédia Application et validation Signatures images Moteur d’indexation et de recherche Documents multimédia Signatures vidéo Signatures texte Signatures son Signatures son Le sujet de DEA Caractérisation : Parole / Musique Un système d’indexation basé sur la modélisation différenciée Approche statistique (Modèles de Mélanges de lois Gaussiennes) Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

6 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

7 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l’art Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal Formants Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

8 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l’art Musique Structure harmonique Harmoniques Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

9 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l ’art Paramètres Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] Mixtes : modulation de l’énergie à 4 Hz [Scheirer97] représente le rythme syllabique Issus de modélisation : MFCC [Foote97] musique parole Classification Fonctions à seuils Approche statistique Méthodes paramétriques : mélanges de gaussiennes, MMC Méthodes non paramétriques : k plus proches voisins... Réseaux de neurones Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

10 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

11 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le système Décomposition Parole / Musique Modélisation Différenciée 1 classe = {Espace de représentation, Modèle} Description du système Signal Décision Pré traitement Classification 2 systèmes : parole et musique Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

12 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le pré traitement Parole : analyse cepstrale MFCC (18 coefficients par vecteur d’observation) Soustraction cepstrale Coefficients Signal Cepstraux Accentuation Fenêtrage FFT Filtrage+Mel Log FFT -1 Musique : analyse spectrale SPL (29 coefficients par vecteur d’observation) Signal Coefficients Accentuation Fenêtrage FFT Filtrage Spectraux Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

13 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Reconnaissance Méthode de classification Approche statistique Classe 2 modèles NonClasse MMG Maximum de vraisemblance (vecteur observation - modèles) Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

14 La reconnaissance Classification Fenêtre d’analyse (256 ou 512 points)
Exemple de classification Parole / NonParole Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

15 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance Assemblage Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

16 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance 1er Lissage (20 ms) Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

17 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance 2ème Lissage (indexation) Parole (environ 400 ms) et musique (environ 2 s) Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

18 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

19 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le système Apprentissage Modèles Signal Décision Pré traitement Classification Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

20 L’apprentissage des MMG (supervisé)
Etiquetage manuel Transcriber (C. Barras) Affectation des paramètres 3 fichiers labels  fichiers de paramètres Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

21 L’apprentissage des GMM
Initialisation des modèles : algorithme VQ Représenter les éléments d’une classe par son centroïde Optimisation des paramètres : algorithme EM Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par la loi gaussienne k. Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

22 L’apprentissage des GMM
32 lois gaussiennes Parole Etiquetage manuel (parole) Paramètres indicés (Parole) VQ EM Affectation Coeff. Cepstraux 18 NonParole Paramètres indicés (NonParole) VQ EM Signal MODELES Pré traitement Musique Paramètres indicés (Musique) 29 Coeff. spectraux VQ EM Affectation NonMusique Paramètres indicés (NonMusique) VQ EM Etiquetage manuel (musique) 16 lois gaussiennes Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

23 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

24 Réalisations et expériences
Première expérience Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir » durée totale : 50mn composition : parole pure, musique pure et zones « mixtes » parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures… musique : cordes, vents, basses, guitare électrique, batterie … locuteurs : 4 hommes + 1 femme Apprentissage durée : 35mn composante parole : zone parole pure + non parole composante musique : zone musique pure + non musique Reconnaissance 15mn différentes de celles de l’apprentissage Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

25 Réalisations et expériences
Résultats Calcul des délais (frontières automatiques / manuelles) Omissions et insertions Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test . 86 % 91 % L’accuracy est de 95 % pour la parole et de 93 % pour la musique. Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

26 Réalisations et expériences
Exemple d’indexation automatique Omission Délai 70 cs Lissage Problème la parole superposée au bruit et / ou à la musique Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

27 Réalisations et expériences
Deuxième expérience Corpus Journaux télévisés sportifs : 34mn environ Apprentissage : 14mn Reconnaissance : 20mn Résultats (465 segments) 96 % L’accuracy est excellente : 99,5 %. Evolution nécessaire adapter les modèles à n’importe quelle source apprentissage volumineux et diversifié Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

28 Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan Cadre de l’étude Etat de l’art Le système Réalisations et expériences Conclusion et perspectives Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit

29 Conclusion et perspectives
Résultats excellents, validation de la modélisation différenciée Intérêt du stage : de la recherche à l’intégration Perspectives Adaptation des modèles à des corpus différents Indexation multimédia basée sur la fusion audio / vidéo Reconnaissance du locuteur Détection mots clés, jingles Soutenance DEA 2IL juin Indexation Parole / Musique / Bruit


Télécharger ppt "Indexation Parole / Musique / Bruit"

Présentations similaires


Annonces Google