Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

STATISTIQUE INFERENTIELLE L ’ESTIMATION
Indexation Parole / Musique / Bruit
La Cyclostationnarité Aspects théoriques et application au Diagnostic
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la.
Comparaison de deux moyennes observées
Inférence statistique
Les TESTS STATISTIQUES
En quoi consiste la modulation d’amplitude ?
Les TESTS STATISTIQUES
Colloque GRETSI, Paris, 8-11 septembre 2003 Sur la Décomposition Modale Empirique P. Flandrin (Cnrs - Éns Lyon) et P. Gonçalvès (Inrialpes)
3. Analyse et estimation du mouvement dans la vidéo
L’Eau changements d’état et dissolution
Régression -corrélation
Reconnaissance de la parole
Hésitations autonomes en 8 langues :
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Nombre de sujets nécessaires en recherche clinique
DEA Perception et Traitement de l’Information
Correction des Systèmes
Signaux aléatoires.
Reconnaissance Vocale
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
PROBABILITÉS.
MODULATION D’AMPLITUDE
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Détection de contours automatique et application aux images réelles
Processus de Poisson UQAM, Actuariat 3.
OBSERVER : Ondes et matières Chapitre 2 : Caractéristiques des ondes
Etude des critères de performance : Pour une consigne d’entrée
Rencontre sur la Recherche en Informatique R 2 I Juin 2011, Tizi Ouzou, Algérie Soumia Benbakreti 1 Pr.Mohammed Benyettou 1 Pr.Hubert Cardot 2 1.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Chapitre 3-B : AUTOMATIQUE : LES S.L.C.I.
Traitement des fichiers flux d’individus (mobilité) de L’INSEE à l’aide du portail SIDDT.
T8.1 Organisation du chapitre
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
Résultats (2) Si l'on compare les résultats obtenus pour les classes où l'on ne prend pas en compte le voisement (ensembles #C2, #C3, #C4, #C5) à ceux.
Chimiometrie (Chemometrics)
Rappels de statistiques descriptives
Traitement de la parole : Synthèse et reconnaissance
PRINCIPE DES TESTS D’HYPOTHÈSE
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Analyse spectrale Raphaël ARROUAS Etienne OUSS
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Vers une loi à densité. Masse en gEffectifFréquence % [600,800[1162,32 [800,900[3957,9 [900,1000[91818,36 [1000,1100[124824,96 [1100,1200[121824,36 [1200,1300[71514,3.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
TNS et Analyse Spectrale
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
La prosodie pour l’Identification Automatique des Langues
Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.
Principales distributions théoriques
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
Rappels sur les fonctions et les suites aléatoires
Video.
Séries chronologiques univariées (STT-6615)
Validation d’une méthode d’analyse
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les composantes parole et musique. Trois nouveaux paramètres sont extraits : la modulation de l’entropie, la durée des segments (issue d’une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l’énergie à 4 Hz. Une première expérience, effectuée sur un corpus de parole lue et de diverses sortes de musique, permet de montrer l’intérêt de chacun des paramètres par sa distribution. Ensuite, un deuxième corpus est utilisé afin de vérifier la robustesse des paramètres et du système de fusion proposé. Cette expérience, réalisée avec un épisode d’une série télévisuelle, donne un taux d’identification correcte supérieur à 90 %. Résumé Les expériences décrites dans cet article sont effectuées sur le même corpus que celui utilisé lors de notre précédente approche employant la modélisation différenciée. L’avantage principal de cette nouvelle méthode est qu’elle ne requiert aucun étiquetage. En effet, aucune intervention, que ce soit manuelle ou automatique, n’est nécessaire : il n’y a plus de phase d’apprentissage et/ou d’adaptation des modèles comme c’est le cas avec les Modèles de Mélanges de Gaussiennes (GMM). En utilisant une méthode d’évaluation identique, la méthode basée sur la modélisation différenciée donne un taux de classification correcte légèrement inférieur à 88 %. Le corpus de test (série TV) est assez difficile car la parole est présente sous diverses conditions, de pure à très bruitée. La qualité des résultats permet de montrer la robustesse de nos paramètres d’une part, mais aussi l’intérêt de notre approche quant à son utilisation sur n’importe quel type de document sonore. Conclusion Fusion de paramètres pour une classification automatique Parole / Musique robuste Fusion Le signal de parole possède un pic caractéristique de modulation en énergie autour de la fréquence syllabique 4 Hz. Modélisation de l’énergie à 4 Hz Les signaux de parole présentent une alternance de périodes de transition (voisées / non voisées) et de périodes de relative stabilité (les voyelles en général). Au niveau de la segmentation, cela se traduit par de nombreux changements. Nombre de segments La durée des segments a été modélisée à l’aide d’une loi gaussienne inverse (loi de Wald) paramétrée par μ et λ. Par définition, une variable aléatoire g suit une distribution inverse gaussienne si elle présente une fonction de densité de probabilité (pdf) de la forme : si g ≥ 0 et 0 sinon avec μ = valeur moyenne de g et μ 3 / λ = variance de g. Durée des segments 85,2 % 90,1 % (1) + (2) (1) + (2) + (3) 84,1 % 84,3 % 83,2 % 76,1 % (1) Modulation de l’énergie à 4 Hz (2) Modulation de l’entropie (3) Nombre de segments (4) Durée des segments Performances (identification correcte) Paramètres Julien PINQUIER, Jean-Luc ROUAS et Régine ANDRÉ-OBRECHT Institut de Recherche en Informatique de Toulouse UMR 5505 CNRS – INP – UPS, FRANCE 118, Route de Narbonne, Toulouse Cedex 04 {pinquier, rouas, Expérimentation  Corpus  Etude des distributions (2000 secondes pour chaque composante)  MULTEXT : corpus de parole lu, 5 langues européennes, 10 locuteurs, 20 kHz.  Extraits musicaux : rock au classique, 16 kHz.  Test : série TV, (20 minutes, 16 kHz, zones de chevauchement, zones bruitées.  Expériences  1 ère étape : Evaluation de chacun des 4 paramètres présentés (Cf. Tableau)  2 ème étape : algorithme de fusion La segmentation est issue de l’algorithme de “Divergence Forward- Backward” qui est basé sur une étude statistique du signal. En faisant l’hypothèse que le signal de parole est décrit par une suite de zones quasi-stationnaires, chacune est caractérisée par un modèle statistique, le modèle autorégressif gaussien. La méthode employée ici consiste à détecter les changements dans les valeurs des paramètres autorégressifs afin de segmenter le signal. Segmentation Signal Paramètres issus de la segmentation Des observations menées sur le signal et sur le spectrogramme font apparaître une structure plus ordonnée de la musique par rapport à la parole. Pour mesurer ce “désordre”, nous avons testé un paramètre basé sur l’entropie du signal. Modélisation de l’entropie