Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.

Slides:



Advertisements
Présentations similaires
Distance inter-locuteur
Advertisements

COMMON TECHNIQUES AND TECHNOLOGIES UNIT 09/ Avancement SYMPATEX T C O M M U N I C A T I O N S HOMSON-CSF Projet RNRT SYMPATEX 3 ème réunion.
CGA – M. SCILIEN – séance 4 Fondements d ’un nouveau modèle de coût : la méthode des « équivalences » Sommaire Introduction. Inadéquation parfois des deux.
SP1 : Transfert de technologie
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Eureka avril MAJORCALL – « Client Relation Management for Call Centers » Eurekâ Project !2990 Corebridge- -ENST-
SYstème de Messagerie Unifiée PArole et TEXte Revue de Projet RNRT Mardi 10 décembre 2002.
Reconnaissance du locuteur
Traitement automatique de la parole hiver
Reconnaissance de la parole
THALES COMMUNICATIONS Projet RNRT SYMPATEX 14 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 01 octobre 2002.
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.
Cours parole du 2 Mars 2005 enseignants: Dr
Interactions langagières et parolières dans une société de l’information Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS.
THALES COMMUNICATIONS Projet RNRT SYMPATEX 11 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 13 juin Avril 2002.
Reconnaissance Automatique de la Parole
L&H Confidential Sympatex Codeur/Décodeur Harmonique plus bruit September 2000.
1 plan Besoins État de lart Assistant électronique unique pour la personne indépendante dans la maison intelligente Reconnaissance par unités segmentales.
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Cours parole du 2 Mars 2005 enseignants: Dr
La méthode expérimentale TD 2 - Licence Laure Fernandez
A Pyramid Approach to Subpixel Registration Based on Intensity
E-Motion Group © Olivier Aycard (E. Gaussier) Université Joseph Fourier Méthodes de classification.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Le remplacement moléculaire
Intervalle unitaire : 4h
Reconnaissance de la parole
Méthodes d’EPP en Médecine de ville AEU Lyon 25 janvier 2007 Patrick FROGER Bruno MEYRAND en collaboration avec Reinold RIGOLI.
Projet Technique Un PDA multimodal au service des situation de handicap… DESS HANDI Université Paris XIII Introduction & Disclaimer This presentation.
La voix IP : Mr.FERGOUGUI Boudouch Ali kmichou Ansar Atrassi Najoua
Caméras Infrarouge pour la reconnaissance du visage
PLC2 – Sciences physiques Directeur de mémoire : Philippe DURUISSEAU
Expériences contrôlées Quasi-expériences Études de cas
Application des algorithmes génétiques
Recherche d’un thème de projet Identification d’un besoin
Adaptation et intégration d'un module du Langage Parlé Complété (LPC) dans l'agent conversationnel Greta Mohammed ZBAKH Encadré par Mme. Hela DAASSI M.
Décodage des informations
UE : 3.4. S4 Initiation à la démarche de recherche
Reconnaissance Vocale
Thème 8 : l'observation et l'expérimentation
La méthodologie expérimentale Fondements et bases d’application
La méthodologie expérimentale Fondements et bases d’application
La méthodologie expérimentale Fondements et bases d’application
Expériences contrôlées Rappel du cours d’IHM
‘The Voice Company’ Du texte à la Parole
La résolution de problèmes grâce à la technologie de l'information
Les formats Débutant – Semaine 4.
En-tête: Ne pas modifier le style !
Apprendre à lire tout au long de la scolarité primaire
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Master 1 – Sciences du Langage –
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Traitement de la parole : Synthèse et reconnaissance
FILIERE HOTELLERIE RESTAURATION Comparatif BAC. PRO. C. S. R
1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.
Les Techniques d’enquête quantitative
VOUS PENSIEZ POUVOIR PROTÉGER VOS DONNÉES AVEC LE CHIFFREMENT D’OFFICE ? CRYPTANALYSE DE MICROSOFT OFFICE 2003.
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Organisation administrative
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.
Promouvoir la régulation de la compréhension: Effets sur la réussite dans un cours de méthodologie Serge Brédart et Jonathan Dedonder Département des sciences.
la reconnaissance de visages
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre 2001 Dijana Petrovska-Delacrétaz Gérard Chollet

PLAN 1 Introduction (motivations, objectifs, situation actuelle) 2 Codage indépendant du locuteur 3 Base de donées + protocole expérimentaux 4 Résultats 5 Conclusions

1.1 SYMPATEX : motivations générales Permet un codage à très bas débit Développement de nouveaux outils pour la recherche en phonétique Intègre le paradigme danalyse par la synthèse Applications en reconnaissance de la parole indépendante de la langue Identification de la langue Amélioration de la qualité de la parole transmise, débruitage

1.2 Objectifs SYMPATEX et situation actuelle compression dun message vocal, en diminuant le débit, en conservant l'intelligibilité, le naturel, l'identité du locuteur, et un espace memoire compatible avec les technologies actuelles; Cas du locuteur unique (dépendant du locuteur); Affranchissement de la dépendance au locuteur ;

1.3 Cas du locuteur unique Synthèse Synthèse LPC améliorée par la synthèse HNM On retient le principe de la synthèse par concaténation Questions ouvertes: quelles unités de synthèse choisir ? Comment concatener ces unités? Protocole d'évaluation pas comparable

2. Affranchissement de la dépendance au locuteur Comment resoudre ce problème ? Codage indépandant du locuteur (multi) Faire de la transformation de locuteur Codage indépandant du locuteur, et synthèse seulement avec des unités du locuteur le plus proche (multi-proche) Faire la reco multi-locuteur Choisir le locuteur le plus proche Choix des unités de synthèse appartenant a ce locuteur;

2.1 Codage indépendant du locuteur Entraîner le codeur avec suffisamment de données parole dun échantillon représentatif Tester avec un ensemble de locuteurs disjoints Experience de comparaison mono-multi: locuteur unique indépendant du locuteur

2.2 Base de données BREF Corpus français, textes lus, du journal « Le Monde » 120 locuteurs, env min de parole par loc. (texte différents, sauf phrases type a) 80 locuteurs pour lentraînement, 40 de développement et 20 de test Pour ces expériences, subdiviser les données en deux groupes ("male and female") On travaille pour commencer avec les locuteurs féminins ( 44 train et 10 test) Enregistrement qualité studio, échantillonné à 16kHz

2.3 Protocole expérimental pour mono-multi Rappel du paradygme codage par reco et synthèse: RECONNAISSANCE Entraînement des modèles HMM (des unités ALISP), avec données "train"; Faire la reco sur les données de test disjointes notées comme donées "test"; SYNTHESE Choix de l'ensemble des unités de synthèse Méthode de synthèse (LPC)

2.4 suite Partitionnement de BREF pour les exp. Mono-Multi: 44 locuteurs "multi-train" 1 locuteur pour les tests des experiences mono-multi Partitionner ces donnes en "mono-train" et "multi-mono-test" (notées "test") On peur recommencer avec un autre locuteur pour les tests ou experiences mono-multi On a les ensembles (disjoints) suivants : multi-train, multi-mono-test (test) et mono-train

2.5 suite protocole experimental Experiences mono-multi Multi-train = 44 locuteurs féminins, env. 44 heures de données parole Multi-mono-test = centaine de phrases du locuteur unique Mono-test = reste des données du locuteur unique

2.6 Nomencature des fichiers sons du locuteur j5f Locutuer j5f, et sa phrase 200 (courte) pour les tests Explication des noms : Phrase-(ex. 200) -typeExperience- (mono pour dependant du locuteur) (multi pour indédependant du locuteur) ensembleUnitesSynthese- -methodeSynthese Example: 200-multi-340SU-LPC.wav

2.7 Example Example pour locuteur j5f: 200-multi-340SU-LPC.wav phrase de test 200 reco avec les modèles ALISP-HMM provenant de l'ntraînement multi (44Fema) 340 unités de synthèse utilisées Synthèse LPC utilisée

3.1 Résultats: comparaisons mono-multi et influence du nombre d'unités de synthèse Exp. mono : 200-mono-340SU-LPC.wav = 340 unités de synthèse 200-mono-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-340SU-LPC.wav = 340 unités de synthèse 200-multi-6kSU-LPC.wav = (env. 6000) 6k unités

3.2 Résultats: comparaisons mono avec multi et multi-proche Exp. mono : 200-mono-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-near6kSU-LPC.wav = (env. 6000) 6k unités

4. Conclusions Le passage indépendant du locuteur semble franchissable Reste a definir un protocole d'evaluation des fichiers synthétisées (avec une phrase, et un cobaye l'évaluation est pas fiable) Choisir la meilleure synthèse HNM du cas dépendant du lmocuteur puis l'adapter au cas indépendant au locuteur

Et à plus longs termes... utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole expérimenter le codage ALISP en vérification du locuteur