Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parDidiane Gallois Modifié depuis plus de 11 années
1
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre 2001 Dijana Petrovska-Delacrétaz Gérard Chollet
2
PLAN 1 Introduction (motivations, objectifs, situation actuelle) 2 Codage indépendant du locuteur 3 Base de donées + protocole expérimentaux 4 Résultats 5 Conclusions
3
1.1 SYMPATEX : motivations générales Permet un codage à très bas débit Développement de nouveaux outils pour la recherche en phonétique Intègre le paradigme danalyse par la synthèse Applications en reconnaissance de la parole indépendante de la langue Identification de la langue Amélioration de la qualité de la parole transmise, débruitage
4
1.2 Objectifs SYMPATEX et situation actuelle compression dun message vocal, en diminuant le débit, en conservant l'intelligibilité, le naturel, l'identité du locuteur, et un espace memoire compatible avec les technologies actuelles; Cas du locuteur unique (dépendant du locuteur); Affranchissement de la dépendance au locuteur ;
5
1.3 Cas du locuteur unique Synthèse Synthèse LPC améliorée par la synthèse HNM On retient le principe de la synthèse par concaténation Questions ouvertes: quelles unités de synthèse choisir ? Comment concatener ces unités? Protocole d'évaluation pas comparable
6
2. Affranchissement de la dépendance au locuteur Comment resoudre ce problème ? Codage indépandant du locuteur (multi) Faire de la transformation de locuteur Codage indépandant du locuteur, et synthèse seulement avec des unités du locuteur le plus proche (multi-proche) Faire la reco multi-locuteur Choisir le locuteur le plus proche Choix des unités de synthèse appartenant a ce locuteur;
7
2.1 Codage indépendant du locuteur Entraîner le codeur avec suffisamment de données parole dun échantillon représentatif Tester avec un ensemble de locuteurs disjoints Experience de comparaison mono-multi: locuteur unique indépendant du locuteur
8
2.2 Base de données BREF Corpus français, textes lus, du journal « Le Monde » 120 locuteurs, env. 40-70 min de parole par loc. (texte différents, sauf phrases type a) 80 locuteurs pour lentraînement, 40 de développement et 20 de test Pour ces expériences, subdiviser les données en deux groupes ("male and female") On travaille pour commencer avec les locuteurs féminins ( 44 train et 10 test) Enregistrement qualité studio, échantillonné à 16kHz
9
2.3 Protocole expérimental pour mono-multi Rappel du paradygme codage par reco et synthèse: RECONNAISSANCE Entraînement des modèles HMM (des unités ALISP), avec données "train"; Faire la reco sur les données de test disjointes notées comme donées "test"; SYNTHESE Choix de l'ensemble des unités de synthèse Méthode de synthèse (LPC)
10
2.4 suite Partitionnement de BREF pour les exp. Mono-Multi: 44 locuteurs "multi-train" 1 locuteur pour les tests des experiences mono-multi Partitionner ces donnes en "mono-train" et "multi-mono-test" (notées "test") On peur recommencer avec un autre locuteur pour les tests ou experiences mono-multi On a les ensembles (disjoints) suivants : multi-train, multi-mono-test (test) et mono-train
11
2.5 suite protocole experimental Experiences mono-multi Multi-train = 44 locuteurs féminins, env. 44 heures de données parole Multi-mono-test = centaine de phrases du locuteur unique Mono-test = reste des données du locuteur unique
12
2.6 Nomencature des fichiers sons du locuteur j5f Locutuer j5f, et sa phrase 200 (courte) pour les tests Explication des noms : Phrase-(ex. 200) -typeExperience- (mono pour dependant du locuteur) (multi pour indédependant du locuteur) ensembleUnitesSynthese- -methodeSynthese Example: 200-multi-340SU-LPC.wav
13
2.7 Example Example pour locuteur j5f: 200-multi-340SU-LPC.wav phrase de test 200 reco avec les modèles ALISP-HMM provenant de l'ntraînement multi (44Fema) 340 unités de synthèse utilisées Synthèse LPC utilisée
14
3.1 Résultats: comparaisons mono-multi et influence du nombre d'unités de synthèse Exp. mono : 200-mono-340SU-LPC.wav = 340 unités de synthèse 200-mono-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-340SU-LPC.wav = 340 unités de synthèse 200-multi-6kSU-LPC.wav = (env. 6000) 6k unités
15
3.2 Résultats: comparaisons mono avec multi et multi-proche Exp. mono : 200-mono-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-near6kSU-LPC.wav = (env. 6000) 6k unités
16
4. Conclusions Le passage indépendant du locuteur semble franchissable Reste a definir un protocole d'evaluation des fichiers synthétisées (avec une phrase, et un cobaye l'évaluation est pas fiable) Choisir la meilleure synthèse HNM du cas dépendant du lmocuteur puis l'adapter au cas indépendant au locuteur
17
Et à plus longs termes... utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole expérimenter le codage ALISP en vérification du locuteur
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.