Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre 2001 Dijana Petrovska-Delacrétaz Gérard Chollet
PLAN 1 Introduction (motivations, objectifs, situation actuelle) 2 Codage indépendant du locuteur 3 Base de donées + protocole expérimentaux 4 Résultats 5 Conclusions
1.1 SYMPATEX : motivations générales Permet un codage à très bas débit Développement de nouveaux outils pour la recherche en phonétique Intègre le paradigme danalyse par la synthèse Applications en reconnaissance de la parole indépendante de la langue Identification de la langue Amélioration de la qualité de la parole transmise, débruitage
1.2 Objectifs SYMPATEX et situation actuelle compression dun message vocal, en diminuant le débit, en conservant l'intelligibilité, le naturel, l'identité du locuteur, et un espace memoire compatible avec les technologies actuelles; Cas du locuteur unique (dépendant du locuteur); Affranchissement de la dépendance au locuteur ;
1.3 Cas du locuteur unique Synthèse Synthèse LPC améliorée par la synthèse HNM On retient le principe de la synthèse par concaténation Questions ouvertes: quelles unités de synthèse choisir ? Comment concatener ces unités? Protocole d'évaluation pas comparable
2. Affranchissement de la dépendance au locuteur Comment resoudre ce problème ? Codage indépandant du locuteur (multi) Faire de la transformation de locuteur Codage indépandant du locuteur, et synthèse seulement avec des unités du locuteur le plus proche (multi-proche) Faire la reco multi-locuteur Choisir le locuteur le plus proche Choix des unités de synthèse appartenant a ce locuteur;
2.1 Codage indépendant du locuteur Entraîner le codeur avec suffisamment de données parole dun échantillon représentatif Tester avec un ensemble de locuteurs disjoints Experience de comparaison mono-multi: locuteur unique indépendant du locuteur
2.2 Base de données BREF Corpus français, textes lus, du journal « Le Monde » 120 locuteurs, env min de parole par loc. (texte différents, sauf phrases type a) 80 locuteurs pour lentraînement, 40 de développement et 20 de test Pour ces expériences, subdiviser les données en deux groupes ("male and female") On travaille pour commencer avec les locuteurs féminins ( 44 train et 10 test) Enregistrement qualité studio, échantillonné à 16kHz
2.3 Protocole expérimental pour mono-multi Rappel du paradygme codage par reco et synthèse: RECONNAISSANCE Entraînement des modèles HMM (des unités ALISP), avec données "train"; Faire la reco sur les données de test disjointes notées comme donées "test"; SYNTHESE Choix de l'ensemble des unités de synthèse Méthode de synthèse (LPC)
2.4 suite Partitionnement de BREF pour les exp. Mono-Multi: 44 locuteurs "multi-train" 1 locuteur pour les tests des experiences mono-multi Partitionner ces donnes en "mono-train" et "multi-mono-test" (notées "test") On peur recommencer avec un autre locuteur pour les tests ou experiences mono-multi On a les ensembles (disjoints) suivants : multi-train, multi-mono-test (test) et mono-train
2.5 suite protocole experimental Experiences mono-multi Multi-train = 44 locuteurs féminins, env. 44 heures de données parole Multi-mono-test = centaine de phrases du locuteur unique Mono-test = reste des données du locuteur unique
2.6 Nomencature des fichiers sons du locuteur j5f Locutuer j5f, et sa phrase 200 (courte) pour les tests Explication des noms : Phrase-(ex. 200) -typeExperience- (mono pour dependant du locuteur) (multi pour indédependant du locuteur) ensembleUnitesSynthese- -methodeSynthese Example: 200-multi-340SU-LPC.wav
2.7 Example Example pour locuteur j5f: 200-multi-340SU-LPC.wav phrase de test 200 reco avec les modèles ALISP-HMM provenant de l'ntraînement multi (44Fema) 340 unités de synthèse utilisées Synthèse LPC utilisée
3.1 Résultats: comparaisons mono-multi et influence du nombre d'unités de synthèse Exp. mono : 200-mono-340SU-LPC.wav = 340 unités de synthèse 200-mono-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-340SU-LPC.wav = 340 unités de synthèse 200-multi-6kSU-LPC.wav = (env. 6000) 6k unités
3.2 Résultats: comparaisons mono avec multi et multi-proche Exp. mono : 200-mono-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-6kSU-LPC.wav = (env. 6000) 6k unités Exp. multi: 200-multi-near6kSU-LPC.wav = (env. 6000) 6k unités
4. Conclusions Le passage indépendant du locuteur semble franchissable Reste a definir un protocole d'evaluation des fichiers synthétisées (avec une phrase, et un cobaye l'évaluation est pas fiable) Choisir la meilleure synthèse HNM du cas dépendant du lmocuteur puis l'adapter au cas indépendant au locuteur
Et à plus longs termes... utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole expérimenter le codage ALISP en vérification du locuteur