Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parValentin Bonin Modifié depuis plus de 10 années
1
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales
2
Plan 1 Introduction codage 2 Codage à très bas débit 3 Codeur segmental ALISP 4 Méthodes de synthèse 5 Résultats cas mono-locuteur 6 Résultats cas indépendant du locuteur 7 Conclusions et perspectives
3
1. Codage de la parole Codage = transmission dun message vocal, en diminuant le débit et en conservant un maximum dinformation Types de codeurs : A forme donde Hybrides Paramétriques Segmentaux
4
1.1 Quels codeurs pour quels débits
5
1.3 Evolution des codeurs 1 2 3 4 5 198019902000 Indicative Quality (MOS) G.711 (64 kb/s) G.721 (32 kb/s) G.729 (8 kb/s) G.728 (16 kb/s) LPC 10 (2,4 kb/s) HSX (2,4 kb/s) Consumer quality Minimumqual. for high cost application Minimumqual. For low cost application 19702010 ALISP (.4 kb/s)
6
1.3 Pourquoi développer des codeurs à très bas débit Trouver les limites de la compression de la parole (sans sa compréhension) Applications pratiques : Répondeurs automatiques sans bandes magnétiques Archivage et «boîtes noires » Communication sur des canaux à bas débits Codage redondant en télédiffusion But à atteindre : Débit moyen de 100-500 bps Indépendant du locuteur, de la langue, de lenvironnement
7
2. Principes généraux des codeurs à très bas débit < 400 bps Nommées aussi codeurs segmentaux ou codeurs par indexation Nécessitent lutilisation de : Méthodes de reconnaissance Quelles unités de reco utiliser ? Méthodes de synthèse Quelles unités de synthèse utiliser ? Données à transmettre : Indices des unités de parole reconnus Informations prosodique Utiliser des unités ALISP
8
2. 2 Le prix à payer Complexité croissante Retard au décodage Mémoire plus importante Sensibilité aux erreurs de transmission Sensibilité au bruit ?
9
3. Motivations pour utiliser ALISP Permet un codage à très bas débit Développement de nouveaux outils pour la recherche en phonétique Intègre le paradigme danalyse par la synthèse Applications en reconnaissance de la parole indépendante de la langue Identification de la langue Amélioration de la qualité de la parole transmise, débruitage
10
3.2 Cas idéal versus cas actuel ALISP devrait permettre idéalement un codage Indépendant du locuteur Indépendant de la langue Indépendant de lenvironnement Réalité : On commence par résoudre le cas dépendant du locuteur Premiers résultats pour le codage indépendant du locuteur
11
3.3 Principes du Codage parole Analyse spectrale Analyse prosodique Reconnaissance HMM Dictionnaire des modèles HMM des unités ALISP Représentant A 1 … Représentant A 8 HMM A Détermination des unités de synthèse Choix unité de synthèse par DTW Codage prosodie Indice unité ALISP Indice unité de synthèse Pitch, énergie, temps
12
décodage Parole synthétique Représentant A 1 … Représentant A 8 Indice ALISP N° représentant de synthèse Paramètres de prosodie Choix unité de synthèse Synthèse par concaténation
13
4. Méthodes de synthèse Cas monolocuteur : commencer avec la LPC => résultats mauvais Nouvelle methode de concatention de segments dans des zones de stabilité spectrale, avec synthèse préalable avec Harmonic Noise Model (HNM) Cas indépendant du locuteur : avec la LPC => résultats comparables au cas mono- locuteur pas encore appliquée des méthodes de synthèse HNM
14
5. Resultats monolocuteur sur « BU corpus » codage méthode ALISP (HNM) unités de synthèse correspondantes aux modèles HMM synthèse HNM original choix des unités de synthèse à partir des transcriptions phonétiques concaténation des formes donde
15
6. Expériences indépendantes du locuteur sur BREF Cas indépendant du locuteur : suffisamment de données parole dun échantillon représentatif pour les données d entraînement et dun autre ensemble de locuteurs disjoints pour le test (codage) Exemple mono-locuteur, synthèse LPC, sur Bref Exemple indépendant du locuteur, synthèse LPC
16
6.1 Base de données de parole BREF Caractéristiques principales : corpus français composé de textes lus, extraits du journal « Le Monde » 120 locuteurs, avec en moyenne 40-70 min de parole par loc. Séparés en 80 locuteurs pour lentraînement, 40 de développement et 20 de test, avec des textes différents Enregistrement qualité studio, échantillonné à 16kHz
17
6.2 Résultats multilocuteur sur « BREF corpus » Caractéristique des unités ALISP, longueur moyenne de 66 ms, débit 140 bps Fichiers sonores synthèse LPC cas mono locuteur (synthèse LPC) cas indépendant du locuteur original
18
6.3 Correspondance Alisp phones, Bref
19
Conclusions et perspectives améliorer lintelligibilité et la qualité choix dunités compatibles pour le codage et la synthèse à partir du texte rendre le codeur indépendant du locuteur et de la langue restituer lidentité du locuteur
20
Et à plus longs termes... utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole expérimenter le codage ALISP en vérification du locuteur
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.