Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.

Slides:

Advertisements

Présentations similaires

1 © 2006 Aastra Technologies, LTD. Besoin en Bande Passante.

Advertisements

Distance inter-locuteur

COMMON TECHNIQUES AND TECHNOLOGIES UNIT 09/ Avancement SYMPATEX T C O M M U N I C A T I O N S HOMSON-CSF Projet RNRT SYMPATEX 3 ème réunion.

Indexation Parole / Musique / Bruit

Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION

Une approche informationnelle de la restauration d’images

JJCAAS 03 - Modèles granulaires pour les signaux sonores 1 Modèles granulaires pour les signaux sonores Lorcan Mc Donagh Directeur de thèse: Frédéric.

SP1 : Transfert de technologie

CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.

Eureka avril MAJORCALL – « Client Relation Management for Call Centers » Eurekâ Project !2990 Corebridge- -ENST-

SYstème de Messagerie Unifiée PArole et TEXte Revue de Projet RNRT Mardi 10 décembre 2002.

Reconnaissance du locuteur

Reconnaissance de la parole

THALES COMMUNICATIONS Projet RNRT SYMPATEX 14 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 01 octobre 2002.

NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.

THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.

Interactions langagières et parolières dans une société de l’information Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS.

THALES COMMUNICATIONS Projet RNRT SYMPATEX 11 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 13 juin Avril 2002.

Codage de la parole Ivan Magrin-Chagnolleau, CNRS

Reconnaissance Automatique de la Parole

Reconnaissance Automatique de la Parole

L&H Confidential Sympatex Codeur/Décodeur Harmonique plus bruit September 2000.

Cours parole du 26 Janvier 2005 enseignants: Dr

1 plan Besoins État de lart Assistant électronique unique pour la personne indépendante dans la maison intelligente Reconnaissance par unités segmentales.

Codage de la parole à très bas débit avec des unités ALISP

Le MAJORDOME de la Maison Intelligente

Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.

Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.

Construction du nombre au cycle 2

La reconnaissance vocale

Directeur de thèse : Régine André-Obrecht

Intervalle unitaire : 4h

Reconnaissance de la parole

Traitement Automatique de la Langue:

Projet Technique Un PDA multimodal au service des situation de handicap… DESS HANDI Université Paris XIII Introduction & Disclaimer This presentation.

La voix IP : Mr.FERGOUGUI Boudouch Ali kmichou Ansar Atrassi Najoua

MODULE ER13 PROJET INFORMATIQUE DEVELOPPEMENT en EQUIPE

Marketing Engineering

Décodage des informations

Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.

Le cahier de charge d'un système de RAP

Le code génétique Biologie 122.

Reconnaissance Vocale

‘The Voice Company’ Du texte à la Parole

MIDI Sans Frontières Analyse des problèmes relatifs à la communication musicale sur IP Mémoire présenté en vue de lobtention du grade de Licencié en informatique.

Les formats Débutant – Semaine 4.

Cours parole du 12 Novembre 2003 enseignante: Dr

La théorie de la communication de C. Shannon

Procédures et fonctions

Université de Technologie de Belfort Montbéliard par Sid-Ahmed Lamrous Le 14/05/ Son : codage et compression.

Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -

Master 1 – Sciences du Langage –

Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.

Traitement de la parole : Synthèse et reconnaissance

Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.

1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.

Reconnaissance automatique de la parole

Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,

Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.

Présentation RFIA janvier 2002

CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,

Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.

Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.

Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.

Synthèse d’images et Rendu Réaliste Compression Progressive de Modèles 3D DOMENGET Bruno DUMAS Benjamin EISTI.

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Bianca Vieru-Dimulescu encadrant : Philippe Boula de Mareüil

Journée Des Doctorants 2004

À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.

Transcription de la présentation:

Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales

Plan 1 Introduction codage 2 Codage à très bas débit 3 Codeur segmental ALISP 4 Méthodes de synthèse 5 Résultats cas mono-locuteur 6 Résultats cas indépendant du locuteur 7 Conclusions et perspectives

1. Codage de la parole Codage = transmission dun message vocal, en diminuant le débit et en conservant un maximum dinformation Types de codeurs : A forme donde Hybrides Paramétriques Segmentaux

1.1 Quels codeurs pour quels débits

1.3 Evolution des codeurs Indicative Quality (MOS) G.711 (64 kb/s) G.721 (32 kb/s) G.729 (8 kb/s) G.728 (16 kb/s) LPC 10 (2,4 kb/s) HSX (2,4 kb/s) Consumer quality Minimumqual. for high cost application Minimumqual. For low cost application ALISP (.4 kb/s)

1.3 Pourquoi développer des codeurs à très bas débit Trouver les limites de la compression de la parole (sans sa compréhension) Applications pratiques : Répondeurs automatiques sans bandes magnétiques Archivage et «boîtes noires » Communication sur des canaux à bas débits Codage redondant en télédiffusion But à atteindre : Débit moyen de bps Indépendant du locuteur, de la langue, de lenvironnement

2. Principes généraux des codeurs à très bas débit < 400 bps Nommées aussi codeurs segmentaux ou codeurs par indexation Nécessitent lutilisation de : Méthodes de reconnaissance Quelles unités de reco utiliser ? Méthodes de synthèse Quelles unités de synthèse utiliser ? Données à transmettre : Indices des unités de parole reconnus Informations prosodique Utiliser des unités ALISP

2. 2 Le prix à payer Complexité croissante Retard au décodage Mémoire plus importante Sensibilité aux erreurs de transmission Sensibilité au bruit ?

3. Motivations pour utiliser ALISP Permet un codage à très bas débit Développement de nouveaux outils pour la recherche en phonétique Intègre le paradigme danalyse par la synthèse Applications en reconnaissance de la parole indépendante de la langue Identification de la langue Amélioration de la qualité de la parole transmise, débruitage

3.2 Cas idéal versus cas actuel ALISP devrait permettre idéalement un codage Indépendant du locuteur Indépendant de la langue Indépendant de lenvironnement Réalité : On commence par résoudre le cas dépendant du locuteur Premiers résultats pour le codage indépendant du locuteur

3.3 Principes du Codage parole Analyse spectrale Analyse prosodique Reconnaissance HMM Dictionnaire des modèles HMM des unités ALISP Représentant A 1 … Représentant A 8 HMM A Détermination des unités de synthèse Choix unité de synthèse par DTW Codage prosodie Indice unité ALISP Indice unité de synthèse Pitch, énergie, temps

décodage Parole synthétique Représentant A 1 … Représentant A 8 Indice ALISP N° représentant de synthèse Paramètres de prosodie Choix unité de synthèse Synthèse par concaténation

4. Méthodes de synthèse Cas monolocuteur : commencer avec la LPC => résultats mauvais Nouvelle methode de concatention de segments dans des zones de stabilité spectrale, avec synthèse préalable avec Harmonic Noise Model (HNM) Cas indépendant du locuteur : avec la LPC => résultats comparables au cas monolocuteur pas encore appliquée des méthodes de synthèse HNM

5. Resultats monolocuteur sur « BU corpus » codage méthode ALISP (HNM) unités de synthèse correspondantes aux modèles HMM synthèse HNM original choix des unités de synthèse à partir des transcriptions phonétiques concaténation des formes donde

6. Expériences indépendantes du locuteur sur BREF Cas indépendant du locuteur : suffisamment de données parole dun échantillon représentatif pour les données d entraînement et dun autre ensemble de locuteurs disjoints pour le test (codage) Exemple mono-locuteur, synthèse LPC, sur Bref Exemple indépendant du locuteur, synthèse LPC

6.1 Base de données de parole BREF Caractéristiques principales : corpus français composé de textes lus, extraits du journal « Le Monde » 120 locuteurs, avec en moyenne min de parole par loc. Séparés en 80 locuteurs pour lentraînement, 40 de développement et 20 de test, avec des textes différents Enregistrement qualité studio, échantillonné à 16kHz

6.2 Résultats multilocuteur sur « BREF corpus » Caractéristique des unités ALISP, longueur moyenne de 66 ms, débit 140 bps Fichiers sonores synthèse LPC cas mono locuteur (synthèse LPC) cas indépendant du locuteur original

6.3 Correspondance Alisp phones, Bref

Conclusions et perspectives améliorer lintelligibilité et la qualité choix dunités compatibles pour le codage et la synthèse à partir du texte rendre le codeur indépendant du locuteur et de la langue restituer lidentité du locuteur

Et à plus longs termes... utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole expérimenter le codage ALISP en vérification du locuteur