SP1 : Transfert de technologie

Slides:



Advertisements
Présentations similaires
Semaine 5 Couche Liaison de données Cours préparé par Marc Aubé
Advertisements

Modèles de Markov Cachés (HidenMarkovModel)
Le centre d’intérêt, un concept pour structurer les apprentissages
« Systèmes électroniques »
Distance inter-locuteur
COMMON TECHNIQUES AND TECHNOLOGIES UNIT 09/ Avancement SYMPATEX T C O M M U N I C A T I O N S HOMSON-CSF Projet RNRT SYMPATEX 3 ème réunion.
Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
Indexation Parole / Musique / Bruit
JJCAAS 03 - Modèles granulaires pour les signaux sonores 1 Modèles granulaires pour les signaux sonores Lorcan Mc Donagh Directeur de thèse: Frédéric.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Reconnaissance du locuteur
Reconnaissance de la parole
THALES COMMUNICATIONS Projet RNRT SYMPATEX 14 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 01 octobre 2002.
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.
Interactions langagières et parolières dans une société de l’information Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS.
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
THALES COMMUNICATIONS Projet RNRT SYMPATEX 11 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 13 juin Avril 2002.
Reconnaissance Automatique de la Parole
Reconnaissance Automatique de la Parole
L&H Confidential Sympatex Codeur/Décodeur Harmonique plus bruit September 2000.
Algorithme de Viterbi pour la reconnaissance de la parole
Cours parole du 26 Janvier 2005 enseignants: Dr
Codage de la parole à très bas débit avec des unités ALISP
Le MAJORDOME de la Maison Intelligente
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Le processus unifié UML est un langage de modélisation et n ’impose pas de démarche de développement Le processus unifié : méthodologie de développement.
Formation Technique 6èmepartie.
La reconnaissance vocale
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
Ce qui est fait Cahier des charges L’analyse de l’application
Reconnaissance de la parole
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Concepts avancés en mathématiques et informatique appliquées
Monique THONNAT et Nathanaël ROTA Projet ORION
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
Décodage des informations
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Reconnaissance de Yes/No à l’aide du HTK
Le cahier de charge d'un système de RAP
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Partie 1: Ondes et Particules.
Reconnaissance Vocale
‘The Voice Company’ Du texte à la Parole
Module 2 : Configuration de l'environnement Windows 2000.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Les formats Débutant – Semaine 4.
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Projet de Master première année 2007 / 2008
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Master 1 – Sciences du Langage –
Traitement de la parole : Synthèse et reconnaissance
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
DÉFINITIONS modules programmes chaînes de programmes
Reconnaissance automatique de la parole
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Méthode des moindres carrés (1)
Journée Des Doctorants 2004
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin 16/11/2000 Projet RNRT SYMPATEX

Plan de la présentation Fournitures prévues et planning Travail réalisé Contenu du CD-ROM Description des différentes étapes de traitement 16/11/2000 Projet RNRT SYMPATEX

Fournitures prévues et planning T0+6 mois Rapport technique Démonstration du système de codage de base Monolocuteur, synthèse LPC simple par concaténation, hors temps réel. Système existant Programmes en C sous LINUX ou UNIX. Fichiers de commande shell et quelques uns en PERL. 16/11/2000 Projet RNRT SYMPATEX

Travail réalisé Système transféré pour faciliter le portage sous Windows Visual C Programmes en C ANSI sous LINUX Red-hat 6.1. Fichiers de commandes tous en PERL. Document de description et documentation des logiciels et scripts perl. CD ROM avec logiciels, scripts, documentation, exemples. Terminé fin février 2000, Réalisé en partie à Brno en collaboration avec Jan Cernocky, Petr Motlicek et Y.-P. Nakache. 16/11/2000 Projet RNRT SYMPATEX

Contenu du CD-ROM Contenu du CD-ROM Publication générale Logiciels (PROGS) et scripts perl (SCRIPTS) nécessaires pour réaliser les expériences de codage à très bas débit. Extrait de la base de données BU radio corpus (DATA). Résultats des expériences sur cet extrait (WORK). Logiciels utilitaires : perl et emacs (WIN_SOFT). Documentation sur les logiciels C et les scripts (DOC). Publication générale G. Baudoin, J. Cernocky, P. Gournay, G. Chollet. Codage de la parole à bas et très bas débit. Annales des télécommunications, n°55, à paraître en 2000. 16/11/2000 Projet RNRT SYMPATEX

Codage à très bas débit par indexation d’unités de taille variable Approche segmentale nécessaire. Pour des débits inférieurs à 500 bps, Il faut prendre en compte les dépendances inter-trames. EX : LPC10 : 500bps spectre, 2000bps excitation. Ensemble d’unités acoustiques obtenues automatiquement Représentant de manière précise et concise les sons d’une langue. Sans recourir à une base de donnée étiquetée phonétiquement. Unités ALISP Automatic Language Independant Speech Processing. 16/11/2000 Projet RNRT SYMPATEX

Vocodeurs à très bas débits, phonétiques ou pseudo-phonétique Codeur à reconnaissance-synthèse: Effectue, dans la phase d’analyse, une reconnaissance d’unités acoustiques de codage Linguistiques (phonèmes, transitions entre phonèmes,…) Nécessite une base de données étiquetées Unités acoustiques obtenues automatiquement par des techniques statistiques : codeur pseudo-phonétiques. base de données non étiquetées. Effectue au décodage la synthèse du signal de parole par concaténation d’unités de synthèse. 16/11/2000 Projet RNRT SYMPATEX

Codeur à très bas débit CODEUR DECODEUR Dictionnaire d’unités de codage Dictionnaire d’unités de synthèse Parole originale parole synthétique Analyse spectrale Indice unité acoustique Synthèse par concaténation HNM, PSOLA Reconnaissance unité acoustique Analyse prosodique Paramètres de prosodie CODEUR DECODEUR 16/11/2000 Projet RNRT SYMPATEX

Description des différentes étapes de traitement Préparation des données Suppression des en-tête, retournement octets, découpage en fichiers courts, création de listes. Apprentissage des unités de codage et de synthèse Utilisation du vocodeur : Codage-décodage ou analyse-synthèse d’une phrase Reconnaissance des unités de codage . Synthèse par concaténation des unités de synthèse. 16/11/2000 Projet RNRT SYMPATEX

Apprentissage non supervisé des unités de codage Analyse et Segmentation initiale du corpus d’apprentissage par décomposition temporelle. Cibles spectrales et fonction d’interpolation (Atal, Bimbot) Classification des segments par quantification vectorielle sur les cibles spectrales. 1ère transcription. Modélisation des classes par HMM Itération segmentation, apprentissage des HMM. Raffinement des classes et modèles Itération de la procédure segmentation-transcription par les HMM, ré-estimation des HMM. 16/11/2000 Projet RNRT SYMPATEX

Détermination des unités de codage, analyse, décomposition temporelle Analyse spectrale LPCC, trames 20 ms, déplacement 10 ms. Soustraction du vecteur cepstral moyen pour minimiser l’influence des variations de conditions d’enregistrement. Décomposition temporelle Segmentation prenant en compte la co-articulation Modélise une suite de vecteurs spectraux comme une suite de cibles spectrales reliées par des fonctions d’interpolation se recouvrant partiellement. 16/11/2000 Projet RNRT SYMPATEX

Décomposition temporelle 17 événements/s en moyenne 16/11/2000 Projet RNRT SYMPATEX

Classification des cibles de la décomposition temporelle Après DT, base de données segmentée en événements de la DT (1 cible, 1 FI). On regroupe les segments en 64 classes par Quantification vectorielle ->transcription Le dictionnaire est appris sur les vecteurs spectraux au centre de gravité des FI. La classification est faite en comparant les distances d’un segment aux différentes classes. 1ère Transcription f2b.sym, f2b.plim, f2b.seg,*.phn (3 colonnes). 16/11/2000 Projet RNRT SYMPATEX

Modélisation stochastique HMM des classes obtenues après DT et QV Modélisation facilite reconnaissance, Permet d’affiner le jeu d’unités de codage. Quelques itérations (typiquement 5): Apprentissage des modèles HMM, à partir d’une segmentation et d’une transcription du corpus. Re-segmentation et transcription avec ces modèles. Au fur à mesure, la vraisemblance des modèles et la cohérence acoustique des classes augmentent. Logiciel HTK 16/11/2000 Projet RNRT SYMPATEX

Topologie des modèles HMM 1 2 3 4 5 a22 a33 a44 a12 a23 a34 a25 3 états émetteurs Modèle de langage : unigrammes, facteur de langage g. Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; DLPCC; D log(E). Pour chaque flux une loi gaussienne simple. 16/11/2000 Projet RNRT SYMPATEX

Itération de la modélisation HMM Après la reconnaissance, on recalcule un modèle de langage Itération étape m : Résultats L unités acoustiques, modélisées par L HMM. Un ensemble de segments associés à chaque unité. Une transcription de la base de données. 16/11/2000 Projet RNRT SYMPATEX

Allongement des unités de codage Technique de Multigramme appliquée sur : les séquences de symboles de la QV Pour une unité de i symboles, 1 HMM à 2i+1 états Beaucoup de HMM à entraîner. Les séquences de symboles HMM. Utilisation Diminution du débit Unités de synthèse. Allongement du retard 16/11/2000 Projet RNRT SYMPATEX

Expériences et résultats Essais sur le corpus Boston university Radio Corpus (anglais), Martin Ruzek (radio tchèque), CD audio en français. Fe=16 000 Hz ou 11 025 Hz. monolocuteur, 1 h de parole par locuteur. 16/11/2000 Projet RNRT SYMPATEX

Résultats codage de l’enveloppe spectrale et des unités de synthèse Locuteur Débit binaire en bps, unités de codage et de synthèse Locuteur féminin Locuteur masculin HMM HMM + MG (n=6) 190,2 145 195,5 156 16/11/2000 Projet RNRT SYMPATEX

Détermination des unités de synthèse Dans chaque classe d’unité acoustique de codage, on choisit 8 représentants pour la synthèse. Les 8 plus longs segments. Pour coder un segment s attribué à une classe Ci, on compare par DTW le segment s aux 8 représentants de la classe. 16/11/2000 Projet RNRT SYMPATEX

Codeur parole Analyse spectrale Analyse prosodique Reconnaissance HMM Dictionnaire des modèles HMM des unités ALISP Représentant A1 … Représentant A8 HMM A Détermination des unités de synthèse Choix unité de synthèse par DTW Codage prosodie Indice unité ALISP Indice unité de synthèse Pitch, énergie, temps 16/11/2000 Projet RNRT SYMPATEX

Décodeur Représentant A1 … Représentant A8 Indice ALISP Parole synthétique Représentant A1 … Représentant A8 Indice ALISP N° représentant de synthèse Paramètres de prosodie Choix unité de synthèse Synthèse par concaténation 16/11/2000 Projet RNRT SYMPATEX