L’analyse morpho-syntaxique dans un synthétiseur de parole.

Slides:



Advertisements
Présentations similaires
Cours parole du 2 Mars 2005 enseignants: Dr
Advertisements

Cours parole du 2 Mars 2005 enseignants: Dr
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Directeur de thèse : Régine André-Obrecht
Gouvernement du Québec Présentation par : Alain Thibault : PDG Efoé Wallace : Directeur du développement.
‘The Voice Company’ Du texte à la Parole
Chapitre 2 La description du langage
L’approche du code au cycle 2
Traitement de la parole : Synthèse et reconnaissance
Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Synthèse de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage
Journée Des Doctorants 2004
Projet de fin d'étude pour l'obtention du Diplôme Nationale d'Ingénieur en Informatique Conception et développement des modules de GED pour l’ indexation.
Comment les élèves déchiffrent un mot ? Processus normaux et pathologiques Quelles opérations cognitives sont sollicitées dans les actes de lire et d’écrire.
Correcteurs automatiques 25/09/2016. Nom, Prénom2 Qu'est-ce que c'est ? ● Un correcteur automatique est un outil permettant d'analyser un texte afin de.
Algorithmique ‘’ Un algorithme est une suite finie et non-ambiguë d’instructions permettant de donner la réponse à un problème. ‘’ Niveau de difficulté.
Présentation du programme
Master ESEEC Rédaction de documents (longs) structurés Patrice Séébold Bureau 109, Bât B.
2 Outils de l’analyse textuelle « CORENLP » Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Ibn Khaldoun – Tiaret faculté.
Susan Demedash et Danielle Lebrasseur 12 octobre 2016
Activité DIESEL TS1 BTS MCI 2016  STRATEGIES INJECTION
Classement alphabétique
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Rechercher des articles et des sites web
Cordial, le TAL et les aides à la rédaction
Mémoire présenté pour l’obtention du CERTIFICAT DE CAPACITE D’ORTHOPHONISTE JAILLET Claire  le code-switching : un moyen de facilitation pour le bilingue.
Où se situe la syntaxe dans les études linguistiques ?
Construire des requêtes
Comprendre, classer et analyser les problèmes multiplicatifs
Une séance de classement de groupes nominaux
Calcul de coefficient de partage octanol/eau des dérivés ferrocèniques basée sur l’adaptation de la méthode de Rekker Université de Biskra 24 Mai 2011.
Forum des Industries de la Langue, 17 mars 2010
Préparer par : Intissare et kaoutare
AO (Architecture des ordinateurs)
Pour une linguistique du mot

Profils d’emplois JT du 24 septembre 2001
Centralisation de logs
Qu’est-ce que lire?.
POL1803: Analyse des techniques quantitatives
Cyber-Sphinx Séance 2.
METHODE DE L’ACV Réalisé par : MAKHLOUFI Mohamed ROKHOU Alae
Semaine #6 INF130 par Frédérick Henri.
Technologies de l’intelligence d’affaires Séance 12
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Module 1: Généralités sur les systèmes informatiques Chapitre 1: Définitions et notions de base.
QU’EST-CE QUE LA LEXICOLOGIE ?
Faculté d’éducation | Faculty of Education
</Présentation de solutions documentaires>
Planifier une séquence d'apprentissage
Amélioration de la résolution spatiale des sondeurs multifaisceau
Présentation de la base Frantext
La méthode scientifique
Royaume de Maroc Université Hassan Premier Settat Faculté des Sciences et Techniques de Settat Description synthétiseur en langage VHDL d'un circuit intégré.
Enseigner la grammaire amazighe à l’école primaire
Moteurs de recherches Data mining Nizar Jegham.
Une séance de classement de groupes nominaux
Roowth 1 Université d'Adrar Faculté des Sciences et de la Technologie Département des Mathématiques et Informatique 1 er Année master : Informatique Option:
Réalisé par: SAMMARI RIM SOUID AHLEM AMROUCH HAFEDH
Tableau de bord d’un système de recommandation
Les nouveaux programmes de français 2019 Étude de la langue
Merise le modèle de traitement
Analyse des traces suite à une séance de tri de Groupes Nominaux
La structure hiérarchique de la phrase
ECRIRE POUR APPRENDRE A LIRE
Apprentissage de la lecture au cycle 2
Contenu Systèmes de test parallèles Multithreading Synchronisation
Enseignement de la grammaire et du vocabulaire :
Société de l’Information
SÉANCE DÉCROCHÉE L’ANALYSE LITTÉRAIRE Comment repérer et utiliser des procédés d’écriture?
Transcription de la présentation:

L’analyse morpho-syntaxique dans un synthétiseur de parole. Sophie Roekhaut – TTS Group – Multitel ASBL Séminaire du CENTAL : 22 octobre 2007

PLAN PLAN Architecture du synthétiseur de parole eLite Le module d’analyse morpho-syntaxique 3) La représentation des données : les machines à états finis (FSMs) 4) Conclusion et perspectives Multitel TTS Team 08/11/2018

PLAN PLAN Architecture du synthétiseur de parole eLite Le module d’analyse morpho-syntaxique 3) La représentation des données : les machines à états finis (FSMs) 4) Conclusion et perspectives Multitel TTS Team 08/11/2018

1) Architecture du synthétiseur de parole eLite PLAN 1) Architecture du synthétiseur de parole eLite Qu’est-ce que la synthèse de la parole? TTS Text Types d’application : GPS, applications pour aveugles, répondeur téléphonique, lecture de SMS,… Multitel TTS Team 08/11/2018

1) Architecture du synthétiseur de parole eLite PLAN 1) Architecture du synthétiseur de parole eLite NLP synthesis preprocessing morpho-syntactic analysis Ling. Info Phonemes Prosody Text phonetization prosody generation Multitel TTS Team 08/11/2018

1) Architecture du synthétiseur de parole eLite PLAN 1) Architecture du synthétiseur de parole eLite NLP NUU+DSP LiONS preprocessing morpho-syntactic analysis Ling. Info Phonemes Prosody Text DSP MBROLA phonetization prosody generation Multitel TTS Team 08/11/2018

1) Architecture du synthétiseur de parole eLite PLAN 1) Architecture du synthétiseur de parole eLite La synthèse NUU (Non Uniform Unit) BUT : rendre le signal de parole plus naturel L’unité de base : le diphone « unité acoustique qui démarre au milieu d’un phonème et se termine au milieu du phonème suivant ». Non-uniforme signifie : Durée variable (un ou plusieurs diphones, une syllabe, un mot, un groupe de mots). Possibilité d’avoir plusieurs exemplaires pour chaque unité. Multitel TTS Team 08/11/2018

1) Architecture du synthétiseur de parole eLite PLAN 1) Architecture du synthétiseur de parole eLite Le NLP : définition Désambiguïsation du texte Le pré-traitement L’analyse morpho-syntaxique Génération des phonèmes à partir des graphèmes Le phonétiseur Le post-phonétiseur Génération d’informations prosodiques Le prosodieur Multitel TTS Team 08/11/2018

1) Architecture du synthétiseur de parole eLite PLAN 1) Architecture du synthétiseur de parole eLite Le NLP : exemples de performances Lecture d’URL, de dates, de nombres,… - http://www.multitel.be/tts - 30/06/1945 - 453.556,62825e-02 Gestion des liaisons - Les oiseaux - Six amis, six personnes, six - Quelque ami, quelques incroyables personnes Multitel TTS Team 08/11/2018

PLAN PLAN Architecture du synthétiseur de parole eLite Le module d’analyse morpho-syntaxique 3) La représentation des données : les machines à états finis (FSMs) 4) Conclusion et perspectives Multitel TTS Team 08/11/2018

2) Le module d’analyse morpho-syntaxique PLAN 2) Le module d’analyse morpho-syntaxique Objectif : Désambiguïser le texte en attribuant à chaque mot/groupe de mot sa catégorie grammaticale. Exemples d’ambiguïtés : Les poules du couvent couvent. LES ELEVES SONT BIEN ELEVES. Un bon argument. J’ai un bon à faire valoir. Deux niveaux d’analyse : - Le mot (Word) → phonétisation - L’unité grammaticale (Grammar Unit) → analyse syntaxique Ex : pomme de terre : Word - pomme [NOUN] de [PREP] terre [NOUN] Grammar Unit - pomme de terre [NOUN] Multitel TTS Team 08/11/2018

2) Le module d’analyse morpho-syntaxique PLAN 2) Le module d’analyse morpho-syntaxique 2.1) L’analyse morphologique Multitel TTS Team 08/11/2018

2) Le module d’analyse morpho-syntaxique PLAN 2) Le module d’analyse morpho-syntaxique 2.2) L’analyse syntaxique Objectif : Pour une suite de mots donnée, retrouver la meilleure suite de catégories TMAX = arg max P(T|W) T = arg max P(W|T) P(T) T P(W) → Règle de Bayes P(W) → constante P(T) → N-grammes de catégories P(W|T) → Classes d’ambiguïtés lexicales Multitel TTS Team 08/11/2018

2) Le module d’analyse morpho-syntaxique PLAN 2) Le module d’analyse morpho-syntaxique 2.2) L’analyse syntaxique Modèle n-gramme de catégories P(T) estimé sur corpus - Modèle trigramme lissé par interpolation linéaire : Ex : DET ADJ NOUN P(NOUN|<DET,ADJ>) . P(NOUN|ADJ) . P(NOUN) Définition de classes d’ambiguïtés lexicales P(W|T) Ex : couvent, président {NOUN,VERB} ferme {NOUN,ADJ,VERB} Multitel TTS Team 08/11/2018

2) Le module d’analyse morpho-syntaxique PLAN 2) Le module d’analyse morpho-syntaxique 2.2) L’analyse syntaxique Multitel TTS Team 08/11/2018

PLAN PLAN Architecture du synthétiseur de parole eLite Le module d’analyse morpho-syntaxique 3) La représentation des données : les machines à états finis (FSMs) 4) Conclusion et perspectives Multitel TTS Team 08/11/2018

3) La représentation des données (les FSMs) 3.1) Définition Les machines à états finis permettent de décrire des langages du plus linguistique au plus mathématique. Quatre catégories : Les automates (FSA) : vérification de l’appartenance d’un mot au langage : reconnaisseur ou accepteur. Les transducteurs (FST) : validation d’un mot reçu en entrée et traduction en un mot de sortie. Le FST travaille sur deux alphabets. Les machines pondérées (WFSA, WFST) : ajout de poids sur les transitions pour permettre les opérations du type recherche du meilleur chemin. Multitel TTS Team 08/11/2018

3) La représentation des données (les FSMs) 3.2) Avantages Opérations (union, intersection, différence, composition) permettant la modélisation de machines complexes à partir de machines plus simples. Description de langages à partir d’expressions régulières : représentation aisée et condensée du langage. Condensation de l’information grâce aux opérations de minimisation, de déterminisation, de compaction. Multitel TTS Team 08/11/2018

3) La représentation des données (les FSMs) PLAN 3) La représentation des données (les FSMs) 3.3) Quelques exemples de FSMs Représentation du mot ELEVES (FSA) WORDFSA Multitel TTS Team 08/11/2018

3) La représentation des données (les FSMs) PLAN 3) La représentation des données (les FSMs) 3.3) Quelques exemples de FSMs Filtre de réaccentuation (WFST) FILTERWFST Multitel TTS Team 08/11/2018

3) La représentation des données (les FSMs) PLAN 3) La représentation des données (les FSMs) 3.3) Quelques exemples de FSMs Composition du mot (FSA) avec le filtre (WFST) WORDFSA o FILTERWFST Multitel TTS Team 08/11/2018

3) La représentation des données (les FSMs) PLAN 3) La représentation des données (les FSMs) 3.3) Quelques exemples de FSMs Composition du résultat (WFST) avec la machine de recherche de catégories grammaticales (FST) RESWFST o NATUREWFST Multitel TTS Team 08/11/2018

3) La représentation des données (les FSMs) PLAN 3) La représentation des données (les FSMs) 3.4) Le compilateur d’expressions régulières : exemples de règles (filtre de réaccentuation) [INFO] ALPHAIN = ASCII WEIGHT = DEFINE [CLASSIN] E_acc [éèêëe] E [eE] [RULE] E → <E_acc> / 1 e → <E_acc> / 2 <E_acc> → [<E_acc> e] / 2 Multitel TTS Team 08/11/2018

PLAN PLAN Architecture du synthétiseur de parole eLite Le module d’analyse morpho-syntaxique 3) La représentation des données : les machines à états finis (FSMs) 4) Conclusion et perspectives Multitel TTS Team 08/11/2018

CONCLUSION ET PERSPECTIVES PLAN CONCLUSION ET PERSPECTIVES Amélioration de la qualité des bases de données Génération du système pour d’autres langues Ajout de correction orthographique (thèse en cours). Multitel TTS Team 08/11/2018

PLAN MERCI. DES QUESTIONS? Multitel TTS Team 08/11/2018