Cours parole du 2 Mars 2005 enseignants: Dr

Slides:



Advertisements
Présentations similaires
APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Advertisements

Distance inter-locuteur
Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
Manuel Qualité, Structure et Contenus – optionnel
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Classe : …………… Nom : …………………………………… Date : ………………..
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Identification automatique des langue
Traitement automatique de la parole hiver
Reconnaissance de la parole
Cours parole du 2 Mars 2005 enseignants: Dr
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Proposition de stratégie
1. 2 LE DÎNER TRADITIONNEL CHINOIS OU LIMAGE DUN MODÈLE SYSTÉMIQUE DE LAPPRENTISSAGE EN MILIEU SCOLAIRE.
JXDVDTEK – Une DVDthèque en Java et XML
Le Modèle Logique de Données
Architecture de réseaux
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
La reconnaissance vocale
Apprendre à lire.
Directeur de thèse : Régine André-Obrecht
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Titre conférence lundi 27 mars 2017
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Reconnaissance de la parole
Améliorer les performances du chiffrage à flot SYND
PLAN CECIAA Origines du projet Objectifs Solutions Techniques
Initiation au système d’information et aux bases de données
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Initiation au système d’information et aux bases de données
BIOMETRIE La biométrie : La gestion d’accès de demain
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
Approche critique des produits IdL Master 1 IdL Année
L’INTERACTIVITÉ DANS L’ENSEIGNEMENT MAGISTRAL
le profil UML en temps réel MARTE
Adaptation et intégration d'un module du Langage Parlé Complété (LPC) dans l'agent conversationnel Greta Mohammed ZBAKH Encadré par Mme. Hela DAASSI M.
1.2 COMPOSANTES DES VECTEURS
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Représentations des objectifs à atteindre dans l’apprentissage des langues: processus qualifiant et compétences plurilingues Patrick Chardenet Maître de.
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
SCIENCES DE L ’INGENIEUR
Conscience phonologique
Reconnaissance Vocale
IGL301 - Spécification et vérification des exgiences 1 Chapitre 1 Introduction (ref : Bray chapitre 1)
Ecaterina Giacomini Pacurar
‘The Voice Company’ Du texte à la Parole
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
Projet de Master première année 2007 / 2008
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Master 1 – Sciences du Langage –
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Traitement de la parole : Synthèse et reconnaissance
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Human Knowledge La nouvelle génération de moteurs sémantiques.
Algorithmes et Programmation
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Synthèse de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage
( ) Collège de Maisonneuve
TRAITEMENT DE LA PAROLE
Le Traitement Automatique des Langues (TAL)
Transcription de la présentation:

Cours parole du 2 Mars 2005 enseignants: Dr Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole Introduction, Historique, Domaines d’applications Synthèse à partir d’un texte / à partir de concepts Traduction Graphèmes --> Phonèmes et Prosodèmes Synthèse articulatoire / acoustique Synthèse par concaténation Modèles de langage Evaluation Conclusions

1.7 Domaines du Traitement Automatique de la Parole Identité CONNAISSANCES LANGAGIERES ET PAROLIERES PHONETIQUE RECONNAISSANCE GRAPHEMES VERS PHONEMES SYNTHESE ANALYSE STOCKAGE RESTITUTION TRANSMISSION Bla-bla bla … Bla-bla LANGUE MESSAGE

Biblio Traitement de la parole, R.Boite… (chapitre 7) Presses Polytechniques et Universitaires Romandes (2000) Spoken Language Processing, X. Xuang…. (Part 4, chapitres 14 -16) Prentice Hall (2001)

1. Définitions Système de synthèse vocale à partir d’un texte (« text to speech –TTS » ) ou à partir de concepts : Idéalement c'est une machine capable de synthétiser (lire) n'importe quel texte (même des mots nouveaux), imitant n'importe quel locuteur, de manière aussi fidèle que possible (intelligibilité, spontanéité) et en générant toutes les informations nécessaires dans un message vocal. Provenance du texte: à partir d'un texte introduit sur un clavier, scanné, issu d'un système de reconnaissance optique de caractères ("Optical Character Recognition- OCR"), ou produit automatiquement par un système de dialogue homme-machine (synthèse à partir de concepts).

La synthèse, pour quoi faire ? Services de télécommunications Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.) Applications en bureautique Terminaux parlants, lecture des emails par la voix, etc. Applications dans les transports Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc. Aide aux personnes handicapées Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking) Apprentissage des langues étrangères Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc. Livres et jouets parlants À l’usage des enfants en bas âge Communication naturelle avec la machine

2. Applications prévisibles Ceci nous permettrait (dans le futur) d'atteindre les buts suivants: d'atteindre des taux de compression élevés (utile p.ex. dans la transmission des messages parlés) d'avoir une grande flexibilité concernant le choix des voix de synthèse de préserver des informations extra-textuelles (stress, prosodie, vitesse d’élocution,…) d'avoir une méthode de représentation alternative aux documents textuels (utile plus pour les aveugles, ou pour des applications mains-libres ) de disposer d'un système complet et convivial de dialogue homme-machine

mais encore Aide à l’apprentissage (ou perfectionnement) de langues étrangères (système tonal du chinois ou les variations de Fo ont des signification différentes, traducteur multi-langues) Monde ludique des livres et jouets parlants Monitoring vocal pour des informations urgentes ou multiples (pilote d'avions) Améliorer nos connaissance théoriques sur la phonétique, compréhension de la parole, perception

3. Situation actuelle des synthétiseurs de parole à partir du texte possible pour un très petit nombre de locuteurs (voix féminine ou masculine) pour un vocabulaire restreint pour des langues pour lesquelles des grosses bases de données existent, et dont la grammaire est bien étudié pour des nouvelle langues il faut tout recommencer Constatation: on est loin du but !

Structure d’un système de synthèse SYNTHESE DE LA PAROLE A PARTIR DU TEXTE TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Texte Parole Phonèmes Prosodie

5. Modules et flux de données des systèmes TTS texte Traitement du langage naturel (analyse morpho-synthaxique) Formalismes linguistiques Moteurs d'inférence Inférences logiques Traitement du signal numérique Modèles mathématiques Algorithmes Calculs numériques Phonèmes Prosodie

Du Texte à la Phonétique Pré-processeur Analyseur morphologique Analyseur contextuel Structure de données Analyseur syntaxique- prosodique Phonétiseur Générateur de prosodie Phonèmes Prosodie

5.1 Module traitement du langage naturel Pré-processeur: transforme le texte, de façon à identifier des séquences de caractères qui risquent de poser un problème (nombres, abréviations, acronymes, …) Analyseur morphologique: identifie les syntagmes possibles pour chaque mot individuellement (nom, prénom, verbe,…) Analyseur contextuel : comme avant mais en contexte, donc permet de réduire la liste des syntagmes possibles; Analyseur syntaxique-prosodique : affine les résultat de l'analyseur contextuel, et établit un découpage du texte en groupes de mots, pour leur associer une prosodie. Convertisseur graphème -phonème (phonétisation)

Prétraitement des données textuelles détection des fins de phrases (les ponctuations ne sont pas toujours des indicateurs de fins de phrases, 12.3.4, p.ex., Dr…. implique l'identifications des mots à problèmes Acronymes FDA = Food and Drug Administration; CO (carbon oxyde, Colorado, commanding officer..) MD (doctor of medicine or Maryland) Phrases ambigues At 8 am I ( At <time> eight am </time> or At 8 am I ( At <number> eight </number> am I dates Temps Monnaie Grands nombres (quelle suite de chiffres,p.ex pour les cartes de crédit)…… ……

5.1.2 Analyseur linguistique principalement le parseur syntactique et sémantique Peuvent utiliser les règles de NLP (Natural language Processing) si elles existent ( elles sont dérivés des grands corpus textuels) Sert à mettre des tags fonctionnels sur des mots et à lever les ambiguités détectés dans le module de prétraitement les ambiguités sémantiques sont souvent difficiles à résoudre ( At 8 am I) Solution possible: utilisation des langages structurés (xml) avec des "tags" spécifiques

5.2 Phonétiseur automatique Plus le vocabulaire est grand, plus on a des problèmes, et il n'existe pas de solution globale, car les problèmes sont très variés: homographes hétérophones i.e. des mots qui s'écrivent de la même façon mais se prononcent différemment (des os, un os) Coarticulation (dans un mot) liaisons phonétiques entre groupes de mots : deux à deux (liaison optionnelle) ou plat exquis (liaison interdite)… en français le e muet ( surtout dans le sud de la France..) nouveaux mots (acronymes y compris) Noms propres

Phonétisation (1)

Phonétisation (2)

5.3 Prosodie C'est la manière de prononciation qui est importante pour la compréhension (dénotation et co-notation); Elle comprend : les pauses le pitch (Fo) la vitesse de prononciation l'amplitude

Prosodie : la « musique » de la parole

5.4 Traitement du signal numérique Transforme la suite de phonèmes et leur prosodie en signal sonore: c'est le module de synthèse Il existe deux familles de synthétiseurs : par règle par concaténation avec modification de la forme d'onde (prosodie) sans modification de la forme d'onde en domaine limité (enregistrement de phrases entières)

Qu’est-ce qu’un diphone ?

Concaténation de diphones

5.5 Qualité et couverture textuelle Concaténation domaine limité Concaténation sans modif forme d'onde Bonne Concaténation avec modif. forme d'onde par règles Mauvaise elevé basse Couverture textuelle (pourcentage de phrases de qualité maximale)

5.6 Synthétiseurs par règle Avec les phones + prosodie on utilise des règles (Pitch, contour, formants,… 40 paramètres) avec modèles de production (LPC) Laborieux et de mauvaise qualité

5.7 Synthétiseurs par concaténation Concaténation de quelles unités: mots syllabes tri-phones di-phones Qualité qui augmente lorsque la taille des unités augmente (mais on besoin de bases de données plus grandes ) Problème de couverture

6. Évaluation est un problème difficile, et pour le moment il n'existent pas de normes d'évaluation communes. Problèmes rencontrés: dépendance de la tâche (réservations de vols, lecture de e-mails ) test au laboratoire différent des test réels évaluation automatique ou par des utilisateurs humains Si utilisateurs humains : préférence subjective vs efficacité

7. Des alternatives Utiliser plusieurs sources d'information pour lever les ambiguïtés, ou les problèmes dues au conditions difficiles … Par ex : à la place des machines parlantes introduire des visages parlants

Liens Internet Synthèse http://tcts.fpms.ac.be/synthesis/mbrola.html http://www.bell-labs.com/project/tts/#examples http://www.cstr.ed.ac.uk/projects/festival/ http://www.research.att.com/projects/tts/ Codage http://people.qualcomm.com/karn/voicedemo/

8.3 Codeurs segmentaux Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales. Résultats similaires dans l'implémentation des systèmes dépendant du locuteur. Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.

Recherche actuelle