Traitement automatique de la parole hiver

Slides:



Advertisements
Présentations similaires
LANGUES VIVANTES à l’Ecole Primaire
Advertisements

APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Reconnaissance de la parole
Cours parole du 2 Mars 2005 enseignants: Dr
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Cours parole du 2 Mars 2005 enseignants: Dr
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Proposition de stratégie
Architecture de réseaux
A Pyramid Approach to Subpixel Registration Based on Intensity
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Apprendre à lire.
Directeur de thèse : Régine André-Obrecht
Reconnaissance de la parole
Traitement Automatique de la Langue:
L’observation réfléchie de la langue au cycle 3
Initiation au système d’information et aux bases de données
Initiation au système d’information et aux bases de données
Construire une base de données bibliographiques Elaborer un site web
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
Évaluation des IHM et ergonomie
Démarche de résolution de problèmes
Tice (logiciels) et aide personnalisée.
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Le Travail Collaboratif ...
Le cahier de charge d'un système de RAP
Représentations des objectifs à atteindre dans l’apprentissage des langues: processus qualifiant et compétences plurilingues Patrick Chardenet Maître de.
SCIENCES DE L ’INGENIEUR
Test bilan de calcul mental N°1 :
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
DISPOSITIF DÉVALUATION diagnostique de la maîtrise de la langue et des mathématiques CM2 Version 2007.
Conscience phonologique
Reconnaissance Vocale
IGL301 - Spécification et vérification des exgiences 1 Chapitre 1 Introduction (ref : Bray chapitre 1)
Courbes de Bézier.
‘The Voice Company’ Du texte à la Parole
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
Chapitre 3 La cinématique à une dimension
Qu'est ce que savoir lire ?
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
La veille numérique : un outil pour s'informer intelligemment &
Le FLE en contexte migratoire
Paradigmes des Langages de Programmation
Master 1 – Sciences du Langage –
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Traitement de la parole : Synthèse et reconnaissance
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Algorithmes et Programmation
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.

Fonctionnement du moteur vocal VoiXtreme
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Introduction de Mme Safra IGEN Conférence du 22 mai 2006.
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Synthèse de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage
( ) Collège de Maisonneuve
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
TRAITEMENT DE LA PAROLE
Le Traitement Automatique des Langues (TAL)
Progression/Programmation – Français (1/3)
PPRE Situation : Elève CP fin janvier Problème de déchiffrage.
Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.
LES PROBLÈMES DE LA TRADUCTION. NE PAS CONFONDRE MÉTHODE conforme au contexte et au but de la traduction, choix global pour tout le texte, pas de méthode.
Transcription de la présentation:

Traitement automatique de la parole hiver 2003-2004 28 Janvier 2004 Synthèse de la parole Dr. Dijana Petrovska-Delacrétaz DIVA group, DIUF

Synthèse vocale à partir du texte ("Text to Speech-TTS") Définitions Applications Situation actuelle AI et HI Composants Évaluation Des alternatives

Biblio Traitement de la parole, R.Boite… (chapitre 7) Spoken Language Processing, X. Xuang…. (Part 4, chapitres 14 -16)

1. Définitions Système de synthèse vocale à partir du texte ("text to speech -TTS« ) ? idéalement s'est une machine capable de synthétiser (lire) n'importe quel texte (même des mots nouveaux), imitant n'importe quel locuteur, de manière aussi fidèle que possible (intelligibilité, spontanéité) et en conservant toutes les informations présentes dans le message vocal. Provenance du texte: à partir d'un texte introduit sur un clavier, scanné, issu d'un système de reconnaissance optique des caractères ("Optical Character Recognition- OCR"), ou produit automatiquement par un système de dialogue homme-machine.

2. Applications prévues Ceci nous permettrait (dans le futur) d'attendre les buts suivants: d'atteindre des taux de compression élevés (utile p.ex. dans la transmission des messages parlés) d'avoir une grande flexibilité concernant le choix des voix de synthèse de préserver des informations extra-textuelles (stress, prosodie, vitesse d’élocution,…) d'avoir une méthode de représentation alternative aux documents textuels (utile plus pour les aveugles, ou pour des applications mains-libres ) de disposer d'un système complet et convivial de dialogue homme-machine

mais encore Aide à l’apprentissage (ou perfectionnement) de langues étrangères (système tonal du chinois ou les variations de Fo ont des signification différentes, traducteur multi-langues) Monde ludique des livres et jouets parlants Monitoring vocal pour des informations urgentes ou multiples (pilote d'avions) Améliorer nos connaissance théoriques sur la phonétique, compréhension de la parole, perception

3. Situation actuelle des synthétiseurs de parole à partir du texte possible pour un très petit nombre de locuteurs (voix féminine ou masculine) pour un vocabulaire restreint pour des langues pour lesquelles des grosses bases de données existent, et dont la grammaire est bien étudié pour des nouvelle langues il faut tout recommencer Constatation: on est loin du but !

4. AI et « HI » Pour l'être humain c'est une tâche triviale: qui n'est pas innée (comme la vision) l'homme en a l'exclusivité elle s'acquiert progressivement et d'une manière parfaite pour la langue maternelle, et un petit nombre d'autre langues… On ne connaît pas ou très peu les mécanismes impliqués => on n'a pas d’exemple à suivre

5. Modules et flux de données des systèmes TTS texte Traitement du langage naturel (analyse morpho-synthaxique) Formalismes linguistiques Moteurs d'inférence Inférences logiques Traitement du signal numérique Modèles mathématiques Algorithmes Calculs numériques Phonèmes Prosodie

5.1 Module traitement du langage naturel Pré-processeur: transforme le texte, de façon à identifier des séquences de caractères qui risquent de poser un problème (nombres, abréviations, acronymes, …) Analyseur morphologique: identifie les natures possibles pour chaque mot individuellement (nom, prénom, verbe,…) Analyseur contextuel : comme avant mais en contexte, donc permet de réduire la liste des natures possibles; Analyseur syntaxique-prosodique : affine les résultat de l'analyseur contextuel, et établit un découpage de texte en groupes de mots, pour leur associé une prosodie. Convertisseur graphème -phonème (phonétisation)

5.1.1 Prétraitement des données textuelles détection des fins de phrases (les ponctuations ne sont pas toujours indicateurs de fins de phrases, 12.3.4, p.ex., Dr…. implique l'identifications des mots à problèmes Acronymes FDA = Food and Drug Administration; CO (carbon oxyde, Colorado, commanding officer..) MD (doctor of medicine or Maryland) Phrases ambigues At 8 am I ( At <time> eight am </time> or At 8 am I ( At <number> eight </number> am I dates Temps Monnaie Grand nombres (quelle suite de chiffres,p.ex pour les cartes de crédit)…… ……

5.1.2 Analyseur linguistique principalement le parseur syntactique e t sémantique Peuvent utiliser les règles de NLP (Natural language Processing) si elles existent ( elles sont dérivés des grands corpus textuels) Sert a mettre des tags fonctionels sur des mots et a lever les ambiguités détectés dans le module de prétraitment les ambigités semantiques sont souvent difficiles a resoudre ( At 8 am I) Solution possible: utilisation des langages structurés (xml) avec des "tags" spécifiques

5.2 Phonétiseur automatique Plus le vocabulaire est grand, plus on a des problèmes, et il n'existe pas de solution globale, car les problèmes sont très variés: homographes hétérophones i.e. des mots qui s'écrivent de la même façon mais se prononcent différemment (des os, un os) Coarticulation (dans un mot) liaisons phonétiques entre groupes de mots : deux à deux (liaison optionnelle) ou plat exquis (liaison interdite)… en français le e muet ( surtout dans le sud de la France..) nouveaux mots (acronymes y compris) Noms propres

5.3 Prosodie C'est la manière de prononciation qui est importante pour la compréhension (dénotation et co-notation); Elle comprend : les pauses le pitch (Fo) la vitesse de prononciation l'amplitude

5.4 Traitement du signal numérique Transforme la suite de phonèmes et leur prosodie en signal sonore : c'est le module de synthèse Il existe deux familles de synthétiseurs : par règle par concaténation avec modification de la forme d'onde (prosodie) sans modification de la forme d'onde en domaine limité (enregistrement de phrases entières)

5.5 Qualité et couverture textuelle Concaténation domaine limité Concaténation avec sans forme d'onde Bonne Concaténation avec modif. forme d'onde par règles Mauvaise elevé basse Couverture textuelle (pourcentage de phrases de qualité maximale)

5.6 Synthétiseurs par règle Ave les Phonèmes +prosodie on utilise des => règles (Pitch, contour, formants,… 40 paramètres) avec modèles de production LPC) Laborieux et de mauvaise qualité

5.7 Synthétiseurs par concaténation Concaténation de quelles unités: mots syllabes tri-phones di-phones Qualité qui augmente lorsque la taille des unités augmente (mais on besoin de bases de données plus grandes ) Problème de la couverture

6. Évaluation est un problème difficile, et pour le moment il n'existent pas de normes d'évaluation communes. Problème rencontrés: dépendance de la tâche (réservations de vols, lecture de e-mails ) test au laboratoire différent des test réels évaluation automatique ou par des utilisateurs humains Si utilisateurs humains : préférence subjective vs efficacité

7. Des alternatives Utiliser plusieurs sources d'information pour lever les ambiguïtés, ou les problèmes dues au conditions difficiles … P.ex à la place des machines parlantes introduire des visages parlants