Traitement de la parole : Synthèse et reconnaissance

Slides:



Advertisements
Présentations similaires
QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Advertisements

Le Signal Vocal Notions sur l’audition Allure temporelle
Rééducation orthophonique du langage oral
Identification automatique des langue
Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire.
Reconnaissance de la parole
Cours parole du 2 Mars 2005 enseignants: Dr
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Mesures dans le domaine fréquentiel
La découverte du code Animation pédagogique – la construction du principe alphabétique – 06/12/2006.
Université Paris 3 La Dictée vocale SLFD Johanna Deron.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
La reconnaissance vocale
La maîtrise de la langue orale en maternelle
SON COMPLEXE - SPECTRE Le son pur est un modèle mathématique (sinusoïde…) Un son complexe peut être décomposé en une sommes de sinusoïdes (Théorème de.
Directeur de thèse : Régine André-Obrecht
Reconnaissance de la parole
Traitement Automatique de la Langue:
Approche critique des produits IdL Master 1 IdL Année
Reconnaissance de mots isolés Et Reconnaissance de mots connectés.
Décodage des informations
Hésitations autonomes en 8 langues :
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Le cahier de charge d'un système de RAP
Reconnaissance Vocale
Jeopardy - Révision Final Jeopardy $100 $100 $100 $100 $100 $200 $200
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
Jeopardy $100 ArticulationVoyelles 1Voyelles 2Acoustique 1Acoustique 2 $200 $300 $400 $500 $400 $300 $200 $100 $500 $400 $300 $200 $100 $500 $400 $300.
États du larynx Phonologie Théories et traits Règles phonologiques
Jeopardy - Révision Final Jeopardy Articulation Voyelles Consonnes
L'audition.
‘The Voice Company’ Du texte à la Parole
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
LANGUE ET COMMUNICATION
Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique
Chapitre Théories et modèles perceptifs
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Le français dans tous les sens
L’approche du code au cycle 2
Portail de la linguistique
Traitement automatique de la langue
A. E. ARCHAKIAN Université Linguisitique V. Brioussov Chaire de pédagogie et de méthodolgie de l’enseignement des langues étrangères Erévan 2010.
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
La perception de la parole
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
GSD langue française - Boumerdès 19 et 30 avril 2013
1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
La méthodologie verbo-tonale de correction phonétique
Reconnaissance automatique de la parole
Juillet 2001  Les organes Cavité nasale Cavité buccale Langue Épiglotte et cordes vocales Trachée Voile du palais.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Voix, parole, langage, langue
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Synthèse de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage
TRAITEMENT DE LA PAROLE
Le Traitement Automatique des Langues (TAL)
La perception de la parole
Comment mon Iphone peut-il reconnaître mes paroles?
Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Traitement de la parole : Synthèse et reconnaissance

Plan La parole, c’est quoi ? Analyse de la parole Parole et IdL Synthèse vocale Reconnaissance vocale Evaluation

1. La parole, c’est quoi ?

Production Perception Signal acoustique « en 3 étapes » Appareil respiratoire & appareil phonatoire Types de sons Voyelles : orale / nasales Consonnes : fricatives, occlusives, liquides, nasales. (voisées / non voisées) Perception Vibrations mécanique -> impulsions nerveuses Même schéma que schéma général du TAL : Perception > signal > traduction « cognitive » > compréhension -> Production > idée à formuler > traduction en action neuro-musculaires > production d’un signal acoustique <- Production Parole est un signal acoustique produit grâce à la coordination de certains muscles du système articulatoire. Pour produire de la parole, il faut produire un souffle, faire vibrer les cordes vocales, et modeler et faire résonner les vibrations. Ex son bouche fermée, puis changement son avec changement bouche. Appareil respiratoire pousse l’air dans appareil phonatoire pour produire le son. Appareil phonatoire : larynx, cordes vocales, cavités (nez, bouche, pharynx), muscles (lèvres, langue, muscles de la mâchoire). Les sons correspondent à des états de l’appareil phonatoire : état des cordes vocales (tendus/relâchées), position, forme, taille des cavités. Ces états déterminent la nature des sons produits : VOYELLES (conduit vocal ouvert) / CONSONNES (rétrécissement du conduit vocal) Signal sonore : le son est une onde sui se propage dans un milieu grâce à et en fonction de son élasticité.

Caractériser la parole Facteurs physiques Fréquence et hauteur Prosodie Intonation Rythme Intensité Timbre Autres facteurs Les émotions dans la parole Son est une onde: propagation d'une perturbation produisant sur son passage une variation réversible des propriétés physiques locales. Onde caractérisée par sa période et sa fréquence T=1/F Donc son caractérisé par sa fréquence. Et son caractérisé par sa hauteur (grave ou aïgu) les deux étant intimement liés puisque + fr haute, + son aïgu.Ex : humain entend entre 16Hz et 20 kHz, chauve-souris jusqu’à 100 kHz et éléphant en infra son… La prosodie : ensemble des phénomènes dits supra-segmentaux, c'est-à-dire échappant au découpage de la chaîne parlée en phonèmes : intonation, rythmes, intensité Intonation : propre des langues, ex langue à ton/ ou pas… Se mesue à partir de la fréquence fondamentale. Cette fréquence est variable au cours du temps, correspond à une fréquence de vibration des cordes vocales. Rythme : durée naturelle des sons élémentaires (phonèmes) L'intensité : volume sonore. le son peut être fort ou doux (les musiciens disent forte ou piano). Cette intensité dépend (entre autres) de l'amplitude : Dans l'air, l'amplitude correspond aux variations de pression de l'onde. Timbre : C’est la caractéristique qui peut identifier un son d’une façon unique. Deux sons peuvent avoir la même fréquence fondamentale et la même intensité; mais ne peuvent jamais avoir le même timbre. Emotion dans la parole, ce qui est le plus difficile à carcatériser. Peu de travaux à ce sujet, mais si vous êtes intéressé lire travaux de Nicolas Audibert.

2. Analyse de la parole

Analyse de la parole Discipline : au croisement du traitement du signal et des sciences du langage Traits acoustiques d’un signal de parole Fréquence fondamentale Spectre sonore Energie Ttmt signal : étudie les techniques de traitement, analyse et interprétation de signaux sonores. Pour traitement du signal de parole, besoin de connaissances supplémentaires sur les caractéristiques du système phonatoire, et phonétiques (sons de la parole) et phonologie (sons à valeur linguistique). Traitement du signal et besoin d’automatisation du traitement : travail sur spectrogrammes, auxquels on applique modèles et calculs pour de la reco. Dans sens inverse, produire un spectro dans cadre de synthèse de parole. Fréquence fondamentale : harmonique de 1er rang d’un son, et elle détermine la hauteur d’un son. Sa variation au cours du temps est le changement Spectre sonore : décomposition du son. En harmoniques et inharmoniques. Harmonique > distribution en fréquence de l’énergie du signal. Forme du signal, issue du filtrage du signal par le consuit vocal.

Modélisation du signal acoustique Signal de parole Non stationnaire à long terme Stationnaire à (très) court terme Production image acoustique significative Synthèse : produire une telle image Reco : extraire info de cette image Possible d’effectuer une analyse fréquentielle sur du court terme > mesure de 30ms (fenêtrage retenu couramment). Donc possible de modéliser évolution du signal acoustique par juxtaposition de ces fenêtres > production d’une image acoustique significatve.

Modélisation du signal acoustique Trouver des traits acoustiques caractéristiques Voyelles : les formants Maxima d’énergie dans un spectre de parole Fréquence, Amplitude et bande passante F1 et F2 pour triangle acoustique Consonnes Occlusives : silence puis perturbation Fricatives : bruit de friction Sonnantes : formants et peu de bruit Construction d’un modèle acoustique bandes de fréquence dont l'énergie est particulièrement élevée. Dans le spectrogramme, les formants apparaissent sous la forme de bandes sensiblement parallèles à l’abscisse. Les voyelles sont souvent représentées positionnées sur un plan, dont les axes sont les formants F1 et F2. Elles tracent alors un triangle dont les extrémités sont occupées par les voyelles "extrêmes", c'est-à-dire [a], [u], [i]. Ce triangle représente également, de manière assez grossière, les positions de la langue dans la bouche selon deux axes : + Antérieur à postérieur; + Fermé à ouvert. Consonnes : Les occlusives sont caractérisées par un silence provenant de la fermeture complète du conduit vocal (occlusion) en un point précis. Ce point d’occlusion peut être : + les lèvres (labiale) pour [b] et [p]; + les dents (dentale ou post-dentale) pour [t] ou [d], elles sont dites alvéolaires; + le palais (palato-vélaire ou vélaire) pour [k] ou [g]; La fin de l’occlusion provoque une perturbation acoustique, sous la forme d’une onde de pression due au relâchement de l’air qui était comprimé par l’occlusion. Cette perturbation est de courte durée (5 à 35 ms) mais peut être intense (sauf dans le cas des occlusives sonores). Les fricatives (ou constrictives), sont des bruits produits par l’écoulement turbulent de l’air. Lorsque cet écoulement rencontre un rétrécissement, un lieu de constriction, il se produit un bruit de friction. Sur un spectrogramme, le bruit de friction apparaît comme une zone diffuse. Elle est localisée : + Entre 4 et 8 kHz pour les consonnes [s] ou [z]; + Entre 1,6 et 7 kHz pour les consonnes [ò] ou [z ], avec deux concentrations vers 2 et 4,5 kHz. + Sous forme de formants de bruits vers 3, 5 et 8 kHz pour [f] et [v]. Les consonnes sonnantes (c’est à dire les liquides, les nasales et les semi-consonnes) présentent la particularité de posséder des formants et peu ou pas de bruit.

3. Parole et IdL

3.1. Synthèse vocale

Objectifs Générer de la parole à partir d’un texte De l’orthographe vers la phonétique Du phonétique au son numérique Tendre vers de la parole « naturelle » : prononciation et prosodie « écologiques » technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Historique 1ère génération : 1965 -1985 2ème génération : depuis 1985 Synthèse par règles / par formants Exc 2ème génération : depuis 1985 Synthèse vocale par diphones Portions de parole naturelle « concaténée » Sélecton de diphones/d’unités Exclusivement synthétiques > des règles de paroles, en relation avec mémoire infotq limitée à cette époque. Diphones : petits segements élémentaires de parole naturelle. Ex Fr : à partir d’une base de 1200 diphones, soit 120 s de parole, soit 2 Mo. Parole + naturellle mais reste q? longueur phonème Intonation Accent tonique Idée : augmenter le volume de donnérs qu’il serait possible de concaténer, plusieurs extraits pour un même diphone : plusieurs contextes. Ainsi, réduire les mauvaises transitions.

Aspect technique Transcription phonétique Transformer une forme orthographique en une séquence de phonèmes Règles de réécriture en contexte Lexique d’exception Application de règles à cette séquence Formants / diphones Gestion de la prosodie Gestion des émotions (?) Réécriture: attention à la catégorie grammaticale : les présidents président… Lexique d’exception > clef Formants / diphones Formants : utilisation des 3 1er formants.Généralement, une voix, c’est à dire une fréquence fondamentale. Avec un modèle acoustique, on connaît emplacement des formants sur le triangle acoustique, dons possible de produire un signal dont la fréquence dans le temps correspond au modèle d’un formant. Avec diphone, règles de concaténation. Gestion de la prosodie (variation de l’intonation, du rythme, et l’intensité). Pour être naturelle et crédible, synthèse doit reproduire une prosodie naturelle. Avec - d’importance accordée à l’intensité. Modèle prosodique, difficile à développer mais extrêmement important dans le rendu du logiciel. Autre q?, produire de la parole expressive, pas seulement un jeu d’intonation, mais affecte la qualité de voix, et peut affecter la FF.

Applications Créer des interfaces vocales Vocalisation d’écran Serveurs téléphoniques Outils d’enseignement assisté par ordi Dictée automatique, Apprentissage des langues Applications industrielles Télématique vocale Vocalisation : synthèses vocales pour malvoyants / GPS Serveurs téléphoniques : L'usager est invité à fournir (via les touches de son téléphone) le numéro de téléphone dont il souhaite connaître le titulaire: le nom et l'adresse de celui-ci lui sont alors fournis par synthèse vocale, à partir des informations stockées dans les fichiers Annuaire des opérateurs téléphoniques. Ex synthèse TAG ou SNCF Applications grand-public non-téléphoniques : --domotique (alarmes, appareils domestiques parlants etc.), -- micro-informatique (jeux et CDROMs parlants, bureautique, etc.). Appli indust serveurs d'alerte, de surveillance de sites, de surpervision de réseaux, télémaintenance, fonctions d'aide dans les postes de pilotages, fonction de vérification vocale dans les postes d'édition (correction d'épreuves) ou de saisie d'informations écrites (bases de données), etc. Télématique vocale : --serveurs vocaux d'informations (la synthèse remplaçant la parole naturelle enregistrée pour des informations rapidement évolutives et disponibles sous forme textuelle), --serveurs de lecture vocale de FAX ou de messages électroniques, -- automatisation de services de prise de commande (vente par correspondance), -- automatisation de services de renseignements (Annuaires, standards d'entreprise, etc.).

Retours d’expériences par l’usage Fiabilité et robustesse Intelligibilité parfaite Filtrage « intelligent » Attentes des usagers Naturel de la parole : fluidité et expressivité Voix aux timbres variés Langues traitées Prétraitement des documents Fiabilité et robustesse Comme pour la reconnaissance de la parole, l'utilisation de la synthèse dans des services opérationnels montre que, pour l'usager, la fiabilité du service, et donc la robustesse de la technologie utilisée, est un facteur crucial. Pour la synthèse, cette robustesse consiste d'abord à garantir une intelligibilité parfaite de tous les énoncés "lus" par la machine (y compris les sigles, abréviations, séquences de chiffres, noms propres etc., ainsi que leurs épellations, qui doivent toujours pouvoir être proposées aux utilisateurs) mais aussi le filtrage "intelligent" des parties de documents ne pouvant pas être vocalisées (dessins, schémas, tableaux, etc.). Des modules efficaces, multilingues, de filtrage et prétraitement de textes doivent donc être disponibles pour pouvoir être insérés "en amont" des systèmes de synthèse proprement dit. Les attentes Du point de vue de l'usager, des progrès sont encore manifestement attendus en ce qui concerne le naturel de la parole de synthèse, cette demande de "naturel" portant sur la fluidité de la parole mais surtout sur son "expressivité". (articulation) et (prosodie), il nous semble qu'un effort particulier doit être fait prioritairement en modélisation de la prosodie pour permettre de l'adapter aux divers contextes d'application et rendre ainsi la synthèse "plus expressive". Du point de vue de l'exploitant de la synthèse de parole (industriels et fournisseurs de services), les demandes concernent prioritairement (outre une réduction toujours plus forte des surcoûts associés à l'introduction de la synthèse et une facilité de portage sur tous types d'équipements) la disponibilité (ou la facilité de mise au point) de voix de synthèse aux timbres variés et dans le maximum de langues, afin de pouvoir rentabiliser, sur le marché mondial, les coûts de développement des équipements et services. La disponibilité d'outils génériques de fabrication, la plus automatique possible, de modules de synthèse pour de nouvelles voix et de nouvelles langues, et de modules de filtrage/prétraitement de textes à y associer est donc fortement demandée

Evaluation Test de diagnostic Evaluation globale Tester modules individuellement Evaluation globale Intelligibilité globale Qualité globale Comparaison entre systèmes par utilisateurs Diagnostic modules : Convertion ortho-phonét Étiquetage gram Découpage syntaxe-prosodie Netteté phonétique Ce test, dit "SUS" (Semantically Unpredictable Sentences: phrases sémantiquement non prévisibles), est essentiellement destiné à quantifier l'intelligibilité globale d'un système de synthèse (Benoît et al., 1989). 20 phrases sémantiquement imprédictibles, représentant 5 structures syntaxiques différentes et disponibles en 3 langues (Allemand, Anglais et Français) sont fournies en entrée des systèmes de synthèse. La tâche des auditeurs consiste à transcrire ce qu'ils ont entendu. Le nombre de mots correctement identifiés permet de calculer le score d'intelligibilité des systèmes de synthèse. Des comparaisons quantitative d'intelligibilité sont ainsi possibles entre langues. Plusieurs systèmes de synthèse et/ou systèmes de traitement de parole "de référence" (codage) sont testés simultanément. Les messages (synthétisés ou codés), présentés aux auditeurs, ont un contenu sémantique représentatif de celui des messages susceptibles d'être émis par un serveur vocal, dans un contexte d'application réelle. Lors d'une première écoute, les auditeurs doivent transcrire (tâche 1) la partie des informations contenues dans les messages correspondant aux questions qui leurs sont posées. Lors d'une seconde écoute, ils doivent exprimer leur opinion (tâche 2) à l'aide de 8 échelles d'opinion à 5 points, en répondant à 4 questions relatives à l'intelligibilité (impression générale, effort d'écoute, difficultés de compréhension, articulation) et à 4 questions relatives à la qualité (impression générale, qualité de prononciation, débit, agrément de la voix). Pour les réponses à la tâche de transcription, on comptabilise une faute pour toute réponse incomplète ou erronée quels que soient la nature et le nombre d'erreurs dans la réponse. Pour les réponses aux échelles d'opinion, on calcule les notes moyennes d'opinion (MOS, mean opinion scores).

3.2. Reconnaissance vocale

Objectifs Analyser un signal de parole pour le transcrire sous une forme exploitable par la machine Reconnaissance vocale Vérification du locuteur Identification du locuteur 1er système : Bell Labs (1952) Reconnaissance de chiffres isolés Reco vocale : convertir un essage oral en message écrit. Ex d’un dictée. Vérif du loc, c’est savoir si ce loc est connu Identfication est une discrimination beaucoup pus fine et complexe.

Principe A partir d’un signal de parole Extraire une image acoustique (par tranches) Numériser le signal pour le donner en entrée du système Mise en relation des segments de parole et des éléments lexicaux Reconstitution du discours le plus probable D’une chaîne d’acquisition du signal sonore (microphone et carte son) chargée de recueillir, échantillonner et numériser la parole. D’un moteur de reconnaissance vocale dont le rôle est de traduire ces données sonores en un texte écrit (fig. 1). Image consituée de tranche de 30 ms Numérisation sous forme de vecteurs.Numérisation et Paramétrage par une analyse fréquentielle utilisant les transformées de Fourier (genre MFCC) Apprentissage automatique > modélisation statistique avec chaînes de markov cachées ou réseaux de neurones Apprendre que pour un segment de parole il y a tant d’éléments lexicaux possible Reconstitution de la chaine du discours.par mise en correspondance de motif (algo Dynamic time Warping) > (explorer en arbre le champ des possibles).

Principe (2) Modèles sous-jacents Modèle acoustique : à partir du résultat du traitement du signal, donner la probabilité que le signal corresponde à chacun des phonèmes de la langue cible Modèle de prononciation Prononciation(s) possible(s) pour chaque mot du vocabulaire (et proba associée(s)) Modèle de langage Proba de suite de mots

Application Interfaces Homme-machine Aéronotique / automobile Systèmes embarqués Bureautique Enseignement assisté par ordinateur Dans les avions il y a un domaine d’application important en ce qui concerne les commandes vocales. Tout cela pour permettre aux pilotes de commander par la voix diverses commandes (radar, radio…) En ce qui concerne les automobiles, il y a le GPS, qui permet au conducteur d’avoir à sa disposition la connaissance du trajet, ainsi que l’évolution de la circulation, tout ceci marqué par des messages vocaux. Bureautique : dictée vocale. Phase d’apprentissage importante système électronique et informatique autonome, qui est dédié à une tâche bien précise. Ses ressources disponibles sont généralement limitées. Cette limitation est généralement d'ordre spatial (taille limitée) et énergétique (consommation restreinte). le Apollo Guidance Computer, le système de guidage de la mission lunaire Apollo

Evaluation Utilisation du WER (Word Error Rate) Taux de mots incorrectement reconnus par rapport à un texte de référence Mots isolés ou parole continue ? Variabilité inter/intra locuteur ? Naturel du discours ? distance de Levenshtein, en travaillant au niveau des mots au lieu des caractères. Il indique le taux de mots incorrectement reconnus par rapport à un texte de référence. Au plus le taux est faible (minimum 0.0) au plus la reconnaissance est bonne. Le taux maximum n'est pas borné et peut dépasser 1.0 en cas de très mauvaise reconnaissance s'il y a beaucoup d'insertions.