Traitement de la parole : Synthèse et reconnaissance

Name: Traitement de la parole : Synthèse et reconnaissance
Uploaded: 2017-07-18T21:37:55+00:00
Duration: PTM22S4
Channel: Maximilien Mahieu
Description: Traitement de la parole : Synthèse et reconnaissance

Traitement de la parole : Synthèse et reconnaissance

Plan La parole, c’est quoi ? Analyse de la parole Parole et IdL
Synthèse vocale Reconnaissance vocale Evaluation

1. La parole, c’est quoi ?

Production Perception
Signal acoustique « en 3 étapes » Appareil respiratoire & appareil phonatoire Types de sons Voyelles : orale / nasales Consonnes : fricatives, occlusives, liquides, nasales. (voisées / non voisées) Perception Vibrations mécanique -> impulsions nerveuses Même schéma que schéma général du TAL : Perception > signal > traduction « cognitive » > compréhension -> Production > idée à formuler > traduction en action neuro-musculaires > production d’un signal acoustique <- Production Parole est un signal acoustique produit grâce à la coordination de certains muscles du système articulatoire. Pour produire de la parole, il faut produire un souffle, faire vibrer les cordes vocales, et modeler et faire résonner les vibrations. Ex son bouche fermée, puis changement son avec changement bouche. Appareil respiratoire pousse l’air dans appareil phonatoire pour produire le son. Appareil phonatoire : larynx, cordes vocales, cavités (nez, bouche, pharynx), muscles (lèvres, langue, muscles de la mâchoire). Les sons correspondent à des états de l’appareil phonatoire : état des cordes vocales (tendus/relâchées), position, forme, taille des cavités. Ces états déterminent la nature des sons produits : VOYELLES (conduit vocal ouvert) / CONSONNES (rétrécissement du conduit vocal) Signal sonore : le son est une onde sui se propage dans un milieu grâce à et en fonction de son élasticité.

Caractériser la parole
Facteurs physiques Fréquence et hauteur Prosodie Intonation Rythme Intensité Timbre Autres facteurs Les émotions dans la parole Son est une onde: propagation d'une perturbation produisant sur son passage une variation réversible des propriétés physiques locales. Onde caractérisée par sa période et sa fréquence T=1/F Donc son caractérisé par sa fréquence. Et son caractérisé par sa hauteur (grave ou aïgu) les deux étant intimement liés puisque + fr haute, + son aïgu.Ex : humain entend entre 16Hz et 20 kHz, chauve-souris jusqu’à 100 kHz et éléphant en infra son… La prosodie : ensemble des phénomènes dits supra-segmentaux, c'est-à-dire échappant au découpage de la chaîne parlée en phonèmes : intonation, rythmes, intensité Intonation : propre des langues, ex langue à ton/ ou pas… Se mesue à partir de la fréquence fondamentale. Cette fréquence est variable au cours du temps, correspond à une fréquence de vibration des cordes vocales. Rythme : durée naturelle des sons élémentaires (phonèmes) L'intensité : volume sonore. le son peut être fort ou doux (les musiciens disent forte ou piano). Cette intensité dépend (entre autres) de l'amplitude : Dans l'air, l'amplitude correspond aux variations de pression de l'onde. Timbre : C’est la caractéristique qui peut identifier un son d’une façon unique. Deux sons peuvent avoir la même fréquence fondamentale et la même intensité; mais ne peuvent jamais avoir le même timbre. Emotion dans la parole, ce qui est le plus difficile à carcatériser. Peu de travaux à ce sujet, mais si vous êtes intéressé lire travaux de Nicolas Audibert.

2. Analyse de la parole

Analyse de la parole Discipline : au croisement du traitement du signal et des sciences du langage Traits acoustiques d’un signal de parole Fréquence fondamentale Spectre sonore Energie Ttmt signal : étudie les techniques de traitement, analyse et interprétation de signaux sonores. Pour traitement du signal de parole, besoin de connaissances supplémentaires sur les caractéristiques du système phonatoire, et phonétiques (sons de la parole) et phonologie (sons à valeur linguistique). Traitement du signal et besoin d’automatisation du traitement : travail sur spectrogrammes, auxquels on applique modèles et calculs pour de la reco. Dans sens inverse, produire un spectro dans cadre de synthèse de parole. Fréquence fondamentale : harmonique de 1er rang d’un son, et elle détermine la hauteur d’un son. Sa variation au cours du temps est le changement Spectre sonore : décomposition du son. En harmoniques et inharmoniques. Harmonique > distribution en fréquence de l’énergie du signal. Forme du signal, issue du filtrage du signal par le consuit vocal.

Modélisation du signal acoustique
Signal de parole Non stationnaire à long terme Stationnaire à (très) court terme Production image acoustique significative Synthèse : produire une telle image Reco : extraire info de cette image Possible d’effectuer une analyse fréquentielle sur du court terme > mesure de 30ms (fenêtrage retenu couramment). Donc possible de modéliser évolution du signal acoustique par juxtaposition de ces fenêtres > production d’une image acoustique significatve.

Modélisation du signal acoustique
Trouver des traits acoustiques caractéristiques Voyelles : les formants Maxima d’énergie dans un spectre de parole Fréquence, Amplitude et bande passante F1 et F2 pour triangle acoustique Consonnes Occlusives : silence puis perturbation Fricatives : bruit de friction Sonnantes : formants et peu de bruit Construction d’un modèle acoustique bandes de fréquence dont l'énergie est particulièrement élevée. Dans le spectrogramme, les formants apparaissent sous la forme de bandes sensiblement parallèles à l’abscisse. Les voyelles sont souvent représentées positionnées sur un plan, dont les axes sont les formants F1 et F2. Elles tracent alors un triangle dont les extrémités sont occupées par les voyelles "extrêmes", c'est-à-dire [a], [u], [i]. Ce triangle représente également, de manière assez grossière, les positions de la langue dans la bouche selon deux axes : + Antérieur à postérieur; + Fermé à ouvert. Consonnes : Les occlusives sont caractérisées par un silence provenant de la fermeture complète du conduit vocal (occlusion) en un point précis. Ce point d’occlusion peut être : + les lèvres (labiale) pour [b] et [p]; + les dents (dentale ou post-dentale) pour [t] ou [d], elles sont dites alvéolaires; + le palais (palato-vélaire ou vélaire) pour [k] ou [g]; La fin de l’occlusion provoque une perturbation acoustique, sous la forme d’une onde de pression due au relâchement de l’air qui était comprimé par l’occlusion. Cette perturbation est de courte durée (5 à 35 ms) mais peut être intense (sauf dans le cas des occlusives sonores). Les fricatives (ou constrictives), sont des bruits produits par l’écoulement turbulent de l’air. Lorsque cet écoulement rencontre un rétrécissement, un lieu de constriction, il se produit un bruit de friction. Sur un spectrogramme, le bruit de friction apparaît comme une zone diffuse. Elle est localisée : + Entre 4 et 8 kHz pour les consonnes [s] ou [z]; + Entre 1,6 et 7 kHz pour les consonnes [ò] ou [z ], avec deux concentrations vers 2 et 4,5 kHz. + Sous forme de formants de bruits vers 3, 5 et 8 kHz pour [f] et [v]. Les consonnes sonnantes (c’est à dire les liquides, les nasales et les semi-consonnes) présentent la particularité de posséder des formants et peu ou pas de bruit.

3. Parole et IdL

3.1. Synthèse vocale

Objectifs Générer de la parole à partir d’un texte
De l’orthographe vers la phonétique Du phonétique au son numérique Tendre vers de la parole « naturelle » : prononciation et prosodie « écologiques » technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Historique 1ère génération : 1965 -1985 2ème génération : depuis 1985
Synthèse par règles / par formants Exc 2ème génération : depuis 1985 Synthèse vocale par diphones Portions de parole naturelle « concaténée » Sélecton de diphones/d’unités Exclusivement synthétiques > des règles de paroles, en relation avec mémoire infotq limitée à cette époque. Diphones : petits segements élémentaires de parole naturelle. Ex Fr : à partir d’une base de 1200 diphones, soit 120 s de parole, soit 2 Mo. Parole + naturellle mais reste q? longueur phonème Intonation Accent tonique Idée : augmenter le volume de donnérs qu’il serait possible de concaténer, plusieurs extraits pour un même diphone : plusieurs contextes. Ainsi, réduire les mauvaises transitions.

Aspect technique Transcription phonétique
Transformer une forme orthographique en une séquence de phonèmes Règles de réécriture en contexte Lexique d’exception Application de règles à cette séquence Formants / diphones Gestion de la prosodie Gestion des émotions (?) Réécriture: attention à la catégorie grammaticale : les présidents président… Lexique d’exception > clef Formants / diphones Formants : utilisation des 3 1er formants.Généralement, une voix, c’est à dire une fréquence fondamentale. Avec un modèle acoustique, on connaît emplacement des formants sur le triangle acoustique, dons possible de produire un signal dont la fréquence dans le temps correspond au modèle d’un formant. Avec diphone, règles de concaténation. Gestion de la prosodie (variation de l’intonation, du rythme, et l’intensité). Pour être naturelle et crédible, synthèse doit reproduire une prosodie naturelle. Avec - d’importance accordée à l’intensité. Modèle prosodique, difficile à développer mais extrêmement important dans le rendu du logiciel. Autre q?, produire de la parole expressive, pas seulement un jeu d’intonation, mais affecte la qualité de voix, et peut affecter la FF.

Applications Créer des interfaces vocales
Vocalisation d’écran Serveurs téléphoniques Outils d’enseignement assisté par ordi Dictée automatique, Apprentissage des langues Applications industrielles Télématique vocale Vocalisation : synthèses vocales pour malvoyants / GPS Serveurs téléphoniques : L'usager est invité à fournir (via les touches de son téléphone) le numéro de téléphone dont il souhaite connaître le titulaire: le nom et l'adresse de celui-ci lui sont alors fournis par synthèse vocale, à partir des informations stockées dans les fichiers Annuaire des opérateurs téléphoniques. Ex synthèse TAG ou SNCF Applications grand-public non-téléphoniques : --domotique (alarmes, appareils domestiques parlants etc.), -- micro-informatique (jeux et CDROMs parlants, bureautique, etc.). Appli indust serveurs d'alerte, de surveillance de sites, de surpervision de réseaux, télémaintenance, fonctions d'aide dans les postes de pilotages, fonction de vérification vocale dans les postes d'édition (correction d'épreuves) ou de saisie d'informations écrites (bases de données), etc. Télématique vocale : --serveurs vocaux d'informations (la synthèse remplaçant la parole naturelle enregistrée pour des informations rapidement évolutives et disponibles sous forme textuelle), --serveurs de lecture vocale de FAX ou de messages électroniques, -- automatisation de services de prise de commande (vente par correspondance), -- automatisation de services de renseignements (Annuaires, standards d'entreprise, etc.).

Retours d’expériences par l’usage
Fiabilité et robustesse Intelligibilité parfaite Filtrage « intelligent » Attentes des usagers Naturel de la parole : fluidité et expressivité Voix aux timbres variés Langues traitées Prétraitement des documents Fiabilité et robustesse Comme pour la reconnaissance de la parole, l'utilisation de la synthèse dans des services opérationnels montre que, pour l'usager, la fiabilité du service, et donc la robustesse de la technologie utilisée, est un facteur crucial. Pour la synthèse, cette robustesse consiste d'abord à garantir une intelligibilité parfaite de tous les énoncés "lus" par la machine (y compris les sigles, abréviations, séquences de chiffres, noms propres etc., ainsi que leurs épellations, qui doivent toujours pouvoir être proposées aux utilisateurs) mais aussi le filtrage "intelligent" des parties de documents ne pouvant pas être vocalisées (dessins, schémas, tableaux, etc.). Des modules efficaces, multilingues, de filtrage et prétraitement de textes doivent donc être disponibles pour pouvoir être insérés "en amont" des systèmes de synthèse proprement dit. Les attentes Du point de vue de l'usager, des progrès sont encore manifestement attendus en ce qui concerne le naturel de la parole de synthèse, cette demande de "naturel" portant sur la fluidité de la parole mais surtout sur son "expressivité". (articulation) et (prosodie), il nous semble qu'un effort particulier doit être fait prioritairement en modélisation de la prosodie pour permettre de l'adapter aux divers contextes d'application et rendre ainsi la synthèse "plus expressive". Du point de vue de l'exploitant de la synthèse de parole (industriels et fournisseurs de services), les demandes concernent prioritairement (outre une réduction toujours plus forte des surcoûts associés à l'introduction de la synthèse et une facilité de portage sur tous types d'équipements) la disponibilité (ou la facilité de mise au point) de voix de synthèse aux timbres variés et dans le maximum de langues, afin de pouvoir rentabiliser, sur le marché mondial, les coûts de développement des équipements et services. La disponibilité d'outils génériques de fabrication, la plus automatique possible, de modules de synthèse pour de nouvelles voix et de nouvelles langues, et de modules de filtrage/prétraitement de textes à y associer est donc fortement demandée

Evaluation Test de diagnostic Evaluation globale
Tester modules individuellement Evaluation globale Intelligibilité globale Qualité globale Comparaison entre systèmes par utilisateurs Diagnostic modules : Convertion ortho-phonét Étiquetage gram Découpage syntaxe-prosodie Netteté phonétique Ce test, dit "SUS" (Semantically Unpredictable Sentences: phrases sémantiquement non prévisibles), est essentiellement destiné à quantifier l'intelligibilité globale d'un système de synthèse (Benoît et al., 1989). 20 phrases sémantiquement imprédictibles, représentant 5 structures syntaxiques différentes et disponibles en 3 langues (Allemand, Anglais et Français) sont fournies en entrée des systèmes de synthèse. La tâche des auditeurs consiste à transcrire ce qu'ils ont entendu. Le nombre de mots correctement identifiés permet de calculer le score d'intelligibilité des systèmes de synthèse. Des comparaisons quantitative d'intelligibilité sont ainsi possibles entre langues. Plusieurs systèmes de synthèse et/ou systèmes de traitement de parole "de référence" (codage) sont testés simultanément. Les messages (synthétisés ou codés), présentés aux auditeurs, ont un contenu sémantique représentatif de celui des messages susceptibles d'être émis par un serveur vocal, dans un contexte d'application réelle. Lors d'une première écoute, les auditeurs doivent transcrire (tâche 1) la partie des informations contenues dans les messages correspondant aux questions qui leurs sont posées. Lors d'une seconde écoute, ils doivent exprimer leur opinion (tâche 2) à l'aide de 8 échelles d'opinion à 5 points, en répondant à 4 questions relatives à l'intelligibilité (impression générale, effort d'écoute, difficultés de compréhension, articulation) et à 4 questions relatives à la qualité (impression générale, qualité de prononciation, débit, agrément de la voix). Pour les réponses à la tâche de transcription, on comptabilise une faute pour toute réponse incomplète ou erronée quels que soient la nature et le nombre d'erreurs dans la réponse. Pour les réponses aux échelles d'opinion, on calcule les notes moyennes d'opinion (MOS, mean opinion scores).

3.2. Reconnaissance vocale

Objectifs Analyser un signal de parole pour le transcrire sous une forme exploitable par la machine Reconnaissance vocale Vérification du locuteur Identification du locuteur 1er système : Bell Labs (1952) Reconnaissance de chiffres isolés Reco vocale : convertir un essage oral en message écrit. Ex d’un dictée. Vérif du loc, c’est savoir si ce loc est connu Identfication est une discrimination beaucoup pus fine et complexe.

Principe A partir d’un signal de parole
Extraire une image acoustique (par tranches) Numériser le signal pour le donner en entrée du système Mise en relation des segments de parole et des éléments lexicaux Reconstitution du discours le plus probable D’une chaîne d’acquisition du signal sonore (microphone et carte son) chargée de recueillir, échantillonner et numériser la parole. D’un moteur de reconnaissance vocale dont le rôle est de traduire ces données sonores en un texte écrit (fig. 1). Image consituée de tranche de 30 ms Numérisation sous forme de vecteurs.Numérisation et Paramétrage par une analyse fréquentielle utilisant les transformées de Fourier (genre MFCC) Apprentissage automatique > modélisation statistique avec chaînes de markov cachées ou réseaux de neurones Apprendre que pour un segment de parole il y a tant d’éléments lexicaux possible Reconstitution de la chaine du discours.par mise en correspondance de motif (algo Dynamic time Warping) > (explorer en arbre le champ des possibles).

Principe (2) Modèles sous-jacents Modèle acoustique :
à partir du résultat du traitement du signal, donner la probabilité que le signal corresponde à chacun des phonèmes de la langue cible Modèle de prononciation Prononciation(s) possible(s) pour chaque mot du vocabulaire (et proba associée(s)) Modèle de langage Proba de suite de mots

Application Interfaces Homme-machine
Aéronotique / automobile Systèmes embarqués Bureautique Enseignement assisté par ordinateur Dans les avions il y a un domaine d’application important en ce qui concerne les commandes vocales. Tout cela pour permettre aux pilotes de commander par la voix diverses commandes (radar, radio…) En ce qui concerne les automobiles, il y a le GPS, qui permet au conducteur d’avoir à sa disposition la connaissance du trajet, ainsi que l’évolution de la circulation, tout ceci marqué par des messages vocaux. Bureautique : dictée vocale. Phase d’apprentissage importante système électronique et informatique autonome, qui est dédié à une tâche bien précise. Ses ressources disponibles sont généralement limitées. Cette limitation est généralement d'ordre spatial (taille limitée) et énergétique (consommation restreinte). le Apollo Guidance Computer, le système de guidage de la mission lunaire Apollo

Evaluation Utilisation du WER (Word Error Rate)
Taux de mots incorrectement reconnus par rapport à un texte de référence Mots isolés ou parole continue ? Variabilité inter/intra locuteur ? Naturel du discours ? distance de Levenshtein, en travaillant au niveau des mots au lieu des caractères. Il indique le taux de mots incorrectement reconnus par rapport à un texte de référence. Au plus le taux est faible (minimum 0.0) au plus la reconnaissance est bonne. Le taux maximum n'est pas borné et peut dépasser 1.0 en cas de très mauvaise reconnaissance s'il y a beaucoup d'insertions.

Traitement de la parole : Synthèse et reconnaissance

Présentations similaires

Présentation au sujet: "Traitement de la parole : Synthèse et reconnaissance"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Traitement de la parole : Synthèse et reconnaissance

Présentations similaires

Présentation au sujet: "Traitement de la parole : Synthèse et reconnaissance"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back