TRAITEMENT DE LA PAROLE

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

LANGUES VIVANTES à l’Ecole Primaire
APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Prof. Assist. Dr Penphan THIPKONG
Identification automatique des langue
Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire.
Traitement automatique de la parole hiver
Reconnaissance de la parole
Cours parole du 2 Mars 2005 enseignants: Dr
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP
Le MAJORDOME de la Maison Intelligente
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Cours parole du 2 Mars 2005 enseignants: Dr
Proposition de stratégie
La découverte du code Animation pédagogique – la construction du principe alphabétique – 06/12/2006.
l’évolution du langage chez l’enfant
Université Paris 3 La Dictée vocale SLFD Johanna Deron.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Girard Pia & Laffont Caroline
La reconnaissance vocale
EVALUATIONS NATIONALES CM2
Apprendre à lire.
La maîtrise de la langue orale en maternelle
Compétences - tâches réparties par niveaux
Directeur de thèse : Régine André-Obrecht
TRANSMISSION DES DONNEES INFORMATIQUES
Reconnaissance de la parole
Dr Marc Rousseaux, CHRU Lille Lesquin, décembre 2010
Langues et évaluations
Traitement Automatique de la Langue:
Projet Technique Un PDA multimodal au service des situation de handicap… DESS HANDI Université Paris XIII Introduction & Disclaimer This presentation.
MRP, MRP II, ERP : Finalités et particularités de chacun.
TAL (Traitement automatique du langage)
Décodage des informations
Le cahier de charge d'un système de RAP
COMPREHENSION DE L’ORAL
SCIENCES DE L ’INGENIEUR
Maîtrise de la langue française
Conscience phonologique
Reconnaissance Vocale
1 IFT 6800 Atelier en Technologies dinformation Chapitre 1 Introduction.
‘The Voice Company’ Du texte à la Parole
Chapitre 2 La description du langage
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Qu'est ce que savoir lire ?
LANGUE ET COMMUNICATION
Traitement automatique de la langue
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
La perception de la parole
Traitement de la parole : Synthèse et reconnaissance
Algorithmes et Programmation
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
Le processus de reconnaissance des mots La reconnaissance des mots lors de la parole continue Contexte et reconnaissance des mots.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
Introduction de Mme Safra IGEN Conférence du 22 mai 2006.
Activités langagières Les questions à se poser. ACTIVITÉS LANGAGIÈRES DE COMMUNICATION: PRODUCTION ORALE EN CONTINU 2 Dote-t-on l’élève de stratégies.
Voix, parole, langage, langue
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Synthèse de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage
GPA-779 Application des systèmes experts et des réseaux de neurones.
Le Traitement Automatique des Langues (TAL)
Journée Des Doctorants 2004
La perception de la parole
Introduction aux Interfaces Homme-Machine
LVE au cycle 3: nouveaux programmes Les programmes sont établis à partir du CECRL ( Cadre Commun de Référence pour les Langues): Le cadre définit des niveaux.
 Mise en évidence de certaines difficultés de lecture  Suspicion d’une éventuelle dyslexie  Repérage des enfants dits à risque permet une PEC adaptée.
Le dialogue Homme- Machine Amine EL Mrabet 2015/2016.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

TRAITEMENT DE LA PAROLE Judicaël RANDRIANASOLO COURS IHM 06/02/2015

SOMMAIRE TOUR D’HORIZON SYNTHESE VOCALE A PARTIR DU TEXTE RECONNAISSANCE DE LA PAROLE

PAROLE Parole: Flux continu constitué d'une suite de mots, eux mêmes constitués d'un enchainement de phonèmes et de bruits articulatoires Phonèmes: plus petite unité discrète ou distinctive (c'est-à-dire permettant de distinguer des mots les uns des autres) que l'on puisse isoler par segmentation dans la chaîne parlée Ex: saper et zapper =>  /s/ et le /z/ brin et brun => /bʁɛ̃/ et /bʁœ̃/

PAROLE Paramètres « en fonction du locuteur » pour l’étude du signal de la parole:   Intensité de la voix, Hauteur de la voix, Type de son émis par le locuteur (chuchotement, chant, parole), Débit du locuteur Déformation du son du à l'accent du locuteur Propriétés physio-acoustique de l'appareil phonatoire du locuteur Emotion dans la voix du locuteur (serein, pleurant, en colère, gémissant, riant, euphorique ...)

PAROLE Paramètres cognitifs pour la compréhension de la parole: la connaissance du contexte (pragmatique) la connaissance des concepts (sémantique) la connaissance de la structure des langages (syntaxique) la connaissance des mots (lexicale) la connaissance des sons (phonétique et phonologique)

POURQUOI LA PAROLE ? Moyen de communication Naturel chez l’homme Rapide et concis Confortable

TAL Traitement automatique des langues (TAL) ou du langage naturel ou de la langue naturelle (TALN) Discipline à la frontière de la linguistique, de l'informatique et de l'intelligence artificielle Application de programmes et techniques informatiques à tous les aspects du langage humain

Historique 1952 : reconnaissance des 10 chiffres, pour un « monolocuteur » , par un dispositif électronique câblé 1960 : utilisation des méthodes numériques 1965 : reconnaissance de phonèmes en parole continue 1968 : reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu’à 500 mots) 1969 : utilisation d’informations linguistiques 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables 1972 : premier appareil commercialisé de reconnaissance de mots 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM 1978 : commercialisation d’un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés

Historique 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration) spécifiques du traitement de la parole 1981 : système de reconnaissance de mots sur un circuit VLSI 1983 : première mondiale de commande vocale à bord d’un avion de chasse en France 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel 1988 : apparition des premières machines à dictée par mots isolés 1989 : recrudescence des modèles connexionnistes neuro-mimétiques 1990 : premières véritables applications de dialogue oral homme-machine 1994 : IBM lance son premier système de reconnaissance vocale sur PC 1997 : lancement de la dictée vocale en continu par IBM 

TAP Traitement Automatique de la Parole ou Traitement de la Parole (TP) Etude et analyse des signaux de parole, « Traitement de l’oral ». (Domaine d’application du TAL) Objectifs: essayer de produire, écouter, analyser et comprendre la parole comme le cerveau humain

Principaux systèmes de TAP Analyseurs : Mise en évidence des caractéristiques du signal vocal produit. CODEURS : Transmission ou stockage de la parole en débit réduit

Principaux systèmes de TAP RECONNAISSEURS : ( Reconnaissance du locuteur, reconnaissance de la parole) Transcription de la parole en texte exploitable par la machine SYNTHETISEURS ( Synthétiseurs à partir du texte / à partir de concepts) Création d’une parole artificielle à partir de n’importe quel texte par la machine

SYNTHESE DE LA PAROLE A PARTIR DU TEXTE Autre appellation: TTS en anglais : « Text To Speech » Objectif: Système capable de « lire » tout texte numérique Entrées possible: texte tapé avec un clavier A/N, texte scanné et reconnu par un OCR, texte produit par un Dialogue Homme Machine Sortie: Parole artificielle (fichier audio) Particularité: pas besoin d’apprentissage , peut lire un texte jamais lu auparavant Définition: production automatique de phrases par calcul de leur transcription phonétique

Principe de fonctionnement d’un TTS : Transcription phonétique Intonation et rythmes associés Transformation en signal du parole (homologue du système phonatoire)

Organisation du module de traitement du langage naturel Analyseur Morpho-Syntaxique

Organisation DE L’ANALYSEUR MORPHO - SYNTAXIQUE Préprocesseur: Sert d’interface entre le texte (représentation linéaire) et la structure interne des données Identifie les séquences de caractères à risque pour la prononciation : nombres, abréviations, acronymes, expressions toutes faites… Transcrit les séquences de caractères à risque pour la prononciation en toute lettre Analyseur morphologique: Génère une liste des natures possibles pour chaque mot pris individuellement, en fonction de sa graphie Analyseur contextuel: Détecteur de la nature d’un mot en fonction des natures des mots voisins

Organisation DE L’ANALYSEUR MORPHO - SYNTAXIQUE Analyseur syntaxique prosodique: examine l’espace de recherche restant issu de l’AC et découpe le texte en groupes de mots significatifs Phonétiseur: S’occupe de la phonétisation automatique des groupes de mots Générateur de prosodie: Génère le ton, le rythme et autres informations à prendre en compte lors de la génération de parole FS (features stuctures) ou structures d’attributs et MLDFS (multilevel data structure) ou structures de données multi-niveaux: Structure des données internes d’un TTS

Domaines d’applications Services de télécommunications: serveurs vocaux Apprentissage de langues étrangères Aide aux personnes handicapées de la parole et de la vue Monitoring vocal Recherche fondamentale et appliquée Livres et jouets parlants…. Pr Stephen Hawking De l’université de Cambridge

Exemple avec « Speak Up » => http://www.commentcamarche.net/download/telecharger-34089061-speak-up

RECONNAISSANCE DE PAROLE Objectif: retrouver une information à partir de la voix (inverse de la synthèse vocale) Entrée: données provenant d’un analyseur (signal de voix déjà traité) Sortie: texte Définition: décoder l’information portée par le signal vocal à partir des données fournies par l’analyse

PRINCIPE DE LA Reconnaissance par comparaison à des exemples Idée de base: faire prononcer un ou plusieurs exemples de chacun des mots susceptibles d’être reconnus les enregistrer sous forme de vecteurs acoustiques (typiquement : un vecteur de coefficients LPC ou assimilés toutes les 10 ms) => spectrogramme faire la reconnaissance proprement dite en analysant le signal inconnu sous la forme d’une suite de vecteurs acoustiques et en comparant la suite inconnue à chacune des suites des exemples préalablement enregistrés (superposer les 2 spectrogrammes ) => Le mot reconnu sera celui dont le spectrogramme colle le plus au mot inconnu

PRINCIPE DE LA Reconnaissance par comparaison à des exemples Problème: un mot peut être prononcé de différents différentes façons => spectrogrammes distordus Solution: ajouter la notion d’élasticité lors de l’identification via par exemple le DTW ( Dynamic Time Warping ) Point fort: très efficace dans le contexte monolocuteur/petit vocabulaire Point faible: limitée par la taille des vocabulaires et pas adaptée pour les systèmes multilocuteurs

Reconnaissance par modélisation d’unités de parole Utilisation de 4 modules principaux: Un module de traitement du signal et d'analyse acoustique qui transforme le signal de parole en une séquence de vecteurs acoustiques (typiquement : un vecteur de coefficients LPC ou assimilés toutes les 10 ms) Un module acoustique basé sur les phonèmes génère plusieurs hypothèses phonétiques pour chaque vecteur acoustique. => module d'alignement temporel (pattern matching, en anglais) qui transforme les hypothèses locales (prises sur chaque vecteur acoustique indépendamment) en une décision plus globale (prise en considérant les vecteurs environnants)

Reconnaissance par modélisation d’unités de parole Un module lexical qui interagit avec le module d'alignement temporel pour forcer le système à ne reconnaître que des mots existants effectivement dans la langue considérée Un module syntaxique qui interagit avec le module d'alignement temporel pour forcer le système à intégrer des contraintes syntaxiques, voire sémantiques.

CLASSIFICATION Selon le type de signal: signal bruité ou signal non bruité (ex. microphone casque avec réduction de bruit), signal téléphonique (téléphone fixe ou mobile) ou large bande, signal compressé ou non… Selon le type de modèle acoustique : modèle monolocuteur (ex. dictée vocale), modèle multilocuteur (speaker independant en anglais) Selon la nature des enregistrements : dictée de texte, commande vocale, dialogue homme-machine, message téléphonique, radio, TV, podcast, etc. Selon la nature de la langue: française, anglaise…

MESURE DE PERFORMANCE WER: (S + E + I)/ N Avec: WER: taux d'erreur de mots (Word Error Rate) S est le nombre de substitutions, E est le nombre d'élisions, I est le nombre d'insertions, N est le nombre de mots dans la transcription de référence (transcription exacte)

Domaines d’applications L’Etat, l’armée et les renseignements Le milieu professionnel La vie quotidienne

Exemple avec Dictation Pro => http://www.deskshare.com/lang/fr/dictation.aspx

Bibliographie Traitement Automatique des Langues / Traitement Automatique de la Parole, Fréderic Bechet Introduction au traitement de la parole, Note de cours DEC 2, Faculté Polytechnique de Mons – T. Dutoit

Webographie www.wikipedia.org synthesevoix.wordpress.com http://outilsrecherche.over-blog.com/pages/Notes_311_Decodage_du_Signal_de_la_Parole-3082466.html http://www.donbosco-tournai.be/expo-db/www/CDEXPO/Ondes_fichiers/SyntheseParole.pdf