Télécharger la présentation
Publié parFrery Colin Modifié depuis plus de 10 années
1
Interactions langagières et parolières dans une société de l’information
Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS cedex 13
2
Plan Les attentes sociétales
Majordome / Assistant Multimodal Intelligent Traitement Automatique des Langues Domaines du Traitement Automatique de la Parole Codage Reconnaissance / Compréhension Reconnaissance du locuteur, de la langue,… Synthèse à partir du texte, de concepts Apprentissage à partir d’exemples Perspectives
3
Accès, Communication, Apprentissage
Désir d’accéder à l’information à travers le téléphone sur INTERNET Besoin de communiquer messagerie visioconférence Soif d’apprendre Formation continue
4
messagerie unifiée intelligente
Holistique EDF «MAJORDOME» messagerie unifiée intelligente Projet Eureka no 2340 D. Bahu-Leyser, G. Chollet, R. Croce, K. Hallouli , J. Kharroubi, D. Kofman, L. Likforman, E. Matta-Sanchez, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon
5
Qu’est-ce qu’un Majordome ?
vocal mèl télécopies messages entrants traitement des messages serveur authentification, dialogue, routage, résumés, mises a jour, agenda accès aux messages pager téléphone terminal PDA
6
Le Majordome individuel
7
Traitements
8
Traitement Automatique des Langues
Objet : traiter des données de nature linguistique Limites : la partie purement phonétique relève du domaine du traitement de la parole Applications : traduction automatique résumé automatique analyse, indexation, filtrage de documents génération automatique de texte dialogue homme-machine
9
Techniques du T.A.L. : analyse
Étiquetage : identifier les composants d’un texte Aquam[nf,acc.sing.] homo[nm,nom.sing.] bibit[v.ind.pre.3s] Parsing : identifier la structure grammaticale [[Il]Pro,Gnsuj [[[a]Vaux [vu]Vpp]Vpass.comp [[l’]art [ours]n]Gnobj]GV]Phr Réseau sémantique : représenter le sens [CHAT: #1]<-(agent)-[MANGER]-(objet)->[SOURIS : #2] Difficultés liées à l’importance du contexte et de l’implicite dans les langues humaines (ex : résolution des anaphores) Universal Networking Language (UNL) Web sémantique
10
Techniques du T.A.L. : génération
Engendrer des phrases en langue naturelle : [CHAT: #1]<-(agent)-[MANGER]-(objet)->[SOURIS : #2] « Le chat mange la souris. » Un générateur par langue à partir d’une représentation UNL Accès aux pages Web représentées en UNL dans la langue de son choix.
11
Distance Learning Service
Voice Over IP Platform Network /11 Network /11 Visio conference VTHD Renater Unisphere ERX-700 1Gbps (FO Interne) ENST-Paris RTC/RNIS Intranet GK PBX GW IPVR ( 1Gbps Cisco Catalyst 6507 Salle C-234 Salle PBX Network /11 Video Server Distance Learning Service
12
Télécopies Expéditeur Destinataire Mots clés
13
Partenaires ‘Majordome’
14
Domaines du Traitement Automatique de la Parole
Identité CONNAISSANCES LANGAGIERES ET PAROLIERES PHONETIQUE RECONNAISSANCE GRAPHEMES VERS PHONEMES SYNTHESE ANALYSE STOCKAGE RESTITUTION TRANSMISSION Bla-bla bla … Bla-bla LANGUE MESSAGE
15
Codage de la parole Codage = transmission d’un message vocal, en diminuant le débit et en conservant un maximum d’information Types de codeurs : A forme d’onde Hybrides Paramétriques Segmentaux
16
Quels codeurs pour quels débits
Bit rate (bits/s) 1k 2k 4k 8k 16k 32k 64k Indicative Quality ( MOS ) Paramétriques Hybrides A forme d’onde 1 2 3 4 5 G711 72 G721 84 ST G FS G ST ST LPC GSM 87 1200 HSX 97 G VLBRC 0,5k Très bas débits 2400 HSX 96
17
Evolution des codeurs ALISP (.4 kb/s) 1 2 3 4 5 1980 1990 2000
Indicative Quality ( MOS ) G.711 (64 kb/s) G.721 (32 kb/s) G.729 (8 kb/s) G.728 (16 kb/s) LPC 10 (2,4 kb/s) HSX Consumer quality Minimum qual . for high cost application . For low 1970 2010 ALISP (.4 kb/s)
18
Pourquoi développer des codeurs à très bas débit
Trouver les limites de la compression de la parole (sans sa compréhension) Applications pratiques : Répondeurs automatiques sans bandes magnétiques Archivage et «boîtes noires » Communication sur des canaux à bas débits Codage redondant en télédiffusion But à atteindre : Débit moyen de bps Indépendant du locuteur, de la langue, de l’environnement
19
Comment conserver la qualité en diminuant le débit
Exploiter les limites de l’audition Utiliser le modèle source-filtre de production de la parole Exploiter les contraintes dynamiques des articulateurs Indexation de segments de parole Utiliser des modèles de langage
20
Principes généraux des codeurs à très bas débit < 400 bps
Nommées aussi codeurs segmentaux ou codeurs par indexation Nécessitent l’utilisation de : Méthodes de reconnaissance Quelles unités de reco utiliser ? Méthodes de synthèse Quelles unités de synthèse utiliser ? Données à transmettre : Indices des unités de parole reconnus Informations prosodiques
21
Le prix à payer Complexité croissante Retard au décodage
Mémoire plus importante Sensibilité aux erreurs de transmission Sensibilité au bruit ?
22
Limitations des vocodeurs phonétiques et alternatives
Nécessitent des bases de données de parole transcrites et segmentées (au niveau mots ou phonèmes) Problèmes avec ces bases de données: Ambiguïté des transcriptions phonétiques Coût élevé Tâches ennuyeuses Sont dépendantes de la langue Alternative = utiliser seulement les données de parole, sans les transcriptions
23
Utiliser A L I S P A utomatic L anguage I ndependent S peech
P rocessing
24
Motivations pour utiliser ALISP
Permet un codage à très bas débit Développement de nouveaux outils pour la recherche en phonétique Intègre le paradigme d’analyse par la synthèse Applications en reconnaissance de la parole indépendante de la langue Identification de la langue Amélioration de la qualité de la parole transmise, débruitage
25
Cas idéal versus cas actuel
ALISP devrait permettre idéalement un codage Indépendant du locuteur Indépendant de la langue Indépendant de l’environnement Réalité : On commence par résoudre le cas dépendant du locuteur Premiers résultats pour le codage indépendant du locuteur
26
Comment réaliser le codage par indexation avec ALISP
On a besoin d’un ensemble d’unités acoustiques obtenues automatiquement pour faire le codage Caractéristiques des unités ALISP Elles doivent représenter d’une manière précise et concise les sons d’une langue On doit les déterminer sans avoir recours à une base de données étiquetée phonétiquement
27
Apprentissage non supervisé des unités de codage
BD parole Segments Initiaux 1° transcription Transcription finale Segmentation initiale Regroupement des segments en N classes Modélisation des N classes Décomposition temporelle Quantification vectorielle + distances cumulées Modélisation HMM N modèles HMM
28
Décomposition temporelle - exemple
En moyenne 17 événements par seconde
29
Modélisation HMM : topologie utilisée
a22 a33 a44 a12 a23 a34 a25 3 états émetteurs Modèle de langage : unigrammes, facteur de langage g. Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; DLPCC; D log(E). Pour chaque flux une loi gaussienne simple.
30
Synthèse Critère de choix des unités :
Dans chaque classe d’unités acoustiques du codeur, on choisit les 8 plus longs segments pour chaque classe Ci ==> dictionnaire des unités de synthèse Si Critère de distortion utilisé Pour coder un segment tj qui a été reconnu comme appartenant à la classe Ci , on le compare par DTW aux unités de synthèse Si
31
Schéma de codage parole Analyse spectrale Analyse prosodique
Reconnaissance HMM Dictionnaire des modèles HMM des unités ALISP Représentant A1 … Représentant A8 HMM A Détermination des unités de synthèse Choix unité de synthèse par DTW Codage prosodie Indice unité ALISP Indice unité de synthèse Pitch, énergie, temps
32
décodage Représentant A1 … Représentant A8 Indice ALISP
Parole synthétique Représentant A1 … Représentant A8 Indice ALISP N° représentant de synthèse Paramètres de prosodie Choix unité de synthèse Synthèse par concaténation
33
Segmentation induite par la décomposition temporelle
Segmentation sur des zones spectralement stables
34
Segmentation de la phrase à coder
W…A…N….T….E……….D
35
Recherche des segments les plus ressemblants
36
Restitution par concaténation
37
Examples sur « BU corpus »
codage méthode ALISP (HNM) unités de synthèse correspondantes aux modèles HMM synthèse HNM original choix des unités de synthèse à partir des transcriptions phonétiques concaténation des formes d’onde
38
Expériences indépendantes du locuteur
A l’état actuel le codage avec des unités ALISP n’est fonctionnel que pour un locuteur prédéfini Situation peu réaliste Cas idéal : codage de n’importe quel locuteur, parlant n’importe quelle langue Cas intermédiaire : codage des locuteurs masculins, parlant français de la base de donnés BREF Cas indépendant du locuteur : suffisamment (?) de données parole d’un échantillon représentatif pour les données d’ entraînement et d’un autre ensemble de locuteurs disjoints pour le test
39
Base de données de parole BREF
Caractéristiques principales : corpus français composé de textes lus, extraits du journal « Le Monde » 120 locuteurs, avec en moyenne min de parole par loc. Séparés en 80 locuteurs pour l’entraînement, 40 de développement et 20 de test, avec des textes différents Enregistrement qualité studio, échantillonné à 16kHz
40
Correspondance Alisp phones, Bref
41
Exemples d’analyse synthèse HNM
En français Analyse synthèse HNM Original En anglais (BU corpus)
42
Conclusions et perspectives
améliorer l’intelligibilité et la qualité choix d’unités compatibles pour le codage et la synthèse à partir du texte rendre le codeur indépendant du locuteur et de la langue restituer l’identité du locuteur
43
Et à plus longs termes... utiliser la technique ALISP de codage avec
des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole expérimenter le codage ALISP en vérification du locuteur
44
Projet SIROCCO Système générique de reconnaissance de parole
INRIA (IRISA et LORIA), LIA, IRIT, ENST-LTCI
45
SIROCCO SIROCCO MODELES DE LANGAGE PROCESSEUR ACOUSTIQUE
RECONNAISSANCE DE MOTS STRATEGIE MODELES DE LANGAGE MODELES DE MOTS PROCESSEUR LINGUISTIQUE SIROCCO SIGNAL MOT(S) RECONNUS
46
Vérification du locuteur
Dépendant du texte CAVE – PICASSO COST 250, 277 Indépendant du texte NIST Multimodal M2VTS BIOMET
48
BIOMET Bla-bla ESPACE SECURISE PIN
49
Perspectives Un œil et une oreille pour les terminaux mobiles UMTS
Indexation de conférences et Enseignement à distance le Web sémantique, ‘Universal Networking Language’ ‘Le bureau du futur’ (voiture !), ‘La maison du futur’
50
Saisie d’une image
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.