La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Interactions langagières et parolières dans une société de linformation Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault.

Présentations similaires


Présentation au sujet: "Interactions langagières et parolières dans une société de linformation Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault."— Transcription de la présentation:

1 Interactions langagières et parolières dans une société de linformation Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault PARIS cedex 13

2 Plan Les attentes sociétales Majordome / Assistant Multimodal Intelligent Traitement Automatique des Langues Domaines du Traitement Automatique de la Parole Codage Reconnaissance / Compréhension Reconnaissance du locuteur, de la langue,… Synthèse à partir du texte, de concepts Apprentissage à partir dexemples Perspectives

3 Accès, Communication, Apprentissage Désir daccéder à linformation à travers le téléphone sur INTERNET Besoin de communiquer messagerie visioconférence Soif dapprendre Formation continue

4 «MAJORDOME» messagerie unifiée intelligente Projet Eureka no 2340 EDFHolistique D. Bahu-Leyser, G. Chollet, R. Croce, K. Hallouli, J. Kharroubi, D. Kofman, L. Likforman, E. Matta-Sanchez, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon

5 Quest-ce quun Majordome ? messages entrants vocalmèl télécopies serveurtraitement des messages accès aux messages téléphone terminal authentification, dialogue, routage, résumés, mises a jour, agenda pager PDA

6 Le Majordome individuel

7 Traitements

8 Traitement Automatique des Langues Objet : traiter des données de nature linguistique Limites : la partie purement phonétique relève du domaine du traitement de la parole Applications : traduction automatique résumé automatique analyse, indexation, filtrage de documents génération automatique de texte dialogue homme-machine

9 Techniques du T.A.L. : analyse Étiquetage : identifier les composants dun texte Aquam[nf,acc.sing.] homo[nm,nom.sing.] bibit[v.ind.pre.3s] Parsing : identifier la structure grammaticale [[Il] Pro,Gnsuj [[[a] Vaux [vu] Vpp ] Vpass.comp [[l] art [ours] n ] Gnobj ] GV ] Phr Réseau sémantique : représenter le sens [CHAT: #1] [SOURIS : #2] Difficultés liées à limportance du contexte et de limplicite dans les langues humaines (ex : résolution des anaphores) Universal Networking Language (UNL) Web sémantique

10 Techniques du T.A.L. : génération Engendrer des phrases en langue naturelle : [CHAT: #1] [SOURIS : #2] « Le chat mange la souris. » Un générateur par langue à partir dune représentation UNL Accès aux pages Web représentées en UNL dans la langue de son choix.

11 Voice Over IP Platform Network /11 Network /11 Visio con ference VTHD Renater Unisphere ERX-700 1Gbps (FO Interne) ENST-Paris RTC/RNIS Intranet GK PBX GWIPVR 1Gbps Cisco Catalyst 6507 Salle C-234 Salle PBX Salle C-234 Network /11 Video Server Distance Learning Service

12 Expéditeu r Destinataire Mots clés Télécopies

13 Partenaires Majordome

14 Domaines du Traitement Automatique de la Parole Identité PHONETIQUE RECONNAISSANCE GRAPHEMES VERS PHONEMES SYNTHESE ANALYSE STOCKAGERESTITUTION TRANSMISSION Bla-bla bla … Bla-bla LANGUE MESSAGE

15 Codage de la parole Codage = transmission dun message vocal, en diminuant le débit et en conservant un maximum dinformation Types de codeurs : A forme donde Hybrides Paramétriques Segmentaux

16 Quels codeurs pour quels débits

17 Evolution des codeurs Indicative Quality (MOS) G.711 (64 kb/s) G.721 (32 kb/s) G.729 (8 kb/s) G.728 (16 kb/s) LPC 10 (2,4 kb/s) HSX (2,4 kb/s) Consumer quality Minimumqual. for high cost application Minimumqual. For low cost application ALISP (.4 kb/s)

18 Pourquoi développer des codeurs à très bas débit Trouver les limites de la compression de la parole (sans sa compréhension) Applications pratiques : Répondeurs automatiques sans bandes magnétiques Archivage et «boîtes noires » Communication sur des canaux à bas débits Codage redondant en télédiffusion But à atteindre : Débit moyen de bps Indépendant du locuteur, de la langue, de lenvironnement

19 Comment conserver la qualité en diminuant le débit Exploiter les limites de laudition Utiliser le modèle source-filtre de production de la parole Exploiter les contraintes dynamiques des articulateurs Indexation de segments de parole Utiliser des modèles de langage

20 Principes généraux des codeurs à très bas débit < 400 bps Nommées aussi codeurs segmentaux ou codeurs par indexation Nécessitent lutilisation de : Méthodes de reconnaissance Quelles unités de reco utiliser ? Méthodes de synthèse Quelles unités de synthèse utiliser ? Données à transmettre : Indices des unités de parole reconnus Informations prosodiques

21 Le prix à payer Complexité croissante Retard au décodage Mémoire plus importante Sensibilité aux erreurs de transmission Sensibilité au bruit ?

22 Limitations des vocodeurs phonétiques et alternatives Nécessitent des bases de données de parole transcrites et segmentées (au niveau mots ou phonèmes) Problèmes avec ces bases de données: Ambiguïté des transcriptions phonétiques Coût élevé Tâches ennuyeuses Sont dépendantes de la langue Alternative = utiliser seulement les données de parole, sans les transcriptions

23 Utiliser A L I S P A utomatic L anguage I ndependent S peech P rocessing

24 Motivations pour utiliser ALISP Permet un codage à très bas débit Développement de nouveaux outils pour la recherche en phonétique Intègre le paradigme danalyse par la synthèse Applications en reconnaissance de la parole indépendante de la langue Identification de la langue Amélioration de la qualité de la parole transmise, débruitage

25 Cas idéal versus cas actuel ALISP devrait permettre idéalement un codage Indépendant du locuteur Indépendant de la langue Indépendant de lenvironnement Réalité : On commence par résoudre le cas dépendant du locuteur Premiers résultats pour le codage indépendant du locuteur

26 Comment réaliser le codage par indexation avec ALISP On a besoin dun ensemble dunités acoustiques obtenues automatiquement pour faire le codage Caractéristiques des unités ALISP Elles doivent représenter dune manière précise et concise les sons dune langue On doit les déterminer sans avoir recours à une base de données étiquetée phonétiquement

27 Apprentissage non supervisé des unités de codage Segmentation initiale Regroupement des segments en N classes Modélisation des N classes Décomposition temporelle Quantification vectorielle + distances cumulées Modélisation HMM

28 Décomposition temporelle - exemple En moyenne 17 événements par seconde

29 Modélisation HMM : topologie utilisée a 22 a 33 a 44 a 12 a 23 a 34 a 25 3 états émetteurs Modèle de langage : unigrammes, facteur de langage. Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; LPCC; log(E). Pour chaque flux une loi gaussienne simple.

30 Synthèse Critère de choix des unités : Dans chaque classe dunités acoustiques du codeur, on choisit les 8 plus longs segments pour chaque classe C i ==> dictionnaire des unités de synthèse S i Critère de distortion utilisé Pour coder un segment t j qui a été reconnu comme appartenant à la classe C i, on le compare par DTW aux unités de synthèse S i

31 Schéma de codage parole Analyse spectrale Analyse prosodique Reconnaissance HMM Dictionnaire des modèles HMM des unités ALISP Représentant A 1 … Représentant A 8 HMM A Détermination des unités de synthèse Choix unité de synthèse par DTW Codage prosodie Indice unité ALISP Indice unité de synthèse Pitch, énergie, temps

32 décodage Parole synthétique Représentant A 1 … Représentant A 8 Indice ALISP N° représentant de synthèse Paramètres de prosodie Choix unité de synthèse Synthèse par concaténation

33 Segmentation induite par la décomposition temporelle Segmentation sur des zones spectralement stables

34 Segmentation de la phrase à coder W…A…N….T….E……….D

35 Recherche des segments les plus ressemblants

36 Restitution par concaténation

37 Examples sur « BU corpus » codage méthode ALISP (HNM) unités de synthèse correspondantes aux modèles HMM synthèse HNM original choix des unités de synthèse à partir des transcriptions phonétiques concaténation des formes donde

38 Expériences indépendantes du locuteur A létat actuel le codage avec des unités ALISP nest fonctionnel que pour un locuteur prédéfini Situation peu réaliste Cas idéal : codage de nimporte quel locuteur, parlant nimporte quelle langue Cas intermédiaire : codage des locuteurs masculins, parlant français de la base de donnés BREF Cas indépendant du locuteur : suffisamment (?) de données parole dun échantillon représentatif pour les données d entraînement et dun autre ensemble de locuteurs disjoints pour le test

39 Base de données de parole BREF Caractéristiques principales : corpus français composé de textes lus, extraits du journal « Le Monde » 120 locuteurs, avec en moyenne min de parole par loc. Séparés en 80 locuteurs pour lentraînement, 40 de développement et 20 de test, avec des textes différents Enregistrement qualité studio, échantillonné à 16kHz

40 Correspondance Alisp phones, Bref

41 Exemples danalyse synthèse HNM En français Analyse synthèse HNM Original En anglais (BU corpus) Analyse synthèse HNM Original

42 Conclusions et perspectives améliorer lintelligibilité et la qualité choix dunités compatibles pour le codage et la synthèse à partir du texte rendre le codeur indépendant du locuteur et de la langue restituer lidentité du locuteur

43 Et à plus longs termes... utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole expérimenter le codage ALISP en vérification du locuteur

44 Projet SIROCCO Système générique de reconnaissance de parole INRIA (IRISA et LORIA), LIA, IRIT, ENST-LTCI

45 SIROCCO PROCESSEUR ACOUSTIQUE RECONNAISSANCE DE MOTS STRATEGIE PROCESSEUR LINGUISTIQUE SIROCCO SIGNAL MOT(S) RECONNUS

46 Vérification du locuteur Dépendant du texte CAVE – PICASSO COST 250, 277 Indépendant du texte NIST Multimodal M2VTS BIOMET

47

48 Bla-bla ESPACE SECURISE PIN

49 Perspectives Un œil et une oreille pour les terminaux mobiles UMTS Indexation de conférences et Enseignement à distance le Web sémantique, Universal Networking Language Le bureau du futur (voiture !), La maison du futur

50 Saisie dune image


Télécharger ppt "Interactions langagières et parolières dans une société de linformation Gérard CHOLLET ENST/CNRS-LTCI 46 rue Barrault."

Présentations similaires


Annonces Google