Interactions langagières et parolières dans une société de l’information Gérard CHOLLET chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS.

Slides:



Advertisements
Présentations similaires
1Er Partie Intervenants : Nuno Barata Alain Joly Thierry Belvigne
Advertisements

Distance inter-locuteur
Indexation Parole / Musique / Bruit
JJCAAS 03 - Modèles granulaires pour les signaux sonores 1 Modèles granulaires pour les signaux sonores Lorcan Mc Donagh Directeur de thèse: Frédéric.
Évaluation de la qualité d'une clusterisation
SP1 : Transfert de technologie
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Eureka avril MAJORCALL – « Client Relation Management for Call Centers » Eurekâ Project !2990 Corebridge- -ENST-
SYstème de Messagerie Unifiée PArole et TEXte Revue de Projet RNRT Mardi 10 décembre 2002.
Reconnaissance du locuteur
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L
Reconnaissance de la parole
THALES COMMUNICATIONS Projet RNRT SYMPATEX 14 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 01 octobre 2002.
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
THALES COMMUNICATIONS Projet RNRT SYMPATEX 16 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 10 décembre 2002.
THALES COMMUNICATIONS Projet RNRT SYMPATEX 11 ème réunion davancement E.N.S.T. Paris, 46, rue Barrault Paris 13 ème 13 juin Avril 2002.
Codage de la parole Ivan Magrin-Chagnolleau, CNRS
Reconnaissance Automatique de la Parole
Reconnaissance Automatique de la Parole
Cours parole du 26 Janvier 2005 enseignants: Dr
1 plan Besoins État de lart Assistant électronique unique pour la personne indépendante dans la maison intelligente Reconnaissance par unités segmentales.
Codage de la parole à très bas débit avec des unités ALISP
Le MAJORDOME de la Maison Intelligente
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Cours parole du 2 Mars 2005 enseignants: Dr
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Girard Pia & Laffont Caroline
Extraction dInformations Spatiales et Linguistiques dans les Documents Laurence Likforman, Pascal Vaillant, G. Chollet ENST/TSI et CNRS-LTCI.
Apprendre à lire.
Directeur de thèse : Régine André-Obrecht
Reconnaissance de la parole
Initiation au système d’information et aux bases de données
Monique THONNAT et Nathanaël ROTA Projet ORION
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
Chapitre 1 : Les théories de la communication
Initiation à la conception de systèmes d'information
Décodage des informations
Virtual Local Area Network
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Le cahier de charge d'un système de RAP
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
Reconnaissance Vocale
Présentation du mémoire
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Ecaterina Giacomini Pacurar
‘The Voice Company’ Du texte à la Parole
En-tête: Ne pas modifier le style !
Cours parole du 12 Novembre 2003 enseignante: Dr
Jonathan Montois Cyrille Kriegel
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Traitement de la parole : Synthèse et reconnaissance
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
1 La norme individuelle : étude pilote sur le lien perception-production Martine Toda LPP et ENST-LTCI (UMR 5141) Crédits : Projet.
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Journée Des Doctorants 2004
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Interactions langagières et parolières dans une société de l’information Gérard CHOLLET chollet@tsi.enst.fr ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13

Plan Les attentes sociétales Majordome / Assistant Multimodal Intelligent Traitement Automatique des Langues Domaines du Traitement Automatique de la Parole Codage Reconnaissance / Compréhension Reconnaissance du locuteur, de la langue,… Synthèse à partir du texte, de concepts Apprentissage à partir d’exemples Perspectives

Accès, Communication, Apprentissage Désir d’accéder à l’information à travers le téléphone sur INTERNET Besoin de communiquer messagerie visioconférence Soif d’apprendre Formation continue

messagerie unifiée intelligente Holistique EDF «MAJORDOME» messagerie unifiée intelligente Projet Eureka no 2340 D. Bahu-Leyser, G. Chollet, R. Croce, K. Hallouli , J. Kharroubi, D. Kofman, L. Likforman, E. Matta-Sanchez, D. Petrovska, M. Sigelle, P. Vaillant, F. Yvon

Qu’est-ce qu’un Majordome ? vocal mèl télécopies messages entrants traitement des messages serveur authentification, dialogue, routage, résumés, mises a jour, agenda accès aux messages pager téléphone terminal PDA

Le Majordome individuel

Traitements

Traitement Automatique des Langues Objet : traiter des données de nature linguistique Limites : la partie purement phonétique relève du domaine du traitement de la parole Applications : traduction automatique résumé automatique analyse, indexation, filtrage de documents génération automatique de texte dialogue homme-machine

Techniques du T.A.L. : analyse Étiquetage : identifier les composants d’un texte Aquam[nf,acc.sing.] homo[nm,nom.sing.] bibit[v.ind.pre.3s] Parsing : identifier la structure grammaticale [[Il]Pro,Gnsuj [[[a]Vaux [vu]Vpp]Vpass.comp [[l’]art [ours]n]Gnobj]GV]Phr Réseau sémantique : représenter le sens [CHAT: #1]<-(agent)-[MANGER]-(objet)->[SOURIS : #2] Difficultés liées à l’importance du contexte et de l’implicite dans les langues humaines (ex : résolution des anaphores) Universal Networking Language (UNL) Web sémantique

Techniques du T.A.L. : génération Engendrer des phrases en langue naturelle : [CHAT: #1]<-(agent)-[MANGER]-(objet)->[SOURIS : #2] « Le chat mange la souris. » Un générateur par langue à partir d’une représentation UNL Accès aux pages Web représentées en UNL dans la langue de son choix.

Distance Learning Service Voice Over IP Platform Network 192.168.223.0/11 Network 192.168.222.0/11 Visio conference VTHD Renater Unisphere ERX-700 1Gbps (FO Interne) ENST-Paris RTC/RNIS Intranet GK PBX GW IPVR ( 1Gbps Cisco Catalyst 6507 Salle C-234 Salle PBX Network 192.168.111.0/11 Video Server Distance Learning Service

Télécopies Expéditeur Destinataire Mots clés

Partenaires ‘Majordome’

Domaines du Traitement Automatique de la Parole Identité CONNAISSANCES LANGAGIERES ET PAROLIERES PHONETIQUE RECONNAISSANCE GRAPHEMES VERS PHONEMES SYNTHESE ANALYSE STOCKAGE RESTITUTION TRANSMISSION Bla-bla bla … Bla-bla LANGUE MESSAGE

Codage de la parole Codage = transmission d’un message vocal, en diminuant le débit et en conservant un maximum d’information Types de codeurs : A forme d’onde Hybrides Paramétriques Segmentaux

Quels codeurs pour quels débits Bit rate (bits/s) 1k 2k 4k 8k 16k 32k 64k Indicative Quality ( MOS ) Paramétriques Hybrides A forme d’onde 1 2 3 4 5 G711 72 G721 84 ST4209 83 G 728 92 FS 1016 90 G 729 96 ST 4479 93 ST 4198 87 LPC 10 83 GSM 87 1200 HSX 97 G 723-196 VLBRC 0,5k Très bas débits 2400 HSX 96

Evolution des codeurs ALISP (.4 kb/s) 1 2 3 4 5 1980 1990 2000 Indicative Quality ( MOS ) G.711 (64 kb/s) G.721 (32 kb/s) G.729 (8 kb/s) G.728 (16 kb/s) LPC 10 (2,4 kb/s) HSX Consumer quality Minimum qual . for high cost application . For low 1970 2010 ALISP (.4 kb/s)

Pourquoi développer des codeurs à très bas débit Trouver les limites de la compression de la parole (sans sa compréhension) Applications pratiques : Répondeurs automatiques sans bandes magnétiques Archivage et «boîtes noires » Communication sur des canaux à bas débits Codage redondant en télédiffusion But à atteindre : Débit moyen de 100-500 bps Indépendant du locuteur, de la langue, de l’environnement

Comment conserver la qualité en diminuant le débit Exploiter les limites de l’audition Utiliser le modèle source-filtre de production de la parole Exploiter les contraintes dynamiques des articulateurs Indexation de segments de parole Utiliser des modèles de langage

Principes généraux des codeurs à très bas débit < 400 bps Nommées aussi codeurs segmentaux ou codeurs par indexation Nécessitent l’utilisation de : Méthodes de reconnaissance Quelles unités de reco utiliser ? Méthodes de synthèse Quelles unités de synthèse utiliser ? Données à transmettre : Indices des unités de parole reconnus Informations prosodiques

Le prix à payer Complexité croissante Retard au décodage Mémoire plus importante Sensibilité aux erreurs de transmission Sensibilité au bruit ?

Limitations des vocodeurs phonétiques et alternatives Nécessitent des bases de données de parole transcrites et segmentées (au niveau mots ou phonèmes) Problèmes avec ces bases de données: Ambiguïté des transcriptions phonétiques Coût élevé Tâches ennuyeuses Sont dépendantes de la langue Alternative = utiliser seulement les données de parole, sans les transcriptions

Utiliser A L I S P A utomatic L anguage I ndependent S peech P rocessing

Motivations pour utiliser ALISP Permet un codage à très bas débit Développement de nouveaux outils pour la recherche en phonétique Intègre le paradigme d’analyse par la synthèse Applications en reconnaissance de la parole indépendante de la langue Identification de la langue Amélioration de la qualité de la parole transmise, débruitage

Cas idéal versus cas actuel ALISP devrait permettre idéalement un codage Indépendant du locuteur Indépendant de la langue Indépendant de l’environnement Réalité : On commence par résoudre le cas dépendant du locuteur Premiers résultats pour le codage indépendant du locuteur

Comment réaliser le codage par indexation avec ALISP On a besoin d’un ensemble d’unités acoustiques obtenues automatiquement pour faire le codage Caractéristiques des unités ALISP Elles doivent représenter d’une manière précise et concise les sons d’une langue On doit les déterminer sans avoir recours à une base de données étiquetée phonétiquement

Apprentissage non supervisé des unités de codage BD parole Segments Initiaux 1° transcription Transcription finale Segmentation initiale Regroupement des segments en N classes Modélisation des N classes Décomposition temporelle Quantification vectorielle + distances cumulées Modélisation HMM N modèles HMM

Décomposition temporelle - exemple En moyenne 17 événements par seconde

Modélisation HMM : topologie utilisée 1 2 3 4 5 a22 a33 a44 a12 a23 a34 a25 3 états émetteurs Modèle de langage : unigrammes, facteur de langage g. Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; DLPCC; D log(E). Pour chaque flux une loi gaussienne simple.

Synthèse Critère de choix des unités : Dans chaque classe d’unités acoustiques du codeur, on choisit les 8 plus longs segments pour chaque classe Ci ==> dictionnaire des unités de synthèse Si Critère de distortion utilisé Pour coder un segment tj qui a été reconnu comme appartenant à la classe Ci , on le compare par DTW aux unités de synthèse Si

Schéma de codage  parole Analyse spectrale Analyse prosodique Reconnaissance HMM Dictionnaire des modèles HMM des unités ALISP Représentant A1 … Représentant A8 HMM A Détermination des unités de synthèse Choix unité de synthèse par DTW Codage prosodie Indice unité ALISP Indice unité de synthèse Pitch, énergie, temps

 décodage Représentant A1 … Représentant A8 Indice ALISP Parole synthétique Représentant A1 … Représentant A8 Indice ALISP N° représentant de synthèse Paramètres de prosodie Choix unité de synthèse Synthèse par concaténation

Segmentation induite par la décomposition temporelle Segmentation sur des zones spectralement stables

Segmentation de la phrase à coder W…A…N….T….E……….D

Recherche des segments les plus ressemblants

Restitution par concaténation

Examples sur « BU corpus »  codage méthode ALISP (HNM)  unités de synthèse correspondantes aux modèles HMM  synthèse HNM  original  choix des unités de synthèse à partir des transcriptions phonétiques  concaténation des formes d’onde

Expériences indépendantes du locuteur A l’état actuel le codage avec des unités ALISP n’est fonctionnel que pour un locuteur prédéfini Situation peu réaliste Cas idéal : codage de n’importe quel locuteur, parlant n’importe quelle langue Cas intermédiaire : codage des locuteurs masculins, parlant français de la base de donnés BREF Cas indépendant du locuteur : suffisamment (?) de données parole d’un échantillon représentatif pour les données d’ entraînement et d’un autre ensemble de locuteurs disjoints pour le test

Base de données de parole BREF Caractéristiques principales : corpus français composé de textes lus, extraits du journal « Le Monde » 120 locuteurs, avec en moyenne 40-70 min de parole par loc. Séparés en 80 locuteurs pour l’entraînement, 40 de développement et 20 de test, avec des textes différents Enregistrement qualité studio, échantillonné à 16kHz

Correspondance Alisp phones, Bref

Exemples d’analyse synthèse HNM En français Analyse synthèse HNM Original En anglais (BU corpus)

Conclusions et perspectives améliorer l’intelligibilité et la qualité choix d’unités compatibles pour le codage et la synthèse à partir du texte rendre le codeur indépendant du locuteur et de la langue restituer l’identité du locuteur

Et à plus longs termes... utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole expérimenter le codage ALISP en vérification du locuteur

Projet SIROCCO Système générique de reconnaissance de parole INRIA (IRISA et LORIA), LIA, IRIT, ENST-LTCI

SIROCCO SIROCCO MODELES DE LANGAGE PROCESSEUR ACOUSTIQUE RECONNAISSANCE DE MOTS STRATEGIE MODELES DE LANGAGE MODELES DE MOTS PROCESSEUR LINGUISTIQUE SIROCCO SIGNAL MOT(S) RECONNUS

Vérification du locuteur Dépendant du texte CAVE – PICASSO COST 250, 277 Indépendant du texte NIST Multimodal M2VTS BIOMET

BIOMET Bla-bla ESPACE SECURISE PIN 111111111

Perspectives Un œil et une oreille pour les terminaux mobiles UMTS Indexation de conférences et Enseignement à distance le Web sémantique, ‘Universal Networking Language’ ‘Le bureau du futur’ (voiture !), ‘La maison du futur’

Saisie d’une image