Dijana PETROVSKA-DELACRETAZ travail en commun avec

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Les carrés et les racines carrées
Le moteur
La Méthode de Simplexe Standardisation
Distance inter-locuteur
RECONNAISSANCE DE FORMES
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Les nombres.
Les numéros 70 –
ACTIVITES Les fractions (10).
ACTIVITES Le calcul littéral (3).
Les Prepositions.
Journées Francophones
Application de réseaux bayésiens à la détection de fumées polluantes
Page : 1 / 6 Conduite de projet Examen du 6 mai 1999 Durée : 4 heures Le support de cours est toléré La notation tiendra compte très significativement.
3. Analyse et estimation du mouvement dans la vidéo
A Pyramid Approach to Subpixel Registration Based on Intensity
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Estimation de la survie comparaison des courbes de survie FRT C3.
Règles significatives
1 Analyse de la variance multivariée Michel Tenenhaus.
Reconnaissance de la parole
Révision (p. 130, texte) Nombres (1-100).
Sélection automatique d’index et de vues matérialisées
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
QUALIPREF Synthèse de lenquête de satisfaction réalisée du 2 avril au 25 mai 2012 après réception de 306 questionnaires.
Classification Multi Source En Intégrant La Texture
Présentation générale
Éclairage Structuré et vision active pour le contrôle qualité de surfaces métalliques réfléchissantes Olivier Morel*, Ralph Seulin, Christophe Stolz, Patrick.
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
« Recherche de méthode d’estimation de volume de production à risque »
Reconnaissance Vocale
SPI - Serial Peripheral Interface
Notre calendrier français MARS 2014
Chapitre 3 Syntaxe et sémantique.
Annexe 1 VISITE SUR
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction au calcul quantique
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
Veuillez trouver ci-joint
Ordonnancement de tâches
Les Nombres! de 0 à 20.
SUJET D’ENTRAINEMENT n°4
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI Jean-Jacques DUMÉRY -1-
Échantillonnage (STT-2000) Section 2 Tirage de Bernoulli (plan BE). Version: 4 septembre 2003.
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
1 Modèle pédagogique d’un système d’apprentissage (SA)
CALENDRIER-PLAYBOY 2020.
9 paires séries de 3 étuis ( n° 1 à 27 )
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Traitement de la parole : Synthèse et reconnaissance
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Transcription de la présentation:

Acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière Dijana PETROVSKA-DELACRETAZ travail en commun avec Allen Gorin, Giuseppe Riccardi et Jerry Wright dijana.petrovska@tsi.enst.fr http://www.tsi.enst.fr/~petrovsk Conférence à l’ENST, le 17 mai 2001

Introduction et motivation Progrès des sciences de l’information, mais interface homme-machine est toujours peu conviviale téléphone - touches DTMF trop utilisées www - suites de clicks interminables Parole est un moyen de communication familier : moyen privilégié pour le dialogue homme-machine Notre objectif : dialoguer en langage spontané avec des machines 2

Tâche difficile => commencer avec un reconnaisseur phonétique Méthodes actuelles => besoin des corpus de parole annotés manuellement et spécifiques pour chaque tâche Objectif => développer des méthodes d’apprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions Tâche difficile => commencer avec un reconnaisseur phonétique Evaluation => unités apprises automatiquement, utilisés pour la classification d’appels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T 3

Plan 1 Etat de l’art 2 Base de données et pre-traitement 3 Acquisition automatique de « morphèmes acoustiques » et leur caractérisation 4 Détection de ces morphèmes 5 Evaluation expérimentale => classification de requêtes téléphoniques 6 Conclusions 7 Perspectives 4

1 Etat de l’art Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir d’un flux de mots isolés Deligne et Bimbot - 1997; Llyod-Thomas, Parris, Wright -1998 et Chollet, Cernocky, Constantinescu, Deligne, Bimbot -1999 acquisition automatique de séquences d’unités de longueur variable dans de la parole continue Notre objectif: exploiter la parole et sa signification pour la compréhension du langage sans transcriptions 5

2. Base de données utilisée Corpus « How may I help you ?» (HMIHY) : transactions téléphoniques classées par type d’appel; appels + actions associées (7462 apprentissage et 1000 test) Reconnaisseur phonétique indépendant de la tâche : Modèle de langage phono-tactique de Switchboard 1 (Automate Stochastique de multigrammes, max 6) Taux de reconnaissance, sur les données de test de HMIHY 44% de phones reconnus correctement dans le meilleur chemin 68% dans le treillis phonétique ASR-phone-train et ASR-phone-test 6

Comme référence : utilisation des transcriptions des appels en mots => transcr-word-train et -test Evaluer nos algorithmes dans le cas idéal (reconnaisseur de phones parfait) : remplacer chaque mot transcrit par sa prononciation la plus probable, sans les silences ; « calling card » = «  K ao l ih ng K aa r D » => transcr-phone-train et –test 7

2.1 Caractérisation des données ASR-phone 8

3. Morphèmes acoustiques - définitions Morphème acoustique f = forme acoustique associée à une action = séquence f de phones pi : f = p1 p2 … pn ; Mesure de son utilité pour la reconnaissance est évaluée par la mesure de l’information mutuelle de ses composants : MI(f) MI (p1 p2 … pn-1 ; Pn) Mesure de sa pertinence pour l’action associée, évaluée par le maximum de la distribution à posteriori, avec C =15 types d’appel de HMIHY: 9

3.2 Morphèmes : schéma d’acquisition ASR-phone-train + actions Séquences pré-selectionnées pertinentes Morphèmes acoustiques Algorithme itératif Seuil de sélection Algorithme de regroupement 10

3.3 MI des séquences pré-sélectionnées 11

3.4 Pmax des séquences pré-sélectionnées 12

3.4 Séquences pertinentes Séquences pré-sélectionnées: seuil sur Pmax >= 0.6 Exemples de séquences pertinentes, associées à collect : Séquence Pmax Séquence pertinente f1 0.81 K ax l eh K T f2 0.91 K ax l eh K T K ao l f3 bos K ax l eh K T K ao l f4 0.97 K ax l eh K T K ao l eos f5 0.87 K l ay K K f6 0.92 K l ay K K ao l D f7 P l ey s ih K l ay K f8 0.94 P l ey s ih K l ay K K ao l 13

3.5 On arrive au « Morphème acoustique » En utilisant une mesure de distorsion segmentale et semantique On les représente par des automates à états finis Exemple d’un morphème acoustique f (associé a collect) : l K ay ao aa m T eh D ax 14

4. Détection des morphèmes acoustiques Classification des appels, basée sur la détection des morphèmes acoustiques Meilleur chemin de la reco de phonèmes : 42% des appels, aucun morphème trouvé => classification impossible de ces appels => résultats non satisfaisants => les treillis du reconnaisseur phonétique 15

4.1 Détections dans les treillis de phonèmes représentation des distributions d’hypothèses de reconnaissance alternatives (automates à états finis) utilisés sous forme de : treillis complets ou treillis élagués, seuil r : ri =< r avec ri = pi / p1, et pi = prob. du chemin i 16

4.2 Exemple de treillis d’une élocution Elocution = « collect call «  Treillis élague correspondant : l K ah ao D ax r T eh 17

4.3 Les treillis améliorent la détection Expérience Pourcentage d’appels sans détection meilleur chemin 42 % treillis élagué 12 % treillis complet 6 % 18

4.4 Morphèmes acoustiques détectés 19

4.5 Statistiques d’un Morphème Acoustique Fc Sa pertinence sur l’ensemble d’apprentissage P a(c | Fc) = 0.89 W = suite de mots correspondant à Fc dans transr-word-test P (Fc )= proba. d’apparition du morphème dans ASR-phone-test P (W) = proba. d’apparition de W , calculée dans transr-word-test expérience r P (Fc) P(W) meilleur chemin 1 0.03 0.07 treillis élagué 0.05 0.04 - treillis complet 0.00 0.08 20

4.6 Détections et pertinence de Fc P ( Fc | c) = proba de Fc étant donne l’appel ; P ( c | Fc ) = pertinence effective sur l’ensemble de test ; Expérience r P ( Fc | c) P ( c | Fc ) meilleur chemin 1.00 0.15 0.93 treillis élagué 0.05 0.20 0.90 treillis complet 0.00 0.31 0.71 21

4.7 Comparaison avec les données transcrites P ( Fc | W) = proba de « détection correcte » de Fc ; P ( Fc | ) = proba de « fausse détection » de Fc ; Expérience r P ( Fc | W) P ( c | ) meilleur chemin 1.00 0. 38 0.001 treillis élagué 0.05 0.53 0.004 treillis complet 0.00 0.66 0.035 22

5. Evaluation expérimentale avec la classification d’appels téléphoniques Utilité des morphèmes acoustiques évaluée pour la classification d’appels de la tâche « How may I help you ? » Classifficateur actuel utilise seulement les meilleurs chemins Modification simple : si détection dans meilleur chemin => OK sinon chercher dans le treillis jusqu’à la découverte d’une détection considérer seulement ce chemin si aucune détection => classer l’appel dans la classe poubelle « OTHER » 23

6. Résultats de la classification d’appels 24

6.2 Comparaison avec résultats de 1996 25

6. Conclusions Nous avons cherché à « apprendre à comprendre » à partir d’une base de données sans transcriptions Comment : par l’acquisition automatique de « morphèmes acoustiques » Utilité évalué expérimentalement sur la tâche de classification d’appels téléphoniques HMIHY, en cherchant dans les treillis, on réduit le taux de faux rejet de 59%, accompagné d’une réduction d’appels classés correctement de 5% On atteint un point opérationnel de 86% classifications correctes, avec 50% de faux rejet 26

7. Perspectives Optimiser l’algorithme d’acquisition des séquences pré-sélectionnées Phase de test : exploiter des détections multiples dans les treillis Utiliser des détections « floues » Utiliser les treillis dans la phase d’apprentissage 27