Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parBrice Cormier Modifié depuis plus de 11 années
1
Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright
2
2 Introduction => Notre objectif => dialoguer en langage spontané avec des machines => Méthodes actuelles => besoin des corpus de parole annotés manuellement => Inconvénients => nouvelle application, collecte et annotation de nouvelles bases de données => Objectif => développer des méthodes dapprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions => Tâche difficile => commencer avec un reconnaisseur phonétique (dépendant de la langue) => Evaluation => lutilité de unités apprises automatiquement, évaluée lors de la classification dappels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T
3
3 Plan 1 Etat de lart 2 Base de données 3 Acquisition automatique de « morphèmes acoustiques » et leur caractérisation 4 Détection de ces morphèmes => 5 Evaluation expérimentale => classification de requêtes téléphoniques 6 Conclusions et perspectives
4
4 1 Etat de lart Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte sans les délimiteurs de mots Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir dun flux de mots isolés Deligne et Bimbot - 1997; Llyod-Thomas, Parris, Wright -1998 et Chollet, Cernocky, Constantinescu, Deligne, Bimbot -1999 acquisition automatique de séquences dunités de longueur variable dans de la parole continue Notre but : exploiter la parole et sa signification pour la compréhension du langage en minimisant lutilisation des transcriptions
5
5 Base de données utilisée Corpus « How may I help you ?» HMIHY transactions téléphoniques classées par type dappel (appel action): 7462 apprentissage et 1000 test Reconnaisseur phonétique indépendant de la tâche : Modèle de langage phono-tactique de Switchboard 1 (Automate Stochastique de multigrammes, max 6) Résultats sur HMIHY : 44% de phones reconnus correctement dans le meilleur chemin, et 68% dans le treillis phonétique ASR-phone-train et ASR-phone-test
6
6 2.1 Caractérisation des données ASR-phone
7
7 3. Morphèmes acoustiques - définitions Morphème acoustique f = forme acoustique associée à une action = séquence f de phones p i : f = p 1 p 2 … p n ; Mesure de sa pertinence pour laction associée, évaluée par le maximum de la distribution à posteriori: avec C =15 types dappel de HMIHY Son utilité pour la reconnaissance est évalué par la mesure de linformation mutuelle de ses composants : MI(f) MI (p 1 p 2 … p n-1 ; P n )
8
8 3.2 Morphèmes : schéma dacquisition Algorithme itératif Seuil de sélection Algorithme de regroupement
9
9 3.3 MI des séquences pré-sélectionnées
10
10 3.4 P max des séquences pré-sélectionnées
11
11 3.4 Séquences pertinentes Séquences pré-sélectionnées : seuil sur P max >= 0.6 Exemples de séquences pertinentes, associées à collect : SéquenceP max Séquence pertinente f1f1 0.81K ax l eh K T f2f2 0.91K ax l eh K T K ao l f3f3 0.91bos K ax l eh K T K ao l f4f4 0.97K ax l eh K T K ao l eos f5f5 0.87K l ay K K f6f6 0.92K l ay K K ao l D f7f7 0.91P l ey s ih K l ay K f8f8 0.94P l ey s ih K l ay K K ao l
12
12 3.5 On arrive au « Morphème acoustique » En utilisant une mesure de distorsion segmentale On les représente par des automates à états finis Exemple dun morphème acoustique f (associé a collect) : lKayaol K aa m K K K T eh D ax
13
13 4. Détection des morphèmes acoustiques Classification des appels est basée sur la détection des morphèmes acoustiques Meilleur chemin de la reco. de phonèmes dans 42% des appels, aucun morphème trouvé => classification impossible pour ces appels => résultats non satisfaisants Solution: les treillis du reconnaisseur phonétique
14
14 4.1 Détections dans les treillis de phonèmes Treillis: représentation des distributions dhypothèses de reconnaissance alternatives représentés comme des automates à états finis utilisés sous forme de : treillis complets ou treillis élagués, seuil r : r i =< r avec r i = p i / p 1, et p i = prob. du chemin i Résultats: plus de détections de morphèmes incluant aussi des fausses détections
15
15 4.2 Exemple du treillis dune élocution Elocution = « collect call « Treillis élague correspondant : l Kahlao K l D ax ao r T eh K
16
16 4.3 Les treillis améliorent la détection Expérience Pourcentage dappels sans détection meilleur chemin42 % treillis élagué 12 % treillis complet6 %
17
17 4.4 Morphèmes acoustiques détectés
18
18 4.5 Statistiques dun Morphème Acoustique F c Sa pertinence sur lensemble dapprentissage P(c | F c ) = 0.89 W = suite de mots correspondant à F c dans transr-word-train P (c | F c ) = proba. dapparition du morphème dans ASR-phone-test P (W) = proba. dapparition de W, calculée dans transr-word-test expériencerP (F c )P(W) meilleur chemin 1 0.0280.071 treillis élagué0.050.042- treillis complet0.00 0.080 -
19
19 4.6 Détections et pertinence de F c Expérience r P ( F c | c) P ( c | F c ) meilleur chemin1.000.150.93 treillis élagué 0.050.200.90 treillis complet0.000.310.71 P ( F c | c) = proba de F c étant donné lappel ; P ( c | F c ) = pertinence effective sur lensemble de test ;
20
20 4.7 Comparaison avec les données transcrites P ( F c | W) = proba de « détection correcte » de F c ; P ( F c | ) = proba de « fausse détection » de F c ; Expérience r P ( F c | W) P ( c | ) meilleur chemin1.000.380.001 treillis élagué 0.050.530.004 treillis complet0.000.660.035
21
21 5. Evaluation expérimentale avec la classification dappels téléphoniques Utilité des morphèmes acoustiques évaluée pour la classification dappels de « How may I help you ? » Classificateur actuel utilise seulement les meilleurs chemins Modification simple : si détection dans meilleur chemin => OK sinon chercher dans le treillis jusquà la découverte dune détection considérer seulement ce chemin si aucune détection => classer lappel dans la classe poubelle « OTHER »
22
22 6. Résultats de la classification dappels
23
23 6. Conclusions Nous avons cherché à «apprendre à comprendre» à partir dune base de données sans transcriptions Comment : par lacquisition automatique de « morphèmes acoustiques » Utilisation pour la classification dappels téléphoniques HMIHY Résultats en cherchant dans les treillis, on réduit le taux de faux rejet de 59%, accompagné dune réduction dappels classés correctement de 5% On atteint un point opérationnel de 86% classifications correctes, avec 50% de faux rejet
24
24 7. Perspectives Optimiser lalgorithme dacquisition des séquences pré-sélectionnées Phase de test : exploiter des détections multiples dans les treillis Utiliser des détections « floues » Utiliser les treillis dans la phase dapprentissage
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.