La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière Dijana PETROVSKA-DELACRETAZ travail en commun avec Allen Gorin, Giuseppe.

Présentations similaires


Présentation au sujet: "Acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière Dijana PETROVSKA-DELACRETAZ travail en commun avec Allen Gorin, Giuseppe."— Transcription de la présentation:

1 Acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière Dijana PETROVSKA-DELACRETAZ travail en commun avec Allen Gorin, Giuseppe Riccardi et Jerry Wright Conférence à lENST, le 17 mai 2001

2 2 Introduction et motivation Progrès des sciences de linformation, mais interface homme-machine est toujours peu conviviale téléphone - touches DTMF trop utilisées www - suites de clicks interminables : Parole est un moyen de communication familier : moyen privilégié pour le dialogue homme-machine : Notre objectif : dialoguer en langage spontané avec des machines

3 3 => Méthodes actuelles => besoin des corpus de parole annotés manuellement et spécifiques pour chaque tâche => Objectif => développer des méthodes dapprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions => Tâche difficile => commencer avec un reconnaisseur phonétique => Evaluation => unités apprises automatiquement, utilisés pour la classification dappels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T

4 4 Plan 1 Etat de lart 2 Base de données et pre-traitement 3 Acquisition automatique de « morphèmes acoustiques » et leur caractérisation 4 Détection de ces morphèmes => 5 Evaluation expérimentale => classification de requêtes téléphoniques 6 Conclusions 7 Perspectives

5 5 1 Etat de lart Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir dun flux de mots isolés Deligne et Bimbot ; Llyod-Thomas, Parris, Wright et Chollet, Cernocky, Constantinescu, Deligne, Bimbot acquisition automatique de séquences dunités de longueur variable dans de la parole continue Notre objectif: exploiter la parole et sa signification pour la compréhension du langage sans transcriptions

6 6 2. Base de données utilisée Corpus « How may I help you ?» (HMIHY) : transactions téléphoniques classées par type dappel; appels + actions associées (7462 apprentissage et 1000 test) Reconnaisseur phonétique indépendant de la tâche : Modèle de langage phono-tactique de Switchboard 1 (Automate Stochastique de multigrammes, max 6) Taux de reconnaissance, sur les données de test de HMIHY 44% de phones reconnus correctement dans le meilleur chemin 68% dans le treillis phonétique ASR-phone-train et ASR-phone-test

7 7 Comme référence : utilisation des transcriptions des appels en mots => transcr-word-train et -test Evaluer nos algorithmes dans le cas idéal (reconnaisseur de phones parfait) : remplacer chaque mot transcrit par sa prononciation la plus probable, sans les silences ; « calling card » = « K ao l ih ng K aa r D » => transcr-phone-train et –test

8 8 2.1 Caractérisation des données ASR-phone

9 9 3. Morphèmes acoustiques - définitions Morphème acoustique f = forme acoustique associée à une action = séquence f de phones p i : f = p 1 p 2 … p n ; Mesure de son utilité pour la reconnaissance est évaluée par la mesure de linformation mutuelle de ses composants : MI(f) MI (p 1 p 2 … p n-1 ; P n ) Mesure de sa pertinence pour laction associée, évaluée par le maximum de la distribution à posteriori, avec C =15 types dappel de HMIHY:

10 Morphèmes : schéma dacquisition Algorithme itératif Seuil de sélection Algorithme de regroupement

11 MI des séquences pré-sélectionnées

12 P max des séquences pré-sélectionnées

13 Séquences pertinentes Séquences pré-sélectionnées: seuil sur P max >= 0.6 Exemples de séquences pertinentes, associées à collect : SéquenceP max Séquence pertinente f1f1 0.81K ax l eh K T f2f2 0.91K ax l eh K T K ao l f3f3 0.91bos K ax l eh K T K ao l f4f4 0.97K ax l eh K T K ao l eos f5f5 0.87K l ay K K f6f6 0.92K l ay K K ao l D f7f7 0.91P l ey s ih K l ay K f8f8 0.94P l ey s ih K l ay K K ao l

14 On arrive au « Morphème acoustique » En utilisant une mesure de distorsion segmentale et semantique On les représente par des automates à états finis Exemple dun morphème acoustique f (associé a collect) : lKayaol K aa m K K K T eh D ax

15 15 4. Détection des morphèmes acoustiques Classification des appels, basée sur la détection des morphèmes acoustiques Meilleur chemin de la reco de phonèmes : 42% des appels, aucun morphème trouvé => classification impossible de ces appels => résultats non satisfaisants => les treillis du reconnaisseur phonétique

16 Détections dans les treillis de phonèmes Treillis: représentation des distributions dhypothèses de reconnaissance alternatives (automates à états finis) utilisés sous forme de : treillis complets ou treillis élagués, seuil r : r i =< r avec r i = p i / p 1, et p i = prob. du chemin i

17 Exemple de treillis dune élocution Elocution = « collect call « Treillis élague correspondant : l Kahlao K l D ax ao r T eh K

18 Les treillis améliorent la détection Expérience Pourcentage dappels sans détection meilleur chemin42 % treillis élagué 12 % treillis complet6 %

19 Morphèmes acoustiques détectés

20 Statistiques dun Morphème Acoustique F c Sa pertinence sur lensemble dapprentissage P a (c | F c ) = 0.89 W = suite de mots correspondant à F c dans transr-word-test P (F c )= proba. dapparition du morphème dans ASR-phone-test P (W) = proba. dapparition de W, calculée dans transr-word-test expériencerP (F c )P(W) meilleur chemin treillis élagué treillis complet

21 Détections et pertinence de F c Expérience r P ( F c | c) P ( c | F c ) meilleur chemin treillis élagué treillis complet P ( F c | c) = proba de F c étant donne lappel ; P ( c | F c ) = pertinence effective sur lensemble de test ;

22 Comparaison avec les données transcrites Expérience r P ( F c | W) P ( c | ) meilleur chemin treillis élagué treillis complet P ( F c | W) = proba de « détection correcte » de F c ; P ( F c | ) = proba de « fausse détection » de F c ;

23 23 5. Evaluation expérimentale avec la classification dappels téléphoniques Utilité des morphèmes acoustiques évaluée pour la classification dappels de la tâche « How may I help you ? » Classifficateur actuel utilise seulement les meilleurs chemins Modification simple : si détection dans meilleur chemin => OK sinon chercher dans le treillis jusquà la découverte dune détection considérer seulement ce chemin si aucune détection => classer lappel dans la classe poubelle « OTHER »

24 24 6. Résultats de la classification dappels

25 Comparaison avec résultats de 1996

26 26 6. Conclusions Nous avons cherché à « apprendre à comprendre » à partir dune base de données sans transcriptions Comment : par lacquisition automatique de « morphèmes acoustiques » Utilité évalué expérimentalement sur la tâche de classification dappels téléphoniques HMIHY, en cherchant dans les treillis, on réduit le taux de faux rejet de 59%, accompagné dune réduction dappels classés correctement de 5% On atteint un point opérationnel de 86% classifications correctes, avec 50% de faux rejet

27 27 7. Perspectives Optimiser lalgorithme dacquisition des séquences pré- sélectionnées Phase de test : exploiter des détections multiples dans les treillis Utiliser des détections « floues » Utiliser les treillis dans la phase dapprentissage


Télécharger ppt "Acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière Dijana PETROVSKA-DELACRETAZ travail en commun avec Allen Gorin, Giuseppe."

Présentations similaires


Annonces Google