Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

La Méthode de Simplexe Standardisation
CARACTERISTIQUES D’UN ENSEMBLE DE FORCES
Fabrice Lauri, François Charpillet, Daniel Szer
Distance inter-locuteur
Classification et prédiction
RECONNAISSANCE DE FORMES
Calculs de complexité d'algorithmes
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Dijana PETROVSKA-DELACRETAZ travail en commun avec
Les numéros 70 –
ACTIVITES Le calcul littéral (3).
Projet n°4 : Objecteering
La méthode expérimentale TD 2 - Licence Laure Fernandez
Journées Francophones
Application de réseaux bayésiens à la détection de fumées polluantes
3. Analyse et estimation du mouvement dans la vidéo
A Pyramid Approach to Subpixel Registration Based on Intensity
Évaluation mai 2009 CP renforcés : 21 classes 351 élèves.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Yann SEMET Projet Fractales, INRIA Rocquencourt
1 Analyse de la variance multivariée Michel Tenenhaus.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Reconnaissance de la parole
Révision (p. 130, texte) Nombres (1-100).
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Sélection automatique d’index et de vues matérialisées
La mesure de tendance centrale
Application des algorithmes génétiques
Classification Multi Source En Intégrant La Texture
Présentation générale
Éclairage Structuré et vision active pour le contrôle qualité de surfaces métalliques réfléchissantes Olivier Morel*, Ralph Seulin, Christophe Stolz, Patrick.
Décodage des informations
Evaluation de la qualité des documents anciens
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Addition vectorielle de vecteurs
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
« Recherche de méthode d’estimation de volume de production à risque »
Reconnaissance Vocale
Expressions régulières et hash tables
Les modèles linéaires (Generalized Linear Models, GLM)
Universté de la Manouba
Chapitre 3 Syntaxe et sémantique.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction au calcul quantique
Gestion de Fichiers Hachage (suite). 2 Plan du cours daujourdhui Prédiction de la distribution des enregistrements Réduction des collisions en augmentant.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Ordonnancement de tâches
Introduction à l’algèbre
Reconnaissance d’empreintes digitales
Projet de Master première année 2007 / 2008
SUJET D’ENTRAINEMENT n°4
Découverte de correspondances entre ontologies distribuées
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
Apprentissage avec un réseau de neurones artificiels
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Traitement de la parole : Synthèse et reconnaissance
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Algorithmes et Programmation
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.
Transcription de la présentation:

Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright

2 Introduction => Notre objectif => dialoguer en langage spontané avec des machines => Méthodes actuelles => besoin des corpus de parole annotés manuellement => Inconvénients => nouvelle application, collecte et annotation de nouvelles bases de données => Objectif => développer des méthodes dapprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions => Tâche difficile => commencer avec un reconnaisseur phonétique (dépendant de la langue) => Evaluation => lutilité de unités apprises automatiquement, évaluée lors de la classification dappels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T

3 Plan 1 Etat de lart 2 Base de données 3 Acquisition automatique de « morphèmes acoustiques » et leur caractérisation 4 Détection de ces morphèmes => 5 Evaluation expérimentale => classification de requêtes téléphoniques 6 Conclusions et perspectives

4 1 Etat de lart Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte sans les délimiteurs de mots Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir dun flux de mots isolés Deligne et Bimbot ; Llyod-Thomas, Parris, Wright et Chollet, Cernocky, Constantinescu, Deligne, Bimbot acquisition automatique de séquences dunités de longueur variable dans de la parole continue Notre but : exploiter la parole et sa signification pour la compréhension du langage en minimisant lutilisation des transcriptions

5 Base de données utilisée Corpus « How may I help you ?» HMIHY transactions téléphoniques classées par type dappel (appel action): 7462 apprentissage et 1000 test Reconnaisseur phonétique indépendant de la tâche : Modèle de langage phono-tactique de Switchboard 1 (Automate Stochastique de multigrammes, max 6) Résultats sur HMIHY : 44% de phones reconnus correctement dans le meilleur chemin, et 68% dans le treillis phonétique ASR-phone-train et ASR-phone-test

6 2.1 Caractérisation des données ASR-phone

7 3. Morphèmes acoustiques - définitions Morphème acoustique f = forme acoustique associée à une action = séquence f de phones p i : f = p 1 p 2 … p n ; Mesure de sa pertinence pour laction associée, évaluée par le maximum de la distribution à posteriori: avec C =15 types dappel de HMIHY Son utilité pour la reconnaissance est évalué par la mesure de linformation mutuelle de ses composants : MI(f) MI (p 1 p 2 … p n-1 ; P n )

8 3.2 Morphèmes : schéma dacquisition Algorithme itératif Seuil de sélection Algorithme de regroupement

9 3.3 MI des séquences pré-sélectionnées

P max des séquences pré-sélectionnées

Séquences pertinentes Séquences pré-sélectionnées : seuil sur P max >= 0.6 Exemples de séquences pertinentes, associées à collect : SéquenceP max Séquence pertinente f1f1 0.81K ax l eh K T f2f2 0.91K ax l eh K T K ao l f3f3 0.91bos K ax l eh K T K ao l f4f4 0.97K ax l eh K T K ao l eos f5f5 0.87K l ay K K f6f6 0.92K l ay K K ao l D f7f7 0.91P l ey s ih K l ay K f8f8 0.94P l ey s ih K l ay K K ao l

On arrive au « Morphème acoustique » En utilisant une mesure de distorsion segmentale On les représente par des automates à états finis Exemple dun morphème acoustique f (associé a collect) : lKayaol K aa m K K K T eh D ax

13 4. Détection des morphèmes acoustiques Classification des appels est basée sur la détection des morphèmes acoustiques Meilleur chemin de la reco. de phonèmes dans 42% des appels, aucun morphème trouvé => classification impossible pour ces appels => résultats non satisfaisants Solution: les treillis du reconnaisseur phonétique

Détections dans les treillis de phonèmes Treillis: représentation des distributions dhypothèses de reconnaissance alternatives représentés comme des automates à états finis utilisés sous forme de : treillis complets ou treillis élagués, seuil r : r i =< r avec r i = p i / p 1, et p i = prob. du chemin i Résultats: plus de détections de morphèmes incluant aussi des fausses détections

Exemple du treillis dune élocution Elocution = « collect call « Treillis élague correspondant : l Kahlao K l D ax ao r T eh K

Les treillis améliorent la détection Expérience Pourcentage dappels sans détection meilleur chemin42 % treillis élagué 12 % treillis complet6 %

Morphèmes acoustiques détectés

Statistiques dun Morphème Acoustique F c Sa pertinence sur lensemble dapprentissage P(c | F c ) = 0.89 W = suite de mots correspondant à F c dans transr-word-train P (c | F c ) = proba. dapparition du morphème dans ASR-phone-test P (W) = proba. dapparition de W, calculée dans transr-word-test expériencerP (F c )P(W) meilleur chemin treillis élagué treillis complet

Détections et pertinence de F c Expérience r P ( F c | c) P ( c | F c ) meilleur chemin treillis élagué treillis complet P ( F c | c) = proba de F c étant donné lappel ; P ( c | F c ) = pertinence effective sur lensemble de test ;

Comparaison avec les données transcrites P ( F c | W) = proba de « détection correcte » de F c ; P ( F c | ) = proba de « fausse détection » de F c ; Expérience r P ( F c | W) P ( c | ) meilleur chemin treillis élagué treillis complet

21 5. Evaluation expérimentale avec la classification dappels téléphoniques Utilité des morphèmes acoustiques évaluée pour la classification dappels de « How may I help you ? » Classificateur actuel utilise seulement les meilleurs chemins Modification simple : si détection dans meilleur chemin => OK sinon chercher dans le treillis jusquà la découverte dune détection considérer seulement ce chemin si aucune détection => classer lappel dans la classe poubelle « OTHER »

22 6. Résultats de la classification dappels

23 6. Conclusions Nous avons cherché à «apprendre à comprendre» à partir dune base de données sans transcriptions Comment : par lacquisition automatique de « morphèmes acoustiques » Utilisation pour la classification dappels téléphoniques HMIHY Résultats en cherchant dans les treillis, on réduit le taux de faux rejet de 59%, accompagné dune réduction dappels classés correctement de 5% On atteint un point opérationnel de 86% classifications correctes, avec 50% de faux rejet

24 7. Perspectives Optimiser lalgorithme dacquisition des séquences pré-sélectionnées Phase de test : exploiter des détections multiples dans les treillis Utiliser des détections « floues » Utiliser les treillis dans la phase dapprentissage