Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée Mohamed-Zakaria KURDI CLIPS – IMAG
2 Plan 1.Introduction 2.Quelques extragrammaticalités de la parole 3.Travaux précédents 4.Approche et méthode 5.Test et résultats 6.Conclusion
3 Introduction 1.Le développement des systèmes de dialogue nécessite la prise en compte de la spontanéité de la parole 2.Ignorer les extragrammaticalités conduit à des erreurs dinterprétation => Analyse et traitement des extragrammaticalités
4 Typologie des extragrammaticalités de la parole oCompétence ou Performance ? o3 zones (Shriberg, 95) :
5 Quelques extragrammaticalités de la parole Quelques extragrammaticalités de la parole 1.Les extragrammaticalités lexico-syntaxiques Els : Cte fois jte l dis. Cest quoi son nom ? Il veut quoi ? 2.Les répétitions : (...) vous demandez vous demandez une voiture une voiture de location… 3.Les faux départs : (...) je voudrais avez-vous une chambre (…) 4.Lautocorrection : (...) le train part de Grenoble euh pardon de Lyon Perrache 5.Lincomplétude : (…) et si on
6 Travaux précédents oApproches à base de patterns Approches symboliques : (Bear, 1992), (Shriberg, 1994), phonologie, prosodie, Approches stochastiques : (Heeman, 1994), (Heeman, 1997), n-grammes oApproches basées sur la syntaxe Méta-règles danalyse : (Cori, 1997), (Core, 1999)
7 Notre approche Utiliser les informations structurales locales (pour les répétitions par ex.) Utiliser la morpho-syntaxe (pour les auto- corrections par ex.) Utiliser la pragmatique du discours (pour la détection et lanalyse des zones dédition par ex.)
8 Les phénomènes traités Les phénomènes traités par des patterns simples (information structurale superficielle) avec des règles syntaxiques (information morpho-syntaxique) par des patterns hybrides (informations structurale et syntaxique)
9 Méthode Normalisation lexicale POS tagging (Xerox) Normalisation des ESL Deux passes Traitement des répétitions des auto- corrections, des faux- départs et des incomplétudes Traitement des extragrammaticalités lexicales
10 Méthode Le traitement par patterns Étiquetage local avec segmentation (Bear, 94) Étiquetage global sans segmentation M x Motsidentiques R x Remplacement EÉditeurs (silence, hésitation, mots incomplets XMotsneutres Signes utilisés pour létiquetage
11 Les patterns de base Extraction des patterns du corpus dapprentissage (60 dialogues)
12 Méthode Traitement syntaxique Phénomènes : faux départs, Cadre général : analyse par chunks (Abney, 1991). Information des frontières lexicales (..) now the so what (...) Modèles de malformations des chunks I need to my probleme is (...)
13 Problèmes spécifiques Extragrammaticalités multiples (= imbrications)
14 Problèmes spécifiques Surgénérativité (=erreurs) Ressemblance structurale: As soon as, To go to, etc. Traitement : Patterns de contrôle spécifiques La zone dédition : Le nombre –Maximum deux mots neutres Le sens –Enumérations, expressions figées (voyons voir)
15 Le corpus TRAINS Corpus, Université de Rochester USA, (Heeman, 1995) Corpus de négociation de transport ferroviaire de 93 dialogues (441 KB de mots et 5600 tours de parole) 60 dialogues sont réservés à lentraînement
16 Test et résultats Le corpus de test : 500 énoncés dont 286 qui contiennent des Extragrammaticalités
17 Analyse des erreurs 30% de cas non détectés (erreur de détection de la zone dédition) 70% de cas extrêmement complexes dus à linterférence de plusieurs phénomènes (anaphores et extragrammaticalités)
18 Conclusion oIntégration de différentes sources de connaissances pour le traitement des extragrammaticalités de la parole oRésolution de certain cas de surgénérativité