Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parJourdain Marquet Modifié depuis plus de 9 années
1
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Parsing de l’oral : traiter les disfluences Marie-Laure Guénot LPL - CNRS / Université de Provence
2
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Parsing de l’oral : traiter les disfluences Traitement automatique des disfluences Phénomène fréquent en oral spontané Côté descriptif : études fines de l’organisation interne Côté formel : pas de statut clair des disfluences au sein d’un système grammatical Côté informatique : techniques diverses, pas régulières Proposition Côté descriptif : réflexion théorique sur la place des disfluences dans une grammaire Côté formel : représentation formelle issue de cette réflexion Côté informatique : caractéristiques, limites, quelques suggestions
3
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Caractéristiques générales Rupture du déroulement syntagmatique, entassement paradigmatique Absence de fonction sémantique Pas de contenu sémantique différent d’une forme non disfluente, n’apporte rien à la sémantique de l’énoncé Absence de fonction syntaxique Ni consituants d’un syntagme, ni en relation de dépendance Deux types possibles Bribes : reprises à partir de syntagmes inachevés (il il) Amorces : reprises à partir de morphèmes inachevés (dans la paran- dans la parano) Côté descriptif
4
Côté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Organisation interne Trois formes possibles [Pallaud & Henry 03] Complétées : reprise des premières formulations à l’identique Modifiées : reprise et modification des premières formulations Inachevées : abandon des premières formulations Côté descriptif
5
Côté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Organisation interne (suite) Espaces internes [Shriberg 94] Reparandum : lieu de la première production (sont très) Interruption point : lieu de la (première) rupture syntagmatique ([IP]) Interregnum : lieu où peuvent se produire des marques d’hésitation et/ou des tentatives de formulation avortées (euh sont doivent être) Repair : reprise du déroulement syntagmatique (doivent pouvoir être contrôlés) Côté descriptif
6
Côté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté formel Une différence notable entre linguistique descriptive et formelle Description : étude fine du fonctionnement interne Formalisation : maintien d’une cohérence générale Articulation entre les disfluences et le reste de la grammaire Qu’est-ce qu’une disfluence dans une grammaire? Plus généralement : Que représente un objet (une construction) dans une grammaire? Relations entre occurrences possibles ou entre places syntaxiques? Côté formel
7
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 1: Relations entre occurrences possibles Principe Chaque occurrence = un objet dans la grammaire Conséquences Chaque relation (a et b) est multipliée par le nombre d’occurrences de la même place syntaxique Limites Variation en fonction de la présence et de la forme de la disfluence Õ{a, b} pour “je vais être” vs. {a, a, a, a, b, b} pour “je vais je vais être”, etc. Certaines caractéristiques générales du syntagme sont rendues caduques par cette présentation ÕUnicité du pronom clitique nominatif, ordre linéaire entre ce pronom et le verbe,… Côté formel
8
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 2: Parenthésage “étroit” Principe Les éléments constitutifs d’une disfluence sont regroupés en un objet unique Conséquences La multiplication des relations caractéristiques est limitée A chaque groupe rassemblé doit correspondre une étiquette d’objet grammatical Limites Les frontières de disfluences ne correspondent pas toujours aux frontières des objets grammaticaux ÕQuelle est la catégorie de “je vais je vais”? Côté formel
9
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 3: Parenthésage “large” Principe Chaque espace de la disfluence est considéré comme une occurrence, achevée ou non, du syntagme complet Conséquences Configuration proche de celle des énumérations, mais avec des caractéristiques différentes ÕCertains peuvent être inachevés, même fonction syntaxique, même fonction sémantique Puis on met ces différentes occurrences en relation en tant que “disfluence” Côté formel
10
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 3: Parenthésage “large” (suite) Limites Comment mettre en relation des parties différentes d’occurrences différentes? Selon [Blanche et al. 90]: “(on) vise à dégager la séquence maximale qui a été donnée par le locuteur, en tenant compte de toutes les bribes qu’il a fournies ; dans l’exemple précédent, on retiendra comme séquence maximale : lesquels registres doivent pouvoir être très contrôlés” Comment alors mettre en relation “très” dans le reparandum avec “contrôlés” dans le repair? ÕIl faudrait pouvoir spécifier des relations entre certains constituants de syntagmes différents ÕSolution ad hoc: introduction de types de relations spécifiques au cas des disfluences Côté formel
11
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 4: Constructions grammaticales disfluentes Principe Chaque occurrence d’une même place syntaxique = un constituant d’une “construction disfluente” ÕProche de l’option précédente, mais pas forcément de syntagme complet Conséquences Les places syntagmatiques sont les mêmes que dans une forme sans disfluence ÕPas de constructions ad hoc: pas de modification des définitions des syntagmes de la grammaire ÕPas de relations ad hoc: les “séquences maximales” apparaissent clairement Côté formel
12
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Représentation formelle Perspective CxG/GP Cadre théorique: Construction Grammar (CxG) [Kay & Fillmore 99] Cadre formel: Grammaires de Propriétés (GP) [Blache 05] Grammaire = ressource unique, descriptive (non générative), multiniveaux (non modulaire), non lexicalisée ÕMême attirail formel que tous les autres objets de la grammaire Proposition
13
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence La “construction disfluente” Représentation dans la grammaire Au moins deux objets x Traits (sauf l’INDEX) de valeurs identiques un à un x 1 = repair Conséquences Satisfaction complète = bribe complétée Propriété(s) d’accord violée(s) = bribe modifiée Les x sont des syntagmes = bribe inachevée Proposition
14
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Exemple 1: Une bribe complétée Une construction par catégorie Un “pronom disfluent” (je je) Un “verbe disfluent” (vais vais) Caractéristiques Degré d’évaluation: toutes les propriétés de la définition sont évaluées Degré de satisfaction: toutes les propriétés évaluées sont satisfaites Degré de satisfaction propagée: les deux constructions qui constituent le “pronom disfluent” sont elles-mêmes satisfaites à 100% Proposition
15
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Exemple 1: Une bribe complétée (suite) Le “verbe disfluent” Mêmes caractéristiques La suite de l’analyse Les objets disfluents ont le même statut que leurs équivalents syntaxiques et sémantiques non disfluents Proposition
16
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Exemple 2: Une bribe modifiée Une modification sémantique Un peu: intensité faible Pas mal: intensité forte Caractéristiques Deux propriétés ne sont pas satisfaites ÕForme grahique ÕIntensité Le degré de satisfaction baisse ÕC’est la caractéristique d’une bribe modifiée Proposition
17
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Exemple 3: Une bribe inachevée Caractéristiques Constituants = syntagmes Degré de satisfaction < 100% Degré de satisfaction propagée <100% Proposition
18
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Représentation formelle: conclusions Intégration des disfluences dans la grammaire Utilisation de l’attirail formel existant, pas de mécanisme ni de représentation ad hoc Réflexion générale sur les grammaires formelles Quels sont les objets que l’on y représente? ÕDes places syntaxiques, et non des occurrences Représentation et traitement des disfluences Une seule construction = phénoméne particulier Trois analyses possibles ÕComplétées = degré de satisf. 100%, degré de satisf. propagé 100% ÕModifiées = degré de satisf. <100%, degré de satisf. propagé 100% ÕInachevées = degré de satisf. <100%, degré de satisf. propagé <100% Distinction des espaces internes ÕRemontée des caractéristiques du repair (propriété “obligatoire”) Proposition
19
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Mécanismes de parsing Conséquences sur le parsing (non-déterministe) Probable explosion combinatoire ÕIntroduction de “constructions disfluentes” dans de nombreux cas superflus Limitation de l’explosion (pistes) Borner l’introduction d’une disfluence à une distance arbitaire ÕDes objets distants de plus de n constructions ne peuvent pas être les constituants d’une disfluence Introduire des marques linguistiques pour différencier disfluences et énumérations [Johnson et al. 04] ÕDisfluences: pauses oralisées, connecteurs,… ÕÉnumérations: coordonnants, degré de satisfaction propagé = 100%,… Faire (éventuellement) remonter les informations régulières dans la grammaire ÕLimiter les heuristiques dans les parseurs Côté informatique
20
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Conclusion et perspectives Conclusions Disfluences = phénomène linguistique particulier, non négligable, particularités notables Introduction d’une représentation des disfluences dans une grammaire formelle ÕQuel est leur statut? ÕComment les représenter? ÕQuelles conséquences? Perspectives Vérifier, affiner les descriptions sur corpus ÕAjouter des caratéristiques de niveaux différents (notamment prosodie) - en cours ÕEléments d’analyse / interprétation pragmatique et/ou cognitive Implémenter et tester ÕÉventuellement compléter la grammaire Traiter automatiquement les amorces ÕProblème de leur étiquetage Conclusion
21
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Merci
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.