Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université.

Slides:



Advertisements
Présentations similaires
Sintaks : Tentative de guide de mise en œuvre Michel Hassenforder.
Advertisements

CONSULTING Plans de Reprise d’Activité – Plans de Continuité d’Activité NEFTIS aide les entreprises à mettre en place les Plans de Continuité et de Reprise.
Définitions Analyse documentaire
Statut et typologies de l’écrit
Déductions logiques et calcul de représentations sémantiques Alain Lecomte UMR SFL Séminaire « Logique, Sémantique, Dialogue » - partie I.
Les points ECVET Outil de communication conçu à partir des documents développés pour l’organisation des réunions du projet.
Comment faire un e-Catalogue ?
Urbanisation de Systèmes d'Information
M.E.D.A.L. Module dEnseignement à Distance pour lArchitecture Logicielle Alain VAILLY Diapositive n° 1 IUP MIAGE - Université de NANTES IUP-MIAGE 3ème.
Outils chimiques pour létude des biomolécules 2 ème partie : Outils chimiques théorique : Modélisation Moléculaire 2) La modélisation moléculaire : optimisation.
UML - Présentation.
Exemple : Itinéraire de lecture.
L’étude de cas en géographie seconde
Outils de développements
Analyse Sémantique de Requêtes en Langue Naturelle pour un Agent Assistant d’Interface. Un modèle de réécriture procédurale conduite par relaxation de.
L'Etude de cas.
Chap 1 Grammaires et dérivations.
EA 202 Eléments de stratégie
Introduction à la POO: Les classes vs les objets
Traitement de texte ++.
Pour un système formel de description linguistique
Pour l’utilisation de l’Analyse en Constituants Immédiats
Le français dans tous les sens
1 Le programme de 3 e Rentrée 2008 (daprès un diaporama dAndré Pressiat)
Le management strategique
AQOR – Amélioration de la Qualité de lOrientation Les pratiques dorientation AQOR A mélioration de la Qualité de lOrientation.
RDF(S)
Introduction à la sociolinguistique
COMPREHENSION DE L’ORAL
Etude globale de système.
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Rappels de logique des prédicats du 1er ordre
1 CSI3525: Concepts des Languages de Programmation Notes # 3: Description Syntaxique des Languages.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Michael Esfeld Université de Lausanne
Chapitre 2 La description du langage
LE DEVELOPPEMENT DU LANGAGE
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
Modélisation des opérations Spécifier les transformations détat que lon attend des services de la machine Létat dune machine entièrement déterminée par.
21/09/06 Catherine, Dominique, Sylvie, Laurence, Denis, Jean-baptiste Question de départ Incidences et répercussions de lIdentité sectorielle au sein de.
Paradigmes des Langages de Programmation
Le parcours didactique
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Approches Formelles en Systèmes d'information
Vers une analyse syntaxique à granularité variable Tristan Van rullen
L’observation réfléchie de la langue
La formation des ressources humaines
Le programme de 2 AM 2e Exposé Lien compétence globale
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
Définition FLM Français langue maternelle : Désigne, de façon générale, la langue apprise par le sujet dans son milieu familial, dès la petite enfance,
JEAN-MARC FONTAN SOC-1101 COURS 3
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Environnement numérique de travail
Initiation à la conception des systèmes d'informations
François CARCENAC,Frédéric BONIOL ONERA-DTIM Zoubir MAMMERI IRIT
La famille est un système ouvert :
UTILISATION DE Claire Meyer-Bisch.
Introduction à la Programmation Orientée Objet
Gestion et traitement des demandes de service
Meilleurs vœux pour 2011!.
LOGIQUE ET PROGRAMMATION LOGIQUE
INTRODUCTION AUX BASES DE DONNEES
LES TEXTES ET LES SHADOKS (Docs d’application et d’accompagnement)
Mémoire de fin d’études
Est-ce qu’il faut que j’anticipe mon animation?. Quelles sont les questions que vous vous posez avant votre séance ?
Les bases de données Séance 2 Méthodologies d’analyse.
L’écrit argumentatif État des recherches (très provisoire) Isabelle Delcambre LYPRARG - 24/01/20121.
Le syntagme prépositionnel
Transcription de la présentation:

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Parsing de l’oral : traiter les disfluences Marie-Laure Guénot LPL - CNRS / Université de Provence

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Parsing de l’oral : traiter les disfluences Traitement automatique des disfluences Phénomène fréquent en oral spontané Côté descriptif : études fines de l’organisation interne Côté formel : pas de statut clair des disfluences au sein d’un système grammatical Côté informatique : techniques diverses, pas régulières Proposition Côté descriptif : réflexion théorique sur la place des disfluences dans une grammaire Côté formel : représentation formelle issue de cette réflexion Côté informatique : caractéristiques, limites, quelques suggestions

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Caractéristiques générales Rupture du déroulement syntagmatique, entassement paradigmatique Absence de fonction sémantique Pas de contenu sémantique différent d’une forme non disfluente, n’apporte rien à la sémantique de l’énoncé Absence de fonction syntaxique Ni consituants d’un syntagme, ni en relation de dépendance Deux types possibles Bribes : reprises à partir de syntagmes inachevés (il il) Amorces : reprises à partir de morphèmes inachevés (dans la paran- dans la parano) Côté descriptif

Côté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Organisation interne Trois formes possibles [Pallaud & Henry 03] Complétées : reprise des premières formulations à l’identique Modifiées : reprise et modification des premières formulations Inachevées : abandon des premières formulations Côté descriptif

Côté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Organisation interne (suite) Espaces internes [Shriberg 94] Reparandum : lieu de la première production (sont très) Interruption point : lieu de la (première) rupture syntagmatique ([IP]) Interregnum : lieu où peuvent se produire des marques d’hésitation et/ou des tentatives de formulation avortées (euh sont doivent être) Repair : reprise du déroulement syntagmatique (doivent pouvoir être contrôlés) Côté descriptif

Côté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté formel Une différence notable entre linguistique descriptive et formelle Description : étude fine du fonctionnement interne Formalisation : maintien d’une cohérence générale Articulation entre les disfluences et le reste de la grammaire Qu’est-ce qu’une disfluence dans une grammaire? Plus généralement : Que représente un objet (une construction) dans une grammaire? Relations entre occurrences possibles ou entre places syntaxiques? Côté formel

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 1: Relations entre occurrences possibles Principe Chaque occurrence = un objet dans la grammaire Conséquences Chaque relation (a et b) est multipliée par le nombre d’occurrences de la même place syntaxique Limites Variation en fonction de la présence et de la forme de la disfluence Õ{a, b} pour “je vais être” vs. {a, a, a, a, b, b} pour “je vais je vais être”, etc. Certaines caractéristiques générales du syntagme sont rendues caduques par cette présentation ÕUnicité du pronom clitique nominatif, ordre linéaire entre ce pronom et le verbe,… Côté formel

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 2: Parenthésage “étroit” Principe Les éléments constitutifs d’une disfluence sont regroupés en un objet unique Conséquences La multiplication des relations caractéristiques est limitée A chaque groupe rassemblé doit correspondre une étiquette d’objet grammatical Limites Les frontières de disfluences ne correspondent pas toujours aux frontières des objets grammaticaux ÕQuelle est la catégorie de “je vais je vais”? Côté formel

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 3: Parenthésage “large” Principe Chaque espace de la disfluence est considéré comme une occurrence, achevée ou non, du syntagme complet Conséquences Configuration proche de celle des énumérations, mais avec des caractéristiques différentes ÕCertains peuvent être inachevés, même fonction syntaxique, même fonction sémantique Puis on met ces différentes occurrences en relation en tant que “disfluence” Côté formel

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 3: Parenthésage “large” (suite) Limites Comment mettre en relation des parties différentes d’occurrences différentes? Selon [Blanche et al. 90]: “(on) vise à dégager la séquence maximale qui a été donnée par le locuteur, en tenant compte de toutes les bribes qu’il a fournies ; dans l’exemple précédent, on retiendra comme séquence maximale : lesquels registres doivent pouvoir être très contrôlés” Comment alors mettre en relation “très” dans le reparandum avec “contrôlés” dans le repair? ÕIl faudrait pouvoir spécifier des relations entre certains constituants de syntagmes différents ÕSolution ad hoc: introduction de types de relations spécifiques au cas des disfluences Côté formel

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Option 4: Constructions grammaticales disfluentes Principe Chaque occurrence d’une même place syntaxique = un constituant d’une “construction disfluente” ÕProche de l’option précédente, mais pas forcément de syntagme complet Conséquences Les places syntagmatiques sont les mêmes que dans une forme sans disfluence ÕPas de constructions ad hoc: pas de modification des définitions des syntagmes de la grammaire ÕPas de relations ad hoc: les “séquences maximales” apparaissent clairement Côté formel

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Représentation formelle Perspective CxG/GP Cadre théorique: Construction Grammar (CxG) [Kay & Fillmore 99] Cadre formel: Grammaires de Propriétés (GP) [Blache 05] Grammaire = ressource unique, descriptive (non générative), multiniveaux (non modulaire), non lexicalisée ÕMême attirail formel que tous les autres objets de la grammaire Proposition

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence La “construction disfluente” Représentation dans la grammaire Au moins deux objets x Traits (sauf l’INDEX) de valeurs identiques un à un x 1 = repair Conséquences Satisfaction complète = bribe complétée Propriété(s) d’accord violée(s) = bribe modifiée Les x sont des syntagmes = bribe inachevée Proposition

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Exemple 1: Une bribe complétée Une construction par catégorie Un “pronom disfluent” (je je) Un “verbe disfluent” (vais vais) Caractéristiques Degré d’évaluation: toutes les propriétés de la définition sont évaluées Degré de satisfaction: toutes les propriétés évaluées sont satisfaites Degré de satisfaction propagée: les deux constructions qui constituent le “pronom disfluent” sont elles-mêmes satisfaites à 100% Proposition

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Exemple 1: Une bribe complétée (suite) Le “verbe disfluent” Mêmes caractéristiques La suite de l’analyse Les objets disfluents ont le même statut que leurs équivalents syntaxiques et sémantiques non disfluents Proposition

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Exemple 2: Une bribe modifiée Une modification sémantique Un peu: intensité faible Pas mal: intensité forte Caractéristiques Deux propriétés ne sont pas satisfaites ÕForme grahique ÕIntensité Le degré de satisfaction baisse ÕC’est la caractéristique d’une bribe modifiée Proposition

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Exemple 3: Une bribe inachevée Caractéristiques Constituants = syntagmes Degré de satisfaction < 100% Degré de satisfaction propagée <100% Proposition

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Représentation formelle: conclusions Intégration des disfluences dans la grammaire Utilisation de l’attirail formel existant, pas de mécanisme ni de représentation ad hoc Réflexion générale sur les grammaires formelles Quels sont les objets que l’on y représente? ÕDes places syntaxiques, et non des occurrences Représentation et traitement des disfluences Une seule construction = phénoméne particulier Trois analyses possibles ÕComplétées = degré de satisf. 100%, degré de satisf. propagé 100% ÕModifiées = degré de satisf. <100%, degré de satisf. propagé 100% ÕInachevées = degré de satisf. <100%, degré de satisf. propagé <100% Distinction des espaces internes ÕRemontée des caractéristiques du repair (propriété “obligatoire”) Proposition

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Mécanismes de parsing Conséquences sur le parsing (non-déterministe) Probable explosion combinatoire ÕIntroduction de “constructions disfluentes” dans de nombreux cas superflus Limitation de l’explosion (pistes) Borner l’introduction d’une disfluence à une distance arbitaire ÕDes objets distants de plus de n constructions ne peuvent pas être les constituants d’une disfluence Introduire des marques linguistiques pour différencier disfluences et énumérations [Johnson et al. 04] ÕDisfluences: pauses oralisées, connecteurs,… ÕÉnumérations: coordonnants, degré de satisfaction propagé = 100%,… Faire (éventuellement) remonter les informations régulières dans la grammaire ÕLimiter les heuristiques dans les parseurs Côté informatique

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Conclusion et perspectives Conclusions Disfluences = phénomène linguistique particulier, non négligable, particularités notables Introduction d’une représentation des disfluences dans une grammaire formelle ÕQuel est leur statut? ÕComment les représenter? ÕQuelles conséquences? Perspectives Vérifier, affiner les descriptions sur corpus ÕAjouter des caratéristiques de niveaux différents (notamment prosodie) - en cours ÕEléments d’analyse / interprétation pragmatique et/ou cognitive Implémenter et tester ÕÉventuellement compléter la grammaire Traiter automatiquement les amorces ÕProblème de leur étiquetage Conclusion

Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Merci