La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Présentations similaires


Présentation au sujet: "Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,"— Transcription de la présentation:

1 Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret, Caroline Atallah + Laurent Prévot (au début) IRIT : Nicholas Asher, Philippe Muller, Laure Vieu, Farah Benamara, Stergos Afantenos (Post-Doc Annodis ) 1

2 Objectifs • Disposer d’un corpus annoté en relations de discours pour le français • Expériences d’annotation, mise au point d’une méthode • Vérification intuitions liées aux relations de discours • Validations de certains points théoriques 2

3 Principe d’annotation • Segmentation en Unité de Discours Elémentaires (UDE) • Construction récursive de constituants plus complexes en reliant les UDE avec des relations de discours : • Recherche d’un point d’attachement • Choix d’une Relation de Discours 3

4 Phases de l’annotation ascendante Annotation Naïve Annotation de Référence Rédaction des guides (par passes successives) : - Segmentation - Annotation en RD 2 annotateurs explorateurs 45 textes doublement annotés 3 annotateurs naïfs 42 textes doublement annotés 4096 segments 3691 relations 7 annotateurs experts 86 textes 7 membres autres groupes du projet 7 textes doublement annotés Annotation Exploratoire 4

5 Phases de l’annotation ascendante Annotation Naïve Annotation de Référence Rédaction des guides (par passes successives) : - Segmentation - Annotation en RD 2 annotateurs explorateurs 45 textes doublement annotés 3 annotateurs naïfs 42 textes doublement annotés 4096 segments 3691 relations 7 annotateurs experts 86 textes 7 membres autres groupes du projet 7 textes doublement annotés Annotation Exploratoire 5

6 Bilan annotateurs experts versant analyse linguistique • Plongée dans les données, mise au jour de nombreux phénomènes (marqueurs, structures, …) à décrire et à analyser • Beaucoup de discussions sur beaucoup de phénomènes linguistiques • Mais difficultés d’une approche en largeur (pour toutes les relations, sur du texte tout venant …) 6

7 Bilan annotation naïve • Accord inter-annotateurs faible : • Attachement brut : 65% • Relations (étant donné 1 attachement commun) : kappa =0.45 sans tenir compte des structures équivalentes et des incomplétudes (ilôts non rattachés) • Guides perfectibles : • Volontairement peu directifs (pour tester hypothèses) • Erreurs stratégiques sur marqueurs • Outil d’annotation GLOZZ perfectible (inversion arguments, ilots non rattachés, absence graphes …) • Mais ilôts stables apparaissent dans annotation 7

8  b2  c*  a1  b* Elaboration Narration  b1  c1 Narr Frame  b2  c*  a1  b* Elaboration Narration  b1  c1 Narr Frame Elaboration 8

9 Premières exploitations des annotations • Test hypothèses théoriques • Apprentissage de la segmentation • Analyses linguistiques des Relations de Discours • Apprentissage d'attachement en cours 9

10 Test hypothèses théoriques • Vérification de contrainte de la frontière droite (CFD) de la SDRT : • 96% des EDU s’attachent à la FD au moins par une RD • 92% des attachements (EDU ou segments complexes) vérifient la CFD • 40 % attachements non locaux (pas avec EDU prec) • Cas intéressants de subordination discursive « non typique » dans les 4% qui ne respectent pas la FD 10

11 Apprentissage automatique • Développement d’un segmentateur automatique en EDU à partir des annotations exploratoires [Bien que celle-ci soit géographiquement située en Afrique,] [l'Art de l'Égypte antique, [né il y a environ cinq mille ans,] est l'une des principales sources de l'art en Europe.] • Classification par token (ouverture/fermeture/intérieur)+post- traitement • Résultats : • ~ 90% de F-score sur les bornes individuelles (G || D, sans post-traitement) • ~ 75% de F-score sur les EDUs (G && D, avec post- traitement) 11

12 Analyses linguistiques des Relations de Discours • Relation d’Elaboration : Thèse Marianne Vergez-Couret (15 Novembre 2010) • Elab relation la plus fréquente dans corpus Annodis • Exploitation d’une petite partie du corpus • Double perspective sémasiologique/onomasiologique • Relations de causalité : Master 2 Caroline Atallah (Juin 2010) Résultat, Explication 12

13 Les relations causales • Objectif : Etudier le marquage des relations causales en s’appuyant sur les premières annotations ascendantes • 4 relations étudiées : • Explication et Résultat • Explication* et Résultat* 13

14 Explication • Explication (explanation) La relation d’explication lie deux segments dont le second (celui qui est attaché) explique le premier (la cible) de façon explicite ou non. [Le chômage baisse en 2008]_1 [parce qu’il y a moins d’actifs.]_2 Explanation (1,2) Marqueurs suggérés : car, parce que, à cause de, du fait de, par la faute de, grâce à, si 1 c’est parce que 2, depuis (si causalité évidente) 14

15 Résultat • Résultat (result) La relation Résultat caractérise des liens entre deux segments portant sur deux éventualités (événements ou états) dont la 2 e résulte de la première. [Nicholas avait bu trop de vin]_1 [et a donc dû rentrer chez lui en métro.]_2 Result (1,2) Marqueurs suggérés : du coup, donc, par conséquent, en conséquence, par suite, à la suite de quoi 15

16 Relations « meta-talk » Dans certains cas, les effets sémantiques du lien rhétorique qui s’établit entre deux segments ne portent pas sur les événements décrits dans les segments, mais sur les actes de parole eux-mêmes. • Explication* [Ferme la porte,]_1 [il fait froid.]_2 • Résultat* [Il fait froid,]_1 [ferme la porte.]_2  Pas de suggestion de marqueurs potentiels 16

17 Constitution d’un corpus de travail • Mise en place d’un outil informatique • Rapprochements effectués entre annotations • Résultats des confrontations 17

18 Mise en place d’un outil informatique • Développer un outil capable de confronter chaque relation d’Explication ou de Résultat repérée par un annotateur avec celles de son collègue et réciproquement • Phase naïve : 43 textes doublement annotés par ANN1, ANN2 et ANN3, soient trois binômes • Pour chaque texte, trois fichiers textes : segmentation, annotations 1 et annotations 2 • Structure d’un fichier de sortie du programme informatique : • Titre du texte • Texte intégral • Annotations correspondant à ce texte 18

19 Annotations « identiques » : Annot. issues de rapprochement entre segments pour une même RD • Inversion Attachement : Result (20/21) par ANN1Result (21/20) par ANN2 • Attachement partiel : Explanation ([19,20,21,23,24,25]/26) par ANN1 Explanation (25/26) par ANN2 Autres cas possibles (autres textes) : Explanation (10, [11-12]) et Explanation (10,11) Result ([21,22,23],[24,25]) et Result (23,24)  Result (20/21) par ANN2 19

20 • Inversion Attachement partiel : Result ([19,20,21]/[23,24,25]) par ANN1 Result ([23,24,25]/[17,18,20,21]) par ANN2 Explication ([31,32]/33) par ANN1 Explication (33/31) par ANN2  Explication (31/33) par ANN2  Result ([17,18,20,21]/[23,24,25]) par ANN2 20

21 21 Annotations différentes : Annot. issues de rapprochement entre segments pour une RD différente • Annotations appariables : Parallel([9,10]/11) par ANN1 Explanation(11/[8,9,10] par ANN2 • Annotations non appariables : 2 segments reliés par 1 RD chez ANN1 pas reliés chez ANN2

22 22 Résultats des confrontations 3 fichiers textes pour chaque texte : segmentation, annotations 1 et annotations 2 Confrontation de toutes les annotations d’un même binôme Traitement réalisé par notre outil 1 fichier texte Annotations identiques 1 fichier texte Annotations différentes • Annotations identiques vs annotations différentes • Annotations appariables vs annotations non appariables 22

23 23 Données récupérées • 47 cas d’annotations identiques (94 annotations) • 202 cas d’annotations différentes • Au total, 296 annotations concernant les relations d’Explication et de Résultat  Corpus d’étude limité aux cas d’annotations identiques. ExplicationRésultatTotal Annotations identiques Annotations différentes appariables Annotations différentes non appariables

24 Analyse du corpus et résultats • Observations sur la qualité des annotations • Marqueurs de relations causales dans le corpus 24

25 Observations sur la qualité des annotations • Correction (ou validation) de chaque annotation • Désaccord sur les arguments de la relation • Problème de la formation des segments complexes • Désaccord sur la nature de la relation • Aucune relation pragmatique repérée • Confusion entre des relations : [C’est probablement l’explication de l’expression française. ]_26 • Rôle important des marqueurs linguistiques dans la tâche d’annotation 25

26 Marqueurs de relations causales dans le corpus Marqueurs les plus « fréquents » : • Résultat : donc (6 occurrences) • Explication : car (10 occurrences) + le cas des connecteurs de nature prépositionnelle : pour, par, à cause de, en raison de, sous

27 Donc • Introduit une conclusion logique • « A donc B » équivalent à « Si A, alors B » • Permet l’inférence d’une relation située au niveau du raisonnement « L’information est une mesure abstraite dépendant de choix donc une mesure probabiliste et pas seulement statistique. »  Identification de Résultat-Inférentiel pour 6 cas sur 8

28 Car • Dans 6 cas sur 11, identification d’une relation métalinguistique, Explication* • présence d’indices discursifs décrivant l’expression d’un jugement de la part de l’énonciateur « La route moderne est probablement un tracé traditionnel, car elle suit tout naturellement la limite du terrain ferme et du terrain alluvial. » (Mariana, Wikipédia) • Mais car pas exclusivement marqueur d’Explication* « J’étais prêt à partir (…) car à 32 ans, il s’agissait sans doute de ma dernière chance de signer un nouveau contrat. » (Pablo Correa, Est Républicain) 28

29 Pour, par, en raison de, à cause de, sous • Non négligeables : ont guidé les annotateurs • Des liens de natures particulières • « Ce bouchage en force permet de s’assurer que le bouchon ne sautera pas tout seul, sous la pression du gaz contenu dans le vin. » On ne peut pas vraiment parler de relation d’Explication.  On laisse de côté ce type de relation causale. 29

30 Conclusion sur les marqueurs relevés dans le corpus • Des liens causaux présents dans différents niveaux de la langue : • Relation de cause à effet strictement sémantique : pour, par, sous… • Relation rhétorique entre des éventualités (états ou événements) : Explication (car), Résultat (donc) • Relation pragmatique entre des actes de parole (niveau illocutoire) : Explication* (car) • Relation entre des états mentaux (niveau épistémique) : Résultat-Inférentiel (donc) 30

31 Bilan première exploitation du corpus annoté en RD • Mise en évidence des difficultés qui peuvent être posées lors d’une campagne d’annotation • Difficultés posées par la rédaction d’un guide satisfaisant • Tâche des annotateurs très complexe • Apports des annotations naïves dans cette campagne ? • Distinguer des marqueurs plus forts (donc, car) • Ouvrir la question sur la définition même d’une relation de discours (le cas de par, sous, …) • Faire émerger des confusions courantes avec d’autres relations (explication et élaboration) 31

32 Bilan publications et mémoires utilisant corpus annoté Annodis • Afantenos Stergos, Asher Nicholas Testing SDRT’s Right Frontier. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). pp 1-9. Beijing, China • Afantenos Stergos, Denis Pascal, Muller Philippe, Danlos Laurence Learning recursive segments for discourse parsing. In Proceedings of the 7th international conference on Language Resources and Evaluation (LREC 2010), Valletta, Malta. • Vergez-Couret Marianne. Sémantique du discours Le cas de la relation d’Élaboration : Etude en corpus de la relation et de son marquage, Thèse de doctorat. Université Toulouse-Le Mirail, • Atallah Caroline. Les relations de causalité dans le discours, mémoire de Master 2 en Sciences du Langage parcours TAL, Université Toulouse-Le Mirail,

33 Bilan publications pertinentes pour Annodis Adam Clémentine & Vergez-Couret Marianne (2010). Signalling Elaboration : Combining Gerund Clauses with Lexical Cues. In Proceedings of Signalling Text Organisation (Multidisciplinary Approaches to Discourse 10), Moissac (France), mars Asher Nicholas, Prévot Laurent & Vieu Laure, 'Setting the Background in Discourse', Discours(e), Bras Myriam, Prévot Laurent & Vergez-Couret Marianne (2008). "Quelle(s) relation(s) de discours pour les structures énumératives ? ", Actes du Colloque Mondial de Linguistique Française CMLF'08, Durand, J., Habert, B., Laks, B. (éds.), pp , Paris, 9-12 juillet Bras Myriam & Schnedecker Catherine (2009). Dans un (premier+second+nième) temps et les relations de discours : de l’élaboration à la contre-argumentation, LPTS, Paris (France) septembre Bras Myriam & Le Draoulec Anne (2009). D’abord marqueur de structuration du discours, Journal of French Language Studies, 19, pp Prévot Laurent, Vieu Laure & Asher Nicholas (2009). Une formalisation plus précise pour une annotation moins confuse: la relation d’élaboration d’entité. Journal of French Language Studies, 19, pp Vergez-Couret Marianne, Prévot Laurent, Bras Myriam (2008) " Interleaved discourse structures, the case of two- step enumerations", Proc. of Constraints in Discourse CID'III, Benz, A., Kühnlein, P., Stede, M. (eds.), pp , Potsdam, 30 juillet - 1er aout Vergez-Couret Marianne (2009b). Vers un marqueur, plus particulièrement de la relation d’Élaboration, LPTS, Paris (France) septembre Vergez-Couret Marianne (2009a). Le rôle de l'adverbe notamment dans la mise en oeuvre des relations de discours, Journal of French Language Studies, 19, pp

34 Interface Ascendant/Macro • Structures Enumératives • Quelles RD pour les SE? • SE à 2 temps • Exploration des SE, recherche d’isomorphisme avec des « Structures Elaboratives » : thèse Marianne • Structure du document • Prise en compte segmentation en paragraphe • Titres • Liens avec segmentation thématique 34


Télécharger ppt "Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,"

Présentations similaires


Annonces Google