La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CLLE-ERSS : Myriam Bras, Anne Le Draoulec,

Présentations similaires


Présentation au sujet: "CLLE-ERSS : Myriam Bras, Anne Le Draoulec,"— Transcription de la présentation:

1 Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante
CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret, Caroline Atallah + Laurent Prévot (au début) IRIT : Nicholas Asher, Philippe Muller, Laure Vieu, Farah Benamara, Stergos Afantenos (Post-Doc Annodis ) 1

2 Objectifs Disposer d’un corpus annoté en relations de discours pour le français Expériences d’annotation, mise au point d’une méthode Vérification intuitions liées aux relations de discours Validations de certains points théoriques

3 Principe d’annotation
Segmentation en Unité de Discours Elémentaires (UDE) Construction récursive de constituants plus complexes en reliant les UDE avec des relations de discours : Recherche d’un point d’attachement Choix d’une Relation de Discours

4 Phases de l’annotation ascendante
Annotation Exploratoire Annotation Naïve Annotation de Référence 2 annotateurs explorateurs 45 textes doublement annotés 3 annotateurs naïfs 42 textes doublement annotés 4096 segments 3691 relations 7 annotateurs experts 86 textes 7 membres autres groupes du projet 7 textes doublement annotés Rédaction des guides (par passes successives) : Segmentation Annotation en RD 4

5 Phases de l’annotation ascendante
Annotation Exploratoire Annotation Naïve Annotation de Référence 2 annotateurs explorateurs 45 textes doublement annotés 3 annotateurs naïfs 42 textes doublement annotés 4096 segments 3691 relations 7 annotateurs experts 86 textes 7 membres autres groupes du projet 7 textes doublement annotés Rédaction des guides (par passes successives) : Segmentation Annotation en RD 5

6 Bilan annotateurs experts versant analyse linguistique
Plongée dans les données, mise au jour de nombreux phénomènes (marqueurs, structures, …) à décrire et à analyser Beaucoup de discussions sur beaucoup de phénomènes linguistiques Mais difficultés d’une approche en largeur (pour toutes les relations, sur du texte tout venant …)

7 Bilan annotation naïve
Accord inter-annotateurs faible : Attachement brut : 65% Relations (étant donné 1 attachement commun) : kappa =0.45 sans tenir compte des structures équivalentes et des incomplétudes (ilôts non rattachés) Guides perfectibles : Volontairement peu directifs (pour tester hypothèses) Erreurs stratégiques sur marqueurs Outil d’annotation GLOZZ perfectible (inversion arguments, ilots non rattachés, absence graphes …) Mais ilôts stables apparaissent dans annotation Attachement brut : pour toutes les décisions d’attachement on vérifie identité des couples de segments (simples et complexes) 65% sont identiques (malgré erreurs induites par Glozz comme inversions arguments et mauvais clics?) Relations (étant donné 1 attachement commun) : 45% sans tenir compte des structures équivalentes (par CDP coord / sub ou autres ) : on envisage de faire ce calcul par la suite et des incomplétudes (ilots non rattachés) : on peut pas y remédier pour les annots actuelles 7

8 Elaboration Narration Frame Frame Narr Elaboration Elaboration
c* Narration Frame Frame Narr b1 c1 b2  a1 Elaboration Elaboration Exemples de structures équivalentes non repérées donc accord non comptabilisés Autres exemples possibles : un des deux a fait un segment complexe mais n’a pas relié les segments à l’intérieur SDRS du haut telle quelle avec Continuation à la place de Narration ET pas Continuation dans SDRS du bas b* c* Narration Frame Frame Narr b1 c1 b2 8

9 Premières exploitations des annotations
Test hypothèses théoriques Apprentissage de la segmentation Analyses linguistiques des Relations de Discours Apprentissage d'attachement en cours

10 Test hypothèses théoriques
Vérification de contrainte de la frontière droite (CFD) de la SDRT : 96% des EDU s’attachent à la FD au moins par une RD 92% des attachements (EDU ou segments complexes) vérifient la CFD 40 % attachements non locaux (pas avec EDU prec) Cas intéressants de subordination discursive « non typique » dans les 4% qui ne respectent pas la FD 40 % attachements non locaux (pas avec EDU prec) : pop-up montre que annotateurs naïfs ont intuition d’une SD au-delà de liens entre segments adjacents On peut faire en RST aussi jusqu’à un certain pt 10

11 Apprentissage automatique
Développement d’un segmentateur automatique en EDU à partir des annotations exploratoires [Bien que celle-ci soit géographiquement située en Afrique,] [l'Art de l'Égypte antique, [né il y a environ cinq mille ans,] est l'une des principales sources de l'art en Europe.] Classification par token (ouverture/fermeture/intérieur)+post- traitement Résultats : ~ 90% de F-score sur les bornes individuelles (G || D, sans post-traitement) ~ 75% de F-score sur les EDUs (G && D, avec post- traitement)

12 Analyses linguistiques des Relations de Discours
Relation d’Elaboration : Thèse Marianne Vergez-Couret (15 Novembre 2010) Elab relation la plus fréquente dans corpus Annodis Exploitation d’une petite partie du corpus Double perspective sémasiologique/onomasiologique Relations de causalité : Master 2 Caroline Atallah (Juin 2010) Résultat, Explication 12

13 Les relations causales
Objectif : Etudier le marquage des relations causales en s’appuyant sur les premières annotations ascendantes 4 relations étudiées : Explication et Résultat Explication* et Résultat*

14 Explication Explication (explanation)
La relation d’explication lie deux segments dont le second (celui qui est attaché) explique le premier (la cible) de façon explicite ou non. [Le chômage baisse en 2008]_1 [parce qu’il y a moins d’actifs.]_2 Explanation (1,2) Marqueurs suggérés : car, parce que, à cause de, du fait de, par la faute de, grâce à, si 1 c’est parce que 2, depuis (si causalité évidente)

15 Résultat Résultat (result)
La relation Résultat caractérise des liens entre deux segments portant sur deux éventualités (événements ou états) dont la 2e résulte de la première. [Nicholas avait bu trop de vin]_1 [et a donc dû rentrer chez lui en métro.]_2 Result (1,2) Marqueurs suggérés : du coup, donc, par conséquent, en conséquence, par suite, à la suite de quoi

16 Relations « meta-talk »
Dans certains cas, les effets sémantiques du lien rhétorique qui s’établit entre deux segments ne portent pas sur les événements décrits dans les segments, mais sur les actes de parole eux-mêmes. Explication* [Ferme la porte,]_1 [il fait froid.]_2 Résultat* [Il fait froid,]_1 [ferme la porte.]_2  Pas de suggestion de marqueurs potentiels

17 Constitution d’un corpus de travail
Mise en place d’un outil informatique Rapprochements effectués entre annotations Résultats des confrontations

18 Mise en place d’un outil informatique
Développer un outil capable de confronter chaque relation d’Explication ou de Résultat repérée par un annotateur avec celles de son collègue et réciproquement Phase naïve : 43 textes doublement annotés par ANN1, ANN2 et ANN3, soient trois binômes Pour chaque texte, trois fichiers textes : segmentation, annotations 1 et annotations 2 Structure d’un fichier de sortie du programme informatique : Titre du texte Texte intégral Annotations correspondant à ce texte

19 Annotations « identiques » :
Annot. issues de rapprochement entre segments pour une même RD Inversion Attachement : Result (20/21) par ANN1 Result (21/20) par ANN2  Result (20/21) par ANN2 Attachement partiel : Explanation ([19,20,21,23,24,25]/26) par ANN1 Explanation (25/26) par ANN2 Autres cas possibles (autres textes) : Explanation (10, [11-12]) et Explanation (10,11) Result ([21,22,23],[24,25]) et Result (23,24) 19

20 Inversion Attachement partiel :
Result ([19,20,21]/[23,24,25]) par ANN1 Result ([23,24,25]/[17,18,20,21]) par ANN2  Result ([17,18,20,21]/[23,24,25]) par ANN2 Explication ([31,32]/33) par ANN1 Explication (33/31) par ANN2  Explication (31/33) par ANN2

21 Annotations différentes :
Annot. issues de rapprochement entre segments pour une RD différente Annotations appariables : Parallel([9,10]/11) par ANN1 Explanation(11/[8,9,10] par ANN2 Annotations non appariables : 2 segments reliés par 1 RD chez ANN1 pas reliés chez ANN2

22 Résultats des confrontations
Annotations identiques vs annotations différentes Annotations appariables vs annotations non appariables Traitement réalisé par notre outil 1 fichier texte Annotations identiques 3 fichiers textes pour chaque texte : segmentation, annotations 1 et annotations 2 Confrontation de toutes les annotations d’un même binôme 1 fichier texte Annotations différentes 22

23 Données récupérées 47 cas d’annotations identiques (94 annotations)
Explication Résultat Total Annotations identiques 25 22 47 Annotations différentes appariables 72 68 140 Annotations différentes non appariables 31 62 47 cas d’annotations identiques (94 annotations) 202 cas d’annotations différentes Au total, 296 annotations concernant les relations d’Explication et de Résultat  Corpus d’étude limité aux cas d’annotations identiques. 23

24 Analyse du corpus et résultats
Observations sur la qualité des annotations Marqueurs de relations causales dans le corpus

25 Observations sur la qualité des annotations
Correction (ou validation) de chaque annotation Désaccord sur les arguments de la relation Problème de la formation des segments complexes Désaccord sur la nature de la relation Aucune relation pragmatique repérée Confusion entre des relations : [C’est probablement l’explication de l’expression française. ]_26 Rôle important des marqueurs linguistiques dans la tâche d’annotation Remarque : très peu de relations sans marqueur explicite annotées 25

26 Marqueurs de relations causales dans le corpus
Marqueurs les plus « fréquents » : Résultat : donc (6 occurrences) Explication : car (10 occurrences) + le cas des connecteurs de nature prépositionnelle : pour, par, à cause de, en raison de, sous

27 Donc Introduit une conclusion logique
« A donc B » équivalent à « Si A, alors B » Permet l’inférence d’une relation située au niveau du raisonnement « L’information est une mesure abstraite dépendant de choix donc une mesure probabiliste et pas seulement statistique. »  Identification de Résultat-Inférentiel pour 6 cas sur 8

28 Car Dans 6 cas sur 11, identification d’une relation métalinguistique, Explication* présence d’indices discursifs décrivant l’expression d’un jugement de la part de l’énonciateur « La route moderne est probablement un tracé traditionnel, car elle suit tout naturellement la limite du terrain ferme et du terrain alluvial. » (Mariana, Wikipédia) Mais car pas exclusivement marqueur d’Explication* « J’étais prêt à partir (…) car à 32 ans, il s’agissait sans doute de ma dernière chance de signer un nouveau contrat. » (Pablo Correa, Est Républicain)

29 Pour, par, en raison de, à cause de, sous
Non négligeables : ont guidé les annotateurs Des liens de natures particulières « Ce bouchage en force permet de s’assurer que le bouchon ne sautera pas tout seul, sous la pression du gaz contenu dans le vin. » On ne peut pas vraiment parler de relation d’Explication.  On laisse de côté ce type de relation causale.

30 Conclusion sur les marqueurs relevés dans le corpus
Des liens causaux présents dans différents niveaux de la langue : Relation de cause à effet strictement sémantique : pour, par, sous… Relation rhétorique entre des éventualités (états ou événements) : Explication (car), Résultat (donc) Relation pragmatique entre des actes de parole (niveau illocutoire) : Explication* (car) Relation entre des états mentaux (niveau épistémique) : Résultat-Inférentiel (donc)

31 Bilan première exploitation
du corpus annoté en RD Mise en évidence des difficultés qui peuvent être posées lors d’une campagne d’annotation Difficultés posées par la rédaction d’un guide satisfaisant Tâche des annotateurs très complexe Apports des annotations naïves dans cette campagne ? Distinguer des marqueurs plus forts (donc, car) Ouvrir la question sur la définition même d’une relation de discours (le cas de par, sous, …) Faire émerger des confusions courantes avec d’autres relations (explication et élaboration)

32 Bilan publications et mémoires utilisant corpus annoté Annodis
Afantenos Stergos, Asher Nicholas Testing SDRT’s Right Frontier. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). pp 1-9. Beijing, China Afantenos Stergos, Denis Pascal, Muller Philippe, Danlos Laurence Learning recursive segments for discourse parsing. In Proceedings of the 7th international conference on Language Resources and Evaluation (LREC 2010), Valletta, Malta. Vergez-Couret Marianne. Sémantique du discours Le cas de la relation d’Élaboration : Etude en corpus de la relation et de son marquage, Thèse de doctorat. Université Toulouse-Le Mirail, 2010. Atallah Caroline. Les relations de causalité dans le discours, mémoire de Master 2 en Sciences du Langage parcours TAL, Université Toulouse-Le Mirail, 2010. 32

33 Bilan publications pertinentes pour Annodis
Adam Clémentine & Vergez-Couret Marianne (2010). Signalling Elaboration : Combining Gerund Clauses with Lexical Cues. In Proceedings of Signalling Text Organisation (Multidisciplinary Approaches to Discourse 10), Moissac (France), mars 2010. Asher Nicholas, Prévot Laurent & Vieu Laure, 'Setting the Background in Discourse', Discours(e), 2008. Bras Myriam, Prévot Laurent & Vergez-Couret Marianne (2008). "Quelle(s) relation(s) de discours pour les structures énumératives ? ", Actes du Colloque Mondial de Linguistique Française CMLF'08, Durand, J., Habert, B., Laks, B. (éds.), pp , Paris, 9-12 juillet 2008. Bras Myriam & Schnedecker Catherine (2009). Dans un (premier+second+nième) temps et les relations de discours : de l’élaboration à la contre-argumentation, LPTS, Paris (France) septembre 2009. Bras Myriam & Le Draoulec Anne (2009). D’abord marqueur de structuration du discours, Journal of French Language Studies, 19, pp Prévot Laurent, Vieu Laure & Asher Nicholas (2009). Une formalisation plus précise pour une annotation moins confuse: la relation d’élaboration d’entité. Journal of French Language Studies, 19, pp.  Vergez-Couret Marianne, Prévot Laurent, Bras Myriam (2008) " Interleaved discourse structures, the case of two- step enumerations", Proc. of Constraints in Discourse CID'III, Benz, A., Kühnlein, P., Stede, M. (eds.), pp , Potsdam, 30 juillet - 1er aout 2008. Vergez-Couret Marianne (2009b). Vers un marqueur, plus particulièrement de la relation d’Élaboration,  LPTS, Paris (France) septembre 2009. Vergez-Couret Marianne (2009a). Le rôle de l'adverbe notamment dans la mise en oeuvre des relations de discours, Journal of French Language Studies, 19, pp Bien préciser que ces papiers correspondent à des travaux qui ont accompagné la rédaction des guides, qui ont permis l’avancée du projet, mais qui n’ont en aucun cas été financés par le projet (certains sont liés au projet ILF sur Elaboration) 33

34 Interface Ascendant/Macro
Structures Enumératives Quelles RD pour les SE? SE à 2 temps Exploration des SE, recherche d’isomorphisme avec des « Structures Elaboratives » : thèse Marianne Structure du document Prise en compte segmentation en paragraphe Titres Liens avec segmentation thématique 34


Télécharger ppt "CLLE-ERSS : Myriam Bras, Anne Le Draoulec,"

Présentations similaires


Annonces Google