22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français a.Annotations syntaxiques b.Annotations sémantiques c.Annotations du discours et de la référence 3.Actions envisagées 1
22/11/ Objectifs du groupe de travail – Annotations de haut niveau Recenser les corpus du français existants avec une annotation de « haut niveau » ◦ Proposer une grille de description de ces corpus (métadonnées) (Cf Wiki du groupe) Associer linguistes et spécialistes du TAL dans la réflexion sur l’annotation Retour d’expériences sur les projets constituant des corpus annotés ◦ Guide de « bonnes pratiques » 2
22/11/123 3 Objectifs du groupe de travail – Annotations de haut niveau (II) Proposer des journées de formation (aux normes, aux logiciels d’annotation, aux logiciels d’interrogation) Proposer des journées d’information : journées thématiques, journées de travail
22/11/124 Outils de communication le wiki de la liste ◦ s'inscrire sur la liste ◦
22/11/ Les phénomènes de haut niveau Syntaxe Sémantique Discours et relations textuelles, Référence 5
22/11/126 6 a. L’annotation syntaxique Objectifs : ◦ création de ressources pour les analyseurs automatiques ◦ études des phénomènes linguistiques Identification des constituants ◦ catégories de constituants ◦ ambiguïtés Identification des fonctions syntaxiques/ dépendances Indépendance par rapport aux modèles ? 6
22/11/127 7 Corpus arborés - FR Français contemporain ◦ French Treebank (Abeillé, et al 2003) extrait de Le Monde correction manuelle constituants (continus) compatibilité avec plusieurs analyseurs ◦ Séquoia (Candito et Seddah, 2012) multi-domaine, multi-genre, libre de droit constituants et dépendances 7
22/11/128 8 Corpus arborés – FR (II) Corpus arborés de français contemporain interrogeables en ligne ◦ L’arboratoire (syntaxe de contrainte) : textes français interrogeables en ligne (Europarl) ◦ Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault) 8
22/11/129 9 b. L’annotation sémantique L’annotation sémantique de corpus est très diverse : ◦ Types sémantiques et référentiels Exemples : Entités nommées, expressions calendaires et temporelles Opinions et sentiments ◦ Désambiguïsation Repérage du « bon » sens du mot Complexité de la tâche : ◦ Difficulté à automatiser et à atteindre un bon niveau d'accord interannotateurs 9
22/11/121022/11/1210 Quelques exemples Sentiments et opinions (de très nombreux corpus) : ◦ Blogoscopie (ANR) (piloté par le LINA) : annotation des blogs avec les concepts et les évaluations. Librement disponible : ◦ Corpus DEFT 2007 : Annotation des opinions disponible à : 10
22/11/121122/11/1211 Expressions temporelles Expressions temporelles : ◦ French TimeBank : Alpage & Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain) ◦ Travaux sur l’annotation des expressions temporelles. Projet ANR Chronolines ( (Modyco, LIMSI, Exalead, AFP, Xerox) 11
22/11/121222/11/1212 c. Annotation discursive et textuelle De nombreux phénomènes : ◦ Structure textuelle : aspects structurels ◦ Relations discursives, connecteurs, relations rhétoriques (au sens de la RST) Connecteurs implicites ou explicites Relations de discours hiérarchiques ou indépendantes ◦ Référence, co-référence, phénomènes anaphoriques Délimitation des expressions référentielles Relations anaphoriques ou de co-référence Typologie d’expressions référentielles 12
22/11/121322/11/1213 Quelques exemples Annotations textuelles ◦ Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumératives Corpus variés. Disponible à : tlse2.fr/corpus/annodis/ tlse2.fr/corpus/annodis/ ◦ Corpus Géopo : Corpus de mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations
22/11/121422/11/1214 Discours, relations discursives ◦ French Discourse Treebank (Alpage) : le pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours) ◦ ANNODIS (en partie) ◦ LELIE, projet ANR (IRIT) Textes procéduraux (8000 textes) relations du discours, structure des verbes Annotation automatique révisé (partiellement) TextCoop + Dislog analyseur de discours 14
22/11/121522/11/1215 Corpus annotés au plan de la coréférence et des anaphores Corpus annotés au plan de la coréférence et des anaphores ◦ Corpus ELRA (Xerox, U. Stendhal) : Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots ◦ Corpus DEDE : Descriptions définies ( mots) ◦ Corpus ANNODIS : chaines topicalisées ( mots) ◦ Corpus EvalRefGen : ( mots) multi-genre 15
22/11/121622/11/1216 D’autres types d’annotation de haut niveau? À discuter 16
22/11/121722/11/ Actions envisagées Séance de formation/information (janvier 2013) : ◦ Formation à Glozz, outil d’annotation discursif ◦ Retour d’expérience sur l’annotation de haut niveau : mise en œuvre, difficultés… Journée d’études sur l’annotation de haut niveau (juin 2013) ◦ Présentation de quelques réalisations 17