Réunion du groupe de travail Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche pour les Sciences humaines et Sociales (SHS) 1er juin 2012 30/03/2017 30/03/2017 1 1
Plan de la présentation Présentation du consortium corpus écrits et objectifs du groupe de travail Annotations syntaxiques Annotations sémantiques Annotations discursives et de la référence Proposition de grille pour le catalogage des données et discussion 30/03/2017 30/03/2017 2 2
1. L’Infrastructure de recherche Corpus Corpus est une très grande infrastructure de recherche (IR) pour les Sciences humaines et Sociales (SHS) Portée par le CNRS et l’Université Aix-Marseille Responsable scientifique : Laurent Dousset Objectif : « dispositif de financement, de coopération et de mise en commun de ressources et de savoir-faire par le biais de consortiums labélisés afin d’accompagner et de favoriser les effets d’apprentissage et les synergies pour la constitution et le développement de l’usage des sources numériques par les chercheurs des sciences humaines et sociales. » 30/03/2017 30/03/2017 3 3
4 consortiums Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM) Consortium anthropologique « Consortium Archive des ethnologues » Consortium linguistique « Corpus Écrits » Consortium littérature et philosophie « CAHIER » 30/03/2017 30/03/2017 4 4
Consortium corpus écrits - Pilotage Comité de pilotage (4 ans) Frank Neveu pour l’ILF, FR 2393 Jean-Marie Pierrel pour l’ATILF - UMR 7118 – Nancy - Université Sylvie Archaimbault (suppléant Bernard Colombat) pour HTL – UMR 7597 - Université Denis Diderot - Paris 7 Damon Mayaffre (Suppléante Mahé Ben Hamed) pour BCL - UMR 6039 - Université Nice Sophia Antipolis Serge Heiden pour ICAR - UMR 5191 - Université Lumière Lyon 2 Clément Plancq (suppléant Olivier Bonami) pour le LLF - UMR 7110 - Université Paris 7 Céline Poudat pour le LDI - UMR 7187 – Université de Paris 13 Catherine Schnedecker (suppléante Amalia Todirascu) pour LILPA – EA 1339 – Université de Strasbourg Agnès Tutin (suppléante Marie- Paule Jacques) pour le LIDILEM – EA 609 – Université Grenoble 3 Benoît Sagot pour ALPAGE – INRIA- Université Denis Diderot - Paris7 Le porteur : Fédération de recherche ILF - Institut de Linguistique Française (FR 2393 du CNRS2393), représentée par son directeur, Franck Neveu. 30/03/2017 30/03/2017 5 5
Corpus écrits Objectifs Collaborations importantes : Partage d’information, homogénéisation des pratiques, mise en conformité avec des standards internationaux Fédérer les équipes et laboratoires, les chercheurs, enseignants-chercheurs, ou ingénieurs engagés dans la production de corpus numériques écrits Collaborations importantes : ATILF (CNRTL) CLARIN (d’infrastructure européenne partagée pour les SHS (Common Language Resources and Technology Infrastructure: www.clarin.eu)) TEI (Text Encoding Initiative) 30/03/2017 30/03/2017 6 6
Corpus écrits Actions Support : Recensement des ressources et diffusion des bonnes pratiques (standards européens : TEI, CLARIN) Mise en place de groupe de travail Support : Petit financement pour organiser des journées d’études, des réunions Embauche d’un ingénieur de recherche CDD pour aider au recensement et diffusion des corpus : Linda Hriba 30/03/2017 30/03/2017 7 7
10 groupes de travail Groupe de travail n°1 Usage des corpus et droits d'auteurs ou d'éditeurs (Aspects juridiques...) Groupe de travail n°2 Corpus d'état anciens de la langue (Numérisation, codage…) Groupes de travail n°3 et 4 Numérisation (OCR, saisies, corrections…) Groupe de travail n°5 Corpus multilingues (Parallèles, comparables …) Groupe de travail n°6 Description de corpus collaborative - Metadonnées Groupe de travail n°7 Corpus d'écrits modernes et prise en compte de nouveaux modes de communication. Groupe de travail n°8 Annotation du plus haut niveau : syntaxe, sémantique, référence (Annotations collaboratives...) Groupe de travail n°9 Annotation de surface (Segmentation lexicale, description morphosyntaxique chunking, …) Groupe de travail n°10 Exploration de corpus (Méthodes, outils…) Groupe de travail n°11 Qualité scientifique et accessibilité des corpus (Place des corpus dans l'évaluation de la production scientifique des UR) 30/03/2017 30/03/2017 8 8
Objectifs du groupe de travail – Annotations de haut niveau Recenser les corpus du français existants avec une annotation de « haut niveau » Proposer une grille de description de ces corpus (métadonnées) Associer linguistes et spécialistes du TAL dans la réflexion sur l’annotation Retour d’expériences sur les projets constituant des corpus annotés Guide de « bonnes pratiques » 30/03/2017 30/03/2017 9 9
Objectifs du groupe de travail – Annotations de haut niveau (II) Proposer des journées de formation (aux normes, aux logiciels d’annotation, aux logiciels d’interrogation) Proposer des journées d’information : journées thématiques, journées de travail 30/03/2017 30/03/2017 10
Outils de communication le wiki de la liste https://listes.cru.fr/wiki/corpus- ecrits/public/groupe-8 s'inscrire sur la liste corpus-ecrits-annot-haut- niveau@groupes.renater.fr 30/03/2017
Les phénomènes de haut niveau Syntaxe Sémantique Discours et relations textuelles Référence 30/03/2017 30/03/2017 12 12
2. L’annotation syntaxique Objectifs : création de ressources pour les analyseurs automatiques études des phénomènes linguistiques Identification des constituants catégories de constituants annotations continues ou discontinues annotations imbriquées ou simples ambiguïtés règles de grammaires indépendantes d'une théorie particulière? 30/03/2017 30/03/2017 13 13
2. L’annotation syntaxique (II) Identification des fonctions syntaxiques/dépendances grammaires de dépendance vs. étiquetage des corpus annotés phénomènes locaux vs. phénomènes de dépendances à distance indépendance par rapport aux théories existantes 30/03/2017 30/03/2017 14 14
Corpus arborés pour d’autres langues Penn Treebank (U.Pennsylvania) 1 000 000 mots annotation syntaxique et sémantique constituants et en dépendances SUSANNE : 130 000 mots (G. Sampson) annotations de catégories et fonctions LASSY (Large Scale Syntactic Annotation of written Dutch) (U.Gröningen, Leuven) (nl) Corpus d’entraînement et de test CONLL (2009) 30/03/2017 30/03/2017 15 15
Corpus arborés pour d’autres langues (II) Prague Dependency TreeBank (Charles University) 1 500 000 mots Annotation syntaxique, sémantique, coréférence ItalianTreeBanks ISST (Pise): multiples niveaux TUT (Turin) : dépendances VIT (Venise) : multi-domaine, X-bar GermanTreeBanks : Negra (Saarland) : constituants et dépendances Tiger (IMS Stuttgart) : indépendant de théories 30/03/2017 30/03/2017 16 16
Corpus arborés - FR Français contemporain French Treebank (Abeillé, et al 2003) extrait de Le Monde correction manuelle constituants et fonctions (sujets, objets etc.) fonctions de surface les constituants sont simples compatibilité avec plusieurs analyseurs Séquoia (Candito et Seddah, 2012) Multi-domaine, multi-genre, libre de droit constituants et dépendances 30/03/2017 30/03/2017 17 17
Corpus arborés – FR (II) Corpus arborés de français contemporain interrogeables en ligne L’arboratoire (syntaxe de contrainte, Bick) : textes français interrogeables en ligne (Europarl) http://corp.hum.sdu.dk/arboratoire.html Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault) http://scientext.msh-alpes.fr 30/03/2017 30/03/2017 18 18
Corpus arborés – FR (III) Français médieval: SRCMF (projet ANR piloté par Lattice, IMS Stuttgart) dépendances modèle : SRCMF 1 verbe principal=1 phrase catégories hiérarchisées possibilité de catégories sous-déterminées en cas de doute annotation manuelle, 2 annotateurs XML, compatible TigerSearch 30/03/2017 30/03/2017 19 19
Corpus arborés – FR (IV) Corpus CLASSYN (Univ. Strasbourg et IMS Stuttgart) textes de vulgarisation et articles scientifiques domaines : médecine, informatique Corpus comparables (fr, de) environ 700000 tokens/genre/domaine (fr) dépendances (analyseur de B.Bohnet (2009)) pas de correction manuelle 30/03/2017 30/03/2017 20
3. L’annotation sémantique L’annotation sémantique de corpus est très diverse : Types sémantiques et référentiels Exemples : Entités nommées, expressions calendaires et temporelles Opinions et sentiments Désambiguïsation Repérage du « bon » sens du mot Rôles sémantiques (à l’interface de la syntaxique et de la sémantique) Rôle sémantique du mot et du constituant 30/03/2017 30/03/2017 21 21
3. L’annotation sémantique (II) L’annotation sémantique de corpus est aussi complexe : difficile d’atteindre un bon accord interannotateurs Tâches comportant une forte part de subjectivité Souvent pas de standard de référence Difficile d’automatiser la tâche d’annotation 30/03/2017 30/03/2017 22 22
Les corpus annotés sémantiquement pour d’autres langues De nombreux corpus conçus pour évaluer des tâches en TAL (campagnes SenseEval, SemEval, MUC): désambiguïsation: SemCor (Princeton) : anglais, annoté avec WordNet identification de rôles semantiques : FrameNet (Berkeley) (en,es,jp), SALSA (Univ. Saarland) (de) identification des opinions : corpus de citations des débats politiques annotés (JRC Trento) extraction d’information : évenements et les participants : corpus MUC-7 30/03/2017 30/03/2017 23 23
Les corpus annotés pour le français : un premier inventaire (à compléter) Entités nommées : Corpus ESTER utilisé dans des campagnes d’évaluation, annotation des personnes, lieux, organisation (transcription d’émissions de radios) (diffusé par ELRA) Corpus SxPipe (une centaine de dépêches AFP) librement diffusé. 30/03/2017 30/03/2017 24 24
Les corpus annotés pour le français (II) Sentiment et opinion (de très nombreux corpus) : Blogoscopie (ANR) (piloté par le LINA) : annotation des blogs avec les concepts et les évaluations. Librement disponible : http://www.lina.univ-nantes.fr/?Corpus.html Corpus DEFT 2007 : Annotation des opinions disponible à : http://deft.limsi.fr/ Corpus PPF (Grenoble) : annotation du lexique des émotions (textes littéraires) 30/03/2017 30/03/2017 25 25
Les corpus annotés pour le français (III) Expressions temporelles : French TimeBank : Alpage & Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain) 30/03/2017 30/03/2017 26 26
Les corpus annotés pour le français (V) Désambiguïsation : Corpus de la campagne ROMANSEVAL (60 mots désambiguïsés). Diffusé par ELRA. 30/03/2017 30/03/2017 27 27
Annotation discursive et textuelle De nombreux phénomènes : Structure textuelle : aspects structurels Relations discursives, connecteurs, relations rhétoriques (au sens de la RST) Connecteurs implicites ou explicites Relations de discours hiérarchiques ou indépendantes Référence, co-référence, phénomènes anaphoriques Délimitation des expressions référentielles Relations anaphoriques ou de co-référence Divers catégories d’expressions 30/03/2017 30/03/2017 28 28
Ressources pour d'autres langues Relations de discours : Penn Discourse Treebank Indépendant d’une théorie Relations simples Connecteurs Coréférence : ACE (tâche limitée : co-référence entre personnes, organisations, lieux) MUC 6/7 OntoNotes tâches SEMEVAL: corpus disponibles en en, es, it, de, nl 30/03/2017 30/03/2017 29
Premier état des lieux pour le français Annotations textuelles Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumératives Corpus variés. Bientôt disponible. Corpus Géopo : Corpus de 270 000 mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations. http://redac.univ-tlse2.fr/corpus/geopo.html 30/03/2017 30/03/2017 30 30
Premier état des lieux pour le français (II) Discours, relations discursives French Discourse Treebank (Alpage) : le pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours) ANNODIS (en partie) LELIE, projet ANR (IRIT) Textes procéduraux (8000 textes) relations du discours, structure des verbes Annotation automatique révisé (partiellement) TextCoop + Dislog analyseur de discours 30/03/2017 30/03/2017 31 31
Premier état des lieux pour le français (III) Corpus annotés au plan de la coréférence et des anaphores Corpus ELRA (Xerox, U. Stendhal) : Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots Corpus DEDE : Description définies (48 360 mots) http://www.cnrtl.fr/corpus/dede/ Corpus ANNODIS : chaines topicalisées (614943 mots) Corpus EvalRefGen : (15 192 mots) multi-genre 30/03/2017 30/03/2017 32 32
Premier état des lieux pour le français (IV) Projet MC4 (PEPS INS2I – INSHS, porté par Lattice) Objectifs : étudier les chaines de coréférence dans des textes du français médiéval et contemporain, dans les textes narratifs et non-narratifs établir une méthodologie d’annotation amélioration d’outils d’annotation manuelle et automatique Annotation manuelle: Analec (Victorri, 2010) Corpus annoté en chaines de co-référence 30/03/2017 30/03/2017 33
Premier état des lieux pour le français (V) Projet COMTIS (Improving the Coherence of Machine Translation Output by Modeling Intersentential Relations) (Idiap, Univ. de Généve, Suisse, U.Leuven Belgique) Objectifs : Utilisation des relations discursives pour améliorer les systèmes de traduction automatique Corpus multilingue (extrait d’Europarl), dont le français Annotation manuelle : connecteurs de discours, pronoms 3600 mots 30/03/2017 30/03/2017 34
5 Autres types?? 30/03/2017 30/03/2017 35 35
6 Proposition de grille de description La grille doit être compatible avec les métadonnées proposés par d’autres projets: CLARIN Labex Empirical Foundations on Linguistics (http://www.labex-efl.org) FlaReNet 30/03/2017 30/03/2017 36 36
Date de création/diffusion : Auteurs : Laboratoire (Université) : Nom du corpus : Date de création/diffusion : Auteurs : Laboratoire (Université) : Adresse postale : E-mail : Description du corpus : URL : Documentation : Publication à citer : Projet associé : Type de données : écrit/oral/oral transcrit Sources des données : Période couverte par le corpus : Genre (journalistique, littéraire, etc.) Format de représentation (XML, TEI, CES, format propriétaire etc.): Compatibilité avec d'autres formats (CONLL, SEMEVAL etc) : Langue(s) : Taille (nb de mots) : Types d'informations linguistiques (fonctions syntaxiques, relations sémantiques, phénomènes discursifs etc.) : 30/03/2017 30/03/2017 37
Codage des caractères (UTF-8, UTF-16, Latin-1, Latin- 15) : État d'avancement de la ressource : en cours/achevé Modèle linguistique (LFG, FrameNet etc.) : Metadonnées normalisées : TEI/Dublin Core/Open Archive/Non Type d'annotation (manuelle, automatique, automatique révisée) : Domaines couverts par le corpus (médecine, économie, etc.): Outils d'annotation : Interface Web : Guide d'annotation : Droit d'accès (libre, payant, sous conditions) : Licence (GPL, Creative Commons…) : Coût éventuel : Commentaires (outils associés, taille, usages, …) : Description disponible dans un autre GT 30/03/2017 30/03/2017 38
Références Guillot, C., Heiden, S. et Lavrentiev A. (2007). « Typologie des textes et des phénomènes linguistiques pour l’analyse du changement linguistique avec la Base de Français Médiéval », LINX, n° spécial, 2007, p. 125-139. Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht. 30/03/2017 30/03/2017 39