La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

01/05/2014 1 1 Réunion du groupe de travail Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche.

Présentations similaires


Présentation au sujet: "01/05/2014 1 1 Réunion du groupe de travail Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche."— Transcription de la présentation:

1 01/05/ Réunion du groupe de travail Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche pour les Sciences humaines et Sociales (SHS) 1 er juin

2 01/05/ Plan de la présentation 1. Présentation du consortium corpus écrits et objectifs du groupe de travail 2. Annotations syntaxiques 3. Annotations sémantiques 4. Annotations discursives et de la référence 5. Proposition de grille pour le catalogage des données et discussion 2

3 01/05/ LInfrastructure de recherche Corpus Corpus est une très grande infrastructure de recherche (IR) pour les Sciences humaines et Sociales (SHS) Portée par le CNRS et lUniversité Aix-Marseille Responsable scientifique : Laurent Dousset Objectif : « dispositif de financement, de coopération et de mise en commun de ressources et de savoir-faire par le biais de consortiums labélisés afin daccompagner et de favoriser les effets dapprentissage et les synergies pour la constitution et le développement de lusage des sources numériques par les chercheurs des sciences humaines et sociales. » 3

4 01/05/ consortiums Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM) Consortium anthropologique « Consortium Archive des ethnologues » Consortium linguistique « Corpus Écrits » Consortium littérature et philosophie « CAHIER » 4

5 01/05/ Consortium corpus écrits - Pilotage Comité de pilotage (4 ans) Frank Neveu pour lILF, FR 2393 Jean-Marie Pierrel pour lATILF - UMR 7118 – Nancy - Université Sylvie Archaimbault (suppléant Bernard Colombat) pour HTL – UMR Université Denis Diderot - Paris 7 Damon Mayaffre (Suppléante Mahé Ben Hamed) pour BCL - UMR Université Nice Sophia Antipolis Serge Heiden pour ICAR - UMR Université Lumière Lyon 2 Clément Plancq (suppléant Olivier Bonami) pour le LLF - UMR Université Paris 7 Céline Poudat pour le LDI - UMR 7187 – Université de Paris 13 Catherine Schnedecker (suppléante Amalia Todirascu) pour LILPA – EA 1339 – Université de Strasbourg Agnès Tutin (suppléante Marie- Paule Jacques) pour le LIDILEM – EA 609 – Université Grenoble 3 Benoît Sagot pour ALPAGE – INRIA- Université Denis Diderot - Paris7 Le porteur : Fédération de recherche ILF - Institut de Linguistique Française (FR 2393 du CNRS2393), représentée par son directeur, Franck Neveu. 5

6 01/05/ Corpus écrits Objectifs Partage dinformation, homogénéisation des pratiques, mise en conformité avec des standards internationaux Fédérer les équipes et laboratoires, les chercheurs, enseignants-chercheurs, ou ingénieurs engagés dans la production de corpus numériques écrits Collaborations importantes : ATILF (CNRTL) CLARIN (dinfrastructure européenne partagée pour les SHS (Common Language Resources and Technology Infrastructure: TEI (Text Encoding Initiative) 6

7 01/05/ Corpus écrits Actions Recensement des ressources et diffusion des bonnes pratiques (standards européens : TEI, CLARIN) Mise en place de groupe de travail Support : Petit financement pour organiser des journées détudes, des réunions Embauche dun ingénieur de recherche CDD pour aider au recensement et diffusion des corpus : Linda Hriba 7

8 01/05/ groupes de travail Groupe de travail n°1 Usage des corpus et droits d'auteurs ou d'éditeurs (Aspects juridiques...) Groupe de travail n°2 Corpus d'état anciens de la langue (Numérisation, codage…) Groupes de travail n°3 et 4 Numérisation (OCR, saisies, corrections…) Groupe de travail n°5 Corpus multilingues (Parallèles, comparables …) Groupe de travail n°6 Description de corpus collaborative - Metadonnées Groupe de travail n°7 Corpus d'écrits modernes et prise en compte de nouveaux modes de communication. Groupe de travail n°8 Annotation du plus haut niveau : syntaxe, sémantique, référence (Annotations collaboratives...) Groupe de travail n°9 Annotation de surface (Segmentation lexicale, description morphosyntaxique chunking, …) Groupe de travail n°10 Exploration de corpus (Méthodes, outils…) Groupe de travail n°11 Qualité scientifique et accessibilité des corpus (Place des corpus dans l'évaluation de la production scientifique des UR) 8

9 01/05/ Objectifs du groupe de travail – Annotations de haut niveau Recenser les corpus du français existants avec une annotation de « haut niveau » Proposer une grille de description de ces corpus (métadonnées) Associer linguistes et spécialistes du TAL dans la réflexion sur lannotation Retour dexpériences sur les projets constituant des corpus annotés Guide de « bonnes pratiques » 9

10 01/05/ /05/ Objectifs du groupe de travail – Annotations de haut niveau (II) Proposer des journées de formation (aux normes, aux logiciels dannotation, aux logiciels dinterrogation) Proposer des journées dinformation : journées thématiques, journées de travail

11 01/05/ Outils de communication le wiki de la liste https://listes.cru.fr/wiki/corpus- ecrits/public/groupe-8 https://listes.cru.fr/wiki/corpus- ecrits/public/groupe-8 s'inscrire sur la liste corpus-ecrits-annot-haut- corpus-ecrits-annot-haut-

12 01/05/ /05/ Les phénomènes de haut niveau Syntaxe Sémantique Discours et relations textuelles Référence 12

13 01/05/ /05/ Lannotation syntaxique Objectifs : création de ressources pour les analyseurs automatiques études des phénomènes linguistiques Identification des constituants catégories de constituants annotations continues ou discontinues annotations imbriquées ou simples ambiguïtés règles de grammaires indépendantes d'une théorie particulière? 13

14 01/05/ /05/ Lannotation syntaxique (II) Identification des fonctions syntaxiques/dépendances grammaires de dépendance vs. étiquetage des corpus annotés phénomènes locaux vs. phénomènes de dépendances à distance indépendance par rapport aux théories existantes 14

15 01/05/ /05/ Corpus arborés pour dautres langues Penn Treebank (U.Pennsylvania) mots annotation syntaxique et sémantique constituants et en dépendances SUSANNE : mots (G. Sampson) annotations de catégories et fonctions LASSY (Large Scale Syntactic Annotation of written Dutch) (U.Gröningen, Leuven) (nl) mots Corpus dentraînement et de test CONLL (2009) 15

16 01/05/ /05/ Corpus arborés pour dautres langues (II) Prague Dependency TreeBank (Charles University) mots Annotation syntaxique, sémantique, coréférence ItalianTreeBanks ISST (Pise): multiples niveaux TUT (Turin) : dépendances VIT (Venise) : multi-domaine, X-bar GermanTreeBanks : Negra (Saarland) : constituants et dépendances Tiger (IMS Stuttgart) : indépendant de théories 16

17 01/05/ /05/ Corpus arborés - FR Français contemporain French Treebank (Abeillé, et al 2003) extrait de Le Monde correction manuelle constituants et fonctions (sujets, objets etc.) fonctions de surface les constituants sont simples compatibilité avec plusieurs analyseurs Séquoia (Candito et Seddah, 2012) Multi-domaine, multi-genre, libre de droit constituants et dépendances 17

18 01/05/ /05/ Corpus arborés – FR (II) Corpus arborés de français contemporain interrogeables en ligne Larboratoire (syntaxe de contrainte, Bick) : textes français interrogeables en ligne (Europarl) Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault) 18

19 01/05/ /05/ Corpus arborés – FR (III) Français médieval: SRCMF (projet ANR piloté par Lattice, IMS Stuttgart) dépendances modèle : SRCMF 1 verbe principal=1 phrase catégories hiérarchisées possibilité de catégories sous-déterminées en cas de doute annotation manuelle, 2 annotateurs XML, compatible TigerSearch 19

20 01/05/ /05/ Corpus arborés – FR (IV) Corpus CLASSYN (Univ. Strasbourg et IMS Stuttgart) textes de vulgarisation et articles scientifiques domaines : médecine, informatique Corpus comparables (fr, de) environ tokens/genre/domaine (fr) dépendances (analyseur de B.Bohnet (2009)) pas de correction manuelle

21 01/05/ /05/ Lannotation sémantique Lannotation sémantique de corpus est très diverse : Types sémantiques et référentiels Exemples : Entités nommées, expressions calendaires et temporelles Opinions et sentiments Désambiguïsation Repérage du « bon » sens du mot Rôles sémantiques (à linterface de la syntaxique et de la sémantique) Rôle sémantique du mot et du constituant 21

22 01/05/ /05/ Lannotation sémantique (II) Lannotation sémantique de corpus est aussi complexe : difficile datteindre un bon accord interannotateurs Tâches comportant une forte part de subjectivité Souvent pas de standard de référence Difficile dautomatiser la tâche dannotation 22

23 01/05/ /05/ Les corpus annotés sémantiquement pour dautres langues De nombreux corpus conçus pour évaluer des tâches en TAL (campagnes SenseEval, SemEval, MUC): désambiguïsation: SemCor (Princeton) : anglais, annoté avec WordNet identification de rôles semantiques : FrameNet (Berkeley) (en,es,jp), SALSA (Univ. Saarland) (de) identification des opinions : corpus de citations des débats politiques annotés (JRC Trento) extraction dinformation : évenements et les participants : corpus MUC-7 23

24 01/05/ /05/ Les corpus annotés pour le français : un premier inventaire (à compléter) Entités nommées : Corpus ESTER utilisé dans des campagnes dévaluation, annotation des personnes, lieux, organisation (transcription démissions de radios) (diffusé par ELRA) Corpus SxPipe (une centaine de dépêches AFP) librement diffusé. 24

25 01/05/ /05/ Les corpus annotés pour le français (II) Sentiment et opinion (de très nombreux corpus) : Blogoscopie (ANR) (piloté par le LINA) : annotation des blogs avec les concepts et les évaluations. Librement disponible : Corpus DEFT 2007 : Annotation des opinions disponible à : Corpus PPF (Grenoble) : annotation du lexique des émotions (textes littéraires) 25

26 01/05/ /05/ Les corpus annotés pour le français (III) Expressions temporelles : French TimeBank : Alpage & Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain) 26

27 01/05/ /05/ Les corpus annotés pour le français (V) Désambiguïsation : Corpus de la campagne ROMANSEVAL (60 mots désambiguïsés). Diffusé par ELRA. 27

28 01/05/ /05/ Annotation discursive et textuelle De nombreux phénomènes : Structure textuelle : aspects structurels Relations discursives, connecteurs, relations rhétoriques (au sens de la RST) Connecteurs implicites ou explicites Relations de discours hiérarchiques ou indépendantes Référence, co-référence, phénomènes anaphoriques Délimitation des expressions référentielles Relations anaphoriques ou de co-référence Divers catégories dexpressions 28

29 01/05/ /05/ Ressources pour d'autres langues Relations de discours : Penn Discourse Treebank Indépendant dune théorie Relations simples Connecteurs Coréférence : ACE (tâche limitée : co-référence entre personnes, organisations, lieux) MUC 6/7 OntoNotes tâches SEMEVAL: corpus disponibles en en, es, it, de, nl

30 01/05/ /05/ Premier état des lieux pour le français Annotations textuelles Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumératives Corpus variés. Bientôt disponible. Corpus Géopo : Corpus de mots darticles expositifs autour des relations internationales. Structure textuelles, sections, énumérations. 30

31 01/05/ /05/ Premier état des lieux pour le français (II) Discours, relations discursives French Discourse Treebank (Alpage) : le pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours) ANNODIS (en partie) LELIE, projet ANR (IRIT) Textes procéduraux (8000 textes) relations du discours, structure des verbes Annotation automatique révisé (partiellement) TextCoop + Dislog analyseur de discours 31

32 01/05/ /05/ Corpus annotés au plan de la coréférence et des anaphores Corpus annotés au plan de la coréférence et des anaphores Corpus ELRA (Xerox, U. Stendhal) : Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots Corpus DEDE : Description définies ( mots) Corpus ANNODIS : chaines topicalisées ( mots) Corpus EvalRefGen : ( mots) multi-genre 32 Premier état des lieux pour le français (III)

33 01/05/ /05/ Premier état des lieux pour le français (IV) Projet MC4 (PEPS INS2I – INSHS, porté par Lattice) Objectifs : étudier les chaines de coréférence dans des textes du français médiéval et contemporain, dans les textes narratifs et non-narratifs établir une méthodologie dannotation amélioration doutils dannotation manuelle et automatique Annotation manuelle: Analec (Victorri, 2010) Corpus annoté en chaines de co-référence

34 01/05/ /05/ Premier état des lieux pour le français (V) Projet COMTIS (Improving the Coherence of Machine Translation Output by Modeling Intersentential Relations) (Idiap, Univ. de Généve, Suisse, U.Leuven Belgique) Objectifs : Utilisation des relations discursives pour améliorer les systèmes de traduction automatique Corpus multilingue (extrait dEuroparl), dont le français Annotation manuelle : connecteurs de discours, pronoms 3600 mots

35 01/05/ /05/ Autres types?? 35

36 01/05/ /05/ Proposition de grille de description La grille doit être compatible avec les métadonnées proposés par dautres projets: CLARIN Labex Empirical Foundations on Linguistics (http://www.labex-efl.org)http://www.labex-efl.org FlaReNet 36

37 01/05/ /05/ Nom du corpus : Date de création/diffusion : Auteurs : Laboratoire (Université) : Adresse postale : Description du corpus : URL : Documentation : Publication à citer : Projet associé : Type de données : écrit/oral/oral transcrit Sources des données : Période couverte par le corpus : Genre (journalistique, littéraire, etc.) Format de représentation (XML, TEI, CES, format propriétaire etc.): Compatibilité avec d'autres formats (CONLL, SEMEVAL etc) : Langue(s) : Taille (nb de mots) : Types d'informations linguistiques (fonctions syntaxiques, relations sémantiques, phénomènes discursifs etc.) :

38 01/05/ /05/ Codage des caractères (UTF-8, UTF-16, Latin-1, Latin- 15) : État d'avancement de la ressource : en cours/achevé Modèle linguistique (LFG, FrameNet etc.) : Metadonnées normalisées : TEI/Dublin Core/Open Archive/Non Type d'annotation (manuelle, automatique, automatique révisée) : Domaines couverts par le corpus (médecine, économie, etc.): Outils d'annotation : Interface Web : Guide d'annotation : Droit d'accès (libre, payant, sous conditions) : Licence (GPL, Creative Commons…) : Coût éventuel : Commentaires (outils associés, taille, usages, …) : Description disponible dans un autre GT

39 01/05/ /05/ Références Guillot, C., Heiden, S. et Lavrentiev A. (2007). « Typologie des textes et des ph é nom è nes linguistiques pour l analyse du changement linguistique avec la Base de Fran ç ais M é di é val », LINX, n° sp é cial, 2007, p Abeill é, A., L. Cl é ment, and F. Toussenel `Building a treebank for French', in A. Abeill é (ed) Treebanks, Kluwer, Dordrecht.`Building a treebank for French'


Télécharger ppt "01/05/2014 1 1 Réunion du groupe de travail Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche."

Présentations similaires


Annonces Google