Réunion du groupe de travail

Slides:



Advertisements
Présentations similaires
VIDEO ACTIVE Faciliter l´accès au patrimoine audiovisuel européen Eric Loze – RTBF Archives Radio & TV.
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
Pratiques numériques : état de lart en PACA Journée détude ABF BMVR Marseille jeudi 29 novembre 2007 Prêt de livres électroniques à Aix-Marseille II.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
1 TCHAD ATELIER PARIS21 SUR LUTILISATION DES STATISTIQUES DANS LES POLITIQUES DE LUTTE CONTRE LA PAUVRETE ET DE DEVELOPPEMENT Yaoundé 09-11/12/02 Producteurs.
Projet TEMPUS «ISTeMag »
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
1/32 Forum des utilisateurs du SISMER – Novembre 2005 Le portail NAUTILUS accès en ligne aux données et nouveau site WEB du SISMER Michèle FICHAUT Mickael.
Reconnaissance de la parole
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Niveau: 4ème Math Prof: Donia JEBALI Année Scolaire 2007/2008
En ville M. Rocque. 1/23/20142 le supermarché 1/23/20143 le parc.
1 La Commission européenne pour l'efficacité de la justice Association des magistrats du pouvoir judiciaire de la République et canton de Genève, 26 janvier.
JXDVDTEK – Une DVDthèque en Java et XML
Formation au portail SIMBAD
Documentation numérique sur l’Internet
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
Navigation Interactive dans les documents
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Journée détude régionale du 23 mai Lévaluation interne des établissements et services sociaux et médico-sociaux : Où en sommes-nous ? 1 Résultats.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Travaux pratiques sur Nooj
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Approche critique des produits IdL Master 1 IdL Année
Pour un système formel de description linguistique
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Projet Master 2 Nouvelles Technologies et Handicap
Le portail documentaire de Paris 1
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Traitements &Suppléments
Pro Senectute Vaud Unité Centres de rencontre Centre Val Paisible Lausanne.
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Recommandations et procédure d’attribution de DOI
LES NOMBRES PREMIERS ET COMPOSÉS
Les sections de seconde Seconde de détermination Baccalauréat L, ES, S, STI, Seconde professionnelle BEP Bac Professionnel.
Cairn.info Chercher : Repérer : Progresser 13/01/ { } Revues et diffusion des savoirs scientifiques : retour d’expérience de Cairn.info
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
La situation du e-learning dans les universités françaises. Réalité et Perspectives Hubert Berger, professeur Laboratoire de Physique de lUniversité de.
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Méthodologie documentaire
C'est pour bientôt.....
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
ERT 34 « Hypermédias et Apprentissages » Toulouse
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Réunion des Directeurs d’unités Paris – 6 février 2007 Département des sciences humaines et sociales.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.
Nom:____________ Prénom: ___________
P ROJETS P ILOTES Campus AAR Valérie LEGRAND 30 septembre 2014 ESCoM-AAR, Fondation Maison des Sciences de l’Homme.
1 Outils bibliographiques Plume 20 mars- Lyon Yannick Maignien.
22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE EXPÉRIENCE DE SOINS DES ANGLOPHONES DE LA MONTÉRÉGIE Direction de santé publique Surveillance.
Consortium Clermontois
Ressources Internet liées à la CIB
Les Chiffres Prêts?
Les archives en ligne et l'histoire
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Réunion des directeurs d’unités ST2I 30 octobre 2007 Réseau Doc-ST2I Missions et perspectives (MI2S)
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Lieu de concertation, de médiation et de coopération entre les institutions, l’Alliance Athena a pour mission d’améliorer les dynamiques du système de.
Transcription de la présentation:

Réunion du groupe de travail Annotations de haut niveau : syntaxe, sémantique, discours Consortium Corpus écrits Infrastructure de recherche pour les Sciences humaines et Sociales (SHS) 1er juin 2012 30/03/2017 30/03/2017 1 1

Plan de la présentation Présentation du consortium corpus écrits et objectifs du groupe de travail Annotations syntaxiques Annotations sémantiques Annotations discursives et de la référence Proposition de grille pour le catalogage des données et discussion 30/03/2017 30/03/2017 2 2

1. L’Infrastructure de recherche Corpus Corpus est une très grande infrastructure de recherche (IR) pour les Sciences humaines et Sociales (SHS) Portée par le CNRS et l’Université Aix-Marseille Responsable scientifique : Laurent Dousset Objectif : « dispositif de financement, de coopération et de mise en commun de ressources et de savoir-faire par le biais de consortiums labélisés afin d’accompagner et de favoriser les effets d’apprentissage et les synergies pour la constitution et le développement de l’usage des sources numériques par les chercheurs des sciences humaines et sociales. » 30/03/2017 30/03/2017 3 3

4 consortiums Consortium linguistique « Corpus Oraux et Multimodaux » (IRCOM) Consortium anthropologique « Consortium Archive des ethnologues » Consortium linguistique « Corpus Écrits » Consortium littérature et philosophie « CAHIER » 30/03/2017 30/03/2017 4 4

Consortium corpus écrits - Pilotage Comité de pilotage (4 ans) Frank Neveu pour l’ILF, FR 2393 Jean-Marie Pierrel pour l’ATILF - UMR 7118 – Nancy - Université Sylvie Archaimbault (suppléant Bernard Colombat) pour HTL – UMR 7597 - Université Denis Diderot - Paris 7 Damon Mayaffre (Suppléante Mahé Ben Hamed) pour BCL - UMR 6039 - Université Nice Sophia Antipolis Serge Heiden pour ICAR - UMR 5191 - Université Lumière Lyon 2 Clément Plancq (suppléant Olivier Bonami) pour le LLF - UMR 7110 - Université Paris 7 Céline Poudat pour le LDI - UMR 7187 – Université de Paris 13 Catherine Schnedecker (suppléante Amalia Todirascu) pour LILPA – EA 1339 – Université de Strasbourg Agnès Tutin (suppléante Marie- Paule Jacques) pour le LIDILEM – EA 609 – Université Grenoble 3 Benoît Sagot pour ALPAGE – INRIA- Université Denis Diderot - Paris7 Le porteur : Fédération de recherche ILF - Institut de Linguistique Française (FR 2393 du CNRS2393), représentée par son directeur, Franck Neveu. 30/03/2017 30/03/2017 5 5

Corpus écrits Objectifs Collaborations importantes : Partage d’information, homogénéisation des pratiques, mise en conformité avec des standards internationaux Fédérer les équipes et laboratoires, les chercheurs, enseignants-chercheurs, ou ingénieurs engagés dans la production de corpus numériques écrits Collaborations importantes : ATILF (CNRTL) CLARIN (d’infrastructure européenne partagée pour les SHS (Common Language Resources and Technology Infrastructure: www.clarin.eu)) TEI (Text Encoding Initiative) 30/03/2017 30/03/2017 6 6

Corpus écrits Actions Support : Recensement des ressources et diffusion des bonnes pratiques (standards européens : TEI, CLARIN) Mise en place de groupe de travail Support : Petit financement pour organiser des journées d’études, des réunions Embauche d’un ingénieur de recherche CDD pour aider au recensement et diffusion des corpus : Linda Hriba 30/03/2017 30/03/2017 7 7

10 groupes de travail Groupe de travail n°1 Usage des corpus et droits d'auteurs ou d'éditeurs (Aspects juridiques...) Groupe de travail n°2 Corpus d'état anciens de la langue (Numérisation, codage…) Groupes de travail n°3 et 4 Numérisation (OCR, saisies, corrections…) Groupe de travail n°5 Corpus multilingues (Parallèles, comparables …) Groupe de travail n°6 Description de corpus collaborative - Metadonnées   Groupe de travail n°7 Corpus d'écrits modernes et prise en compte de nouveaux modes de communication. Groupe de travail n°8 Annotation du plus haut niveau : syntaxe, sémantique, référence (Annotations collaboratives...) Groupe de travail n°9 Annotation de surface (Segmentation lexicale, description morphosyntaxique chunking, …) Groupe de travail n°10 Exploration de corpus (Méthodes, outils…) Groupe de travail n°11 Qualité scientifique et accessibilité des corpus (Place des corpus dans l'évaluation de la production scientifique des UR) 30/03/2017 30/03/2017 8 8

Objectifs du groupe de travail – Annotations de haut niveau Recenser les corpus du français existants avec une annotation de « haut niveau » Proposer une grille de description de ces corpus (métadonnées) Associer linguistes et spécialistes du TAL dans la réflexion sur l’annotation Retour d’expériences sur les projets constituant des corpus annotés Guide de « bonnes pratiques » 30/03/2017 30/03/2017 9 9

Objectifs du groupe de travail – Annotations de haut niveau (II) Proposer des journées de formation (aux normes, aux logiciels d’annotation, aux logiciels d’interrogation) Proposer des journées d’information : journées thématiques, journées de travail 30/03/2017 30/03/2017 10

Outils de communication le wiki de la liste https://listes.cru.fr/wiki/corpus- ecrits/public/groupe-8 s'inscrire sur la liste corpus-ecrits-annot-haut- niveau@groupes.renater.fr 30/03/2017

Les phénomènes de haut niveau Syntaxe Sémantique Discours et relations textuelles Référence 30/03/2017 30/03/2017 12 12

2. L’annotation syntaxique Objectifs : création de ressources pour les analyseurs automatiques études des phénomènes linguistiques Identification des constituants catégories de constituants annotations continues ou discontinues annotations imbriquées ou simples ambiguïtés règles de grammaires indépendantes d'une théorie particulière? 30/03/2017 30/03/2017 13 13

2. L’annotation syntaxique (II) Identification des fonctions syntaxiques/dépendances grammaires de dépendance vs. étiquetage des corpus annotés phénomènes locaux vs. phénomènes de dépendances à distance indépendance par rapport aux théories existantes 30/03/2017 30/03/2017 14 14

Corpus arborés pour d’autres langues Penn Treebank (U.Pennsylvania) 1 000 000 mots annotation syntaxique et sémantique constituants et en dépendances SUSANNE : 130 000 mots (G. Sampson) annotations de catégories et fonctions LASSY (Large Scale Syntactic Annotation of written Dutch) (U.Gröningen, Leuven) (nl) Corpus d’entraînement et de test CONLL (2009) 30/03/2017 30/03/2017 15 15

Corpus arborés pour d’autres langues (II) Prague Dependency TreeBank (Charles University) 1 500 000 mots Annotation syntaxique, sémantique, coréférence ItalianTreeBanks ISST (Pise): multiples niveaux TUT (Turin) : dépendances VIT (Venise) : multi-domaine, X-bar GermanTreeBanks : Negra (Saarland) : constituants et dépendances Tiger (IMS Stuttgart) : indépendant de théories 30/03/2017 30/03/2017 16 16

Corpus arborés - FR Français contemporain French Treebank (Abeillé, et al 2003) extrait de Le Monde correction manuelle constituants et fonctions (sujets, objets etc.) fonctions de surface les constituants sont simples compatibilité avec plusieurs analyseurs Séquoia (Candito et Seddah, 2012) Multi-domaine, multi-genre, libre de droit constituants et dépendances 30/03/2017 30/03/2017 17 17

Corpus arborés – FR (II) Corpus arborés de français contemporain interrogeables en ligne L’arboratoire (syntaxe de contrainte, Bick) : textes français interrogeables en ligne (Europarl) http://corp.hum.sdu.dk/arboratoire.html Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault) http://scientext.msh-alpes.fr 30/03/2017 30/03/2017 18 18

Corpus arborés – FR (III) Français médieval: SRCMF (projet ANR piloté par Lattice, IMS Stuttgart) dépendances modèle : SRCMF 1 verbe principal=1 phrase catégories hiérarchisées possibilité de catégories sous-déterminées en cas de doute annotation manuelle, 2 annotateurs XML, compatible TigerSearch 30/03/2017 30/03/2017 19 19

Corpus arborés – FR (IV) Corpus CLASSYN (Univ. Strasbourg et IMS Stuttgart) textes de vulgarisation et articles scientifiques domaines : médecine, informatique Corpus comparables (fr, de) environ 700000 tokens/genre/domaine (fr) dépendances (analyseur de B.Bohnet (2009)) pas de correction manuelle 30/03/2017 30/03/2017 20

3. L’annotation sémantique L’annotation sémantique de corpus est très diverse : Types sémantiques et référentiels Exemples : Entités nommées, expressions calendaires et temporelles Opinions et sentiments Désambiguïsation Repérage du « bon » sens du mot Rôles sémantiques (à l’interface de la syntaxique et de la sémantique) Rôle sémantique du mot et du constituant 30/03/2017 30/03/2017 21 21

3. L’annotation sémantique (II) L’annotation sémantique de corpus est aussi complexe : difficile d’atteindre un bon accord interannotateurs Tâches comportant une forte part de subjectivité Souvent pas de standard de référence Difficile d’automatiser la tâche d’annotation 30/03/2017 30/03/2017 22 22

Les corpus annotés sémantiquement pour d’autres langues De nombreux corpus conçus pour évaluer des tâches en TAL (campagnes SenseEval, SemEval, MUC): désambiguïsation: SemCor (Princeton) : anglais, annoté avec WordNet identification de rôles semantiques : FrameNet (Berkeley) (en,es,jp), SALSA (Univ. Saarland) (de) identification des opinions : corpus de citations des débats politiques annotés (JRC Trento) extraction d’information : évenements et les participants : corpus MUC-7 30/03/2017 30/03/2017 23 23

Les corpus annotés pour le français : un premier inventaire (à compléter) Entités nommées : Corpus ESTER utilisé dans des campagnes d’évaluation, annotation des personnes, lieux, organisation (transcription d’émissions de radios) (diffusé par ELRA) Corpus SxPipe (une centaine de dépêches AFP) librement diffusé. 30/03/2017 30/03/2017 24 24

Les corpus annotés pour le français (II) Sentiment et opinion (de très nombreux corpus) : Blogoscopie (ANR) (piloté par le LINA) : annotation des blogs avec les concepts et les évaluations. Librement disponible : http://www.lina.univ-nantes.fr/?Corpus.html Corpus DEFT 2007 : Annotation des opinions disponible à : http://deft.limsi.fr/ Corpus PPF (Grenoble) : annotation du lexique des émotions (textes littéraires) 30/03/2017 30/03/2017 25 25

Les corpus annotés pour le français (III) Expressions temporelles : French TimeBank : Alpage & Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain) 30/03/2017 30/03/2017 26 26

Les corpus annotés pour le français (V) Désambiguïsation : Corpus de la campagne ROMANSEVAL (60 mots désambiguïsés). Diffusé par ELRA. 30/03/2017 30/03/2017 27 27

Annotation discursive et textuelle De nombreux phénomènes : Structure textuelle : aspects structurels Relations discursives, connecteurs, relations rhétoriques (au sens de la RST) Connecteurs implicites ou explicites Relations de discours hiérarchiques ou indépendantes Référence, co-référence, phénomènes anaphoriques Délimitation des expressions référentielles Relations anaphoriques ou de co-référence Divers catégories d’expressions 30/03/2017 30/03/2017 28 28

Ressources pour d'autres langues Relations de discours : Penn Discourse Treebank Indépendant d’une théorie Relations simples Connecteurs Coréférence : ACE (tâche limitée : co-référence entre personnes, organisations, lieux) MUC 6/7 OntoNotes tâches SEMEVAL: corpus disponibles en en, es, it, de, nl 30/03/2017 30/03/2017 29

Premier état des lieux pour le français Annotations textuelles Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumératives Corpus variés. Bientôt disponible. Corpus Géopo : Corpus de 270 000 mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations. http://redac.univ-tlse2.fr/corpus/geopo.html 30/03/2017 30/03/2017 30 30

Premier état des lieux pour le français (II) Discours, relations discursives French Discourse Treebank (Alpage) : le pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours) ANNODIS (en partie) LELIE, projet ANR (IRIT) Textes procéduraux (8000 textes) relations du discours, structure des verbes Annotation automatique révisé (partiellement) TextCoop + Dislog analyseur de discours 30/03/2017 30/03/2017 31 31

Premier état des lieux pour le français (III) Corpus annotés au plan de la coréférence et des anaphores Corpus ELRA (Xerox, U. Stendhal) : Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots Corpus DEDE : Description définies (48 360 mots) http://www.cnrtl.fr/corpus/dede/ Corpus ANNODIS : chaines topicalisées (614943 mots) Corpus EvalRefGen : (15 192 mots) multi-genre 30/03/2017 30/03/2017 32 32

Premier état des lieux pour le français (IV) Projet MC4 (PEPS INS2I – INSHS, porté par Lattice) Objectifs : étudier les chaines de coréférence dans des textes du français médiéval et contemporain, dans les textes narratifs et non-narratifs établir une méthodologie d’annotation amélioration d’outils d’annotation manuelle et automatique Annotation manuelle: Analec (Victorri, 2010) Corpus annoté en chaines de co-référence 30/03/2017 30/03/2017 33

Premier état des lieux pour le français (V) Projet COMTIS (Improving the Coherence of Machine Translation Output by Modeling Intersentential Relations) (Idiap, Univ. de Généve, Suisse, U.Leuven Belgique) Objectifs : Utilisation des relations discursives pour améliorer les systèmes de traduction automatique Corpus multilingue (extrait d’Europarl), dont le français Annotation manuelle : connecteurs de discours, pronoms 3600 mots 30/03/2017 30/03/2017 34

5 Autres types?? 30/03/2017 30/03/2017 35 35

6 Proposition de grille de description La grille doit être compatible avec les métadonnées proposés par d’autres projets: CLARIN Labex Empirical Foundations on Linguistics (http://www.labex-efl.org) FlaReNet 30/03/2017 30/03/2017 36 36

Date de création/diffusion : Auteurs : Laboratoire (Université) : Nom du corpus : Date de création/diffusion : Auteurs : Laboratoire (Université) : Adresse postale : E-mail : Description du corpus : URL : Documentation : Publication à citer : Projet associé : Type de données : écrit/oral/oral transcrit Sources des données : Période couverte par le corpus : Genre (journalistique, littéraire, etc.) Format de représentation (XML, TEI, CES, format propriétaire etc.): Compatibilité avec d'autres formats (CONLL, SEMEVAL etc) : Langue(s) : Taille (nb de mots) : Types d'informations linguistiques (fonctions syntaxiques, relations sémantiques, phénomènes discursifs etc.) : 30/03/2017 30/03/2017 37

Codage des caractères (UTF-8, UTF-16, Latin-1, Latin- 15) : État d'avancement de la ressource : en cours/achevé Modèle linguistique (LFG, FrameNet etc.) : Metadonnées normalisées : TEI/Dublin Core/Open Archive/Non Type d'annotation (manuelle, automatique, automatique révisée) : Domaines couverts par le corpus (médecine, économie, etc.): Outils d'annotation : Interface Web : Guide d'annotation : Droit d'accès (libre, payant, sous conditions) : Licence (GPL, Creative Commons…) : Coût éventuel : Commentaires (outils associés, taille, usages, …) : Description disponible dans un autre GT 30/03/2017 30/03/2017 38

Références Guillot, C., Heiden, S. et Lavrentiev A. (2007). « Typologie des textes et des phénomènes linguistiques pour l’analyse du changement linguistique avec la Base de Français Médiéval », LINX, n° spécial, 2007, p. 125-139. Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht. 30/03/2017 30/03/2017 39