22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français.

Slides:



Advertisements
Présentations similaires
L1 Lire avec aisance (à haute voix, silencieusement) un texte
Advertisements

De l’approche communicative à l’approche actionnelle
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Utilisation ou copie interdites sans citation Rémi Bachelet – Ecole Centrale de Lille 1 CentraleWiki : fonctionnement Image : SourceSource École Centrale.
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
1/17 Projet LAGAN Dechou & CO Développement dun programme de gestion dascenseurs Plan d'assurance qualité
Projet LAGAN Développement d’un programme de gestion d’ascenseurs
JXDVDTEK – Une DVDthèque en Java et XML
CPeyronnet | | Veille et recherche sur Internet : concepts, méthodologies, outils... 1 CvTic Veille et recherche sur Internet.
vers une base libre de corpus annotés
Navigation Interactive dans les documents
INTRODUCTION Définition : Cordial c’est un correcteur orthographique et grammaticaux des textes. Les pluspart des logiciels de traitement de texte possèdent.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Discours et TAL TAL et discours
1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
METADYNE... L’architecture clients-serveurs d’un hypermédia adaptatif
Détermination des processus
Reconnaissance de la parole
Travaux pratiques sur Nooj
L’observation réfléchie de la langue au cycle 3
Cartes Conceptuelles Daniel Peraya
Réunion du groupe de travail
Pour un système formel de description linguistique
BétonlabPro 3 Leçon N°0 PRÉSENTATION DU COURS
Nom Projet : AAP : (Programme, Type) Date du CSV : Présentateur(s): (Prénom, NOM, Etablissement) 30/03/121.
Le portail documentaire de Paris 1
Une bibliographie collaborative en ADN. UNE BIBLIOGRAPHIE COLLABORATIVE EN ADN Flavia Machado (Universités de São Paulo et Paris 13)
Annuaires et moteurs de recherche d’information sur Internet
Recommandations et procédure d’attribution de DOI
Recherche Documentaire et traitement de l’information
Corpus parallèles et textométrie
Concevoir une séquence intégrant les TICE: approche par scénarisation
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Une bibliographie collaborative en ADN. UNE BIBLIOGRAPHIE COLLABORATIVE EN ADN Flavia Machado (Universités de São Paulo et Paris 13)
VisualProjet Logiciel de gestion de projet et plannings IBU-Soft
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI Jean-Jacques DUMÉRY -1-
Rosa María Gómez de Regil Paris, 25 janvier 2011
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Plan Génération automatique de texte (NLG) Narration en NLG
Master spécialité recherche Didactiques et Interactions
MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS
TRAITEMENT INSTRUMENTÉ DE CORPUS
Conférence du groupe X- Environnement, 24 avril 2013 L’impact écologique des infrastructures numériques Cédric Gossart Institut Mines-Télécom Télécom Ecole.
Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.
1HK, Les défis posés aux organes dirigeants des institutions de prévoyance H. Konrad, lic. iur., avocat Administrateur de l’ASIP.
Les Réseaux Le modèle à 7 couches
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Projet Campus AAR ANR-13-CORD Présentation de l’existant Patrick Courounet (INA)
vers une base libre de corpus annotés
Ontologies et description du contenu de documents AV : Une expérimentation dans le domaine médical Mardi 31 mai 2005 Raphaël Troncy 1 & Antoine Isaac 2.
Serveur WEB TAGC SPIP 1.9.2d [11132] est un logiciel libre distribué sous licence GPL. Pour plus d'informations, voir le site
Assemblée générale du 21 juin 2012Bourgogne Bâtiment Durable 1 Centre de ressources régional Qualité Environnementale.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR.
Dictionnaires, lexicographie, lexicographes
Dominique LAURENT Patrick SEGUELA
Du discours aux modèles… Une tentative d’articulation
Le Traitement Automatique des Langues (TAL)
Évaluations nationales et maîtrise de la langue Continuité et perspective.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Transmodalité – Multimodalité Fabrice Maurel IRIT – Toulouse Directeur : Luis Fariñas Del Cerro Équipe DIAMANT – Nadine Vigouroux Concours CNRS CR
Transcription de la présentation:

22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français a.Annotations syntaxiques b.Annotations sémantiques c.Annotations du discours et de la référence 3.Actions envisagées 1

22/11/ Objectifs du groupe de travail – Annotations de haut niveau Recenser les corpus du français existants avec une annotation de « haut niveau » ◦ Proposer une grille de description de ces corpus (métadonnées) (Cf Wiki du groupe) Associer linguistes et spécialistes du TAL dans la réflexion sur l’annotation Retour d’expériences sur les projets constituant des corpus annotés ◦ Guide de « bonnes pratiques » 2

22/11/123 3 Objectifs du groupe de travail – Annotations de haut niveau (II) Proposer des journées de formation (aux normes, aux logiciels d’annotation, aux logiciels d’interrogation) Proposer des journées d’information : journées thématiques, journées de travail

22/11/124 Outils de communication le wiki de la liste ◦ s'inscrire sur la liste ◦

22/11/ Les phénomènes de haut niveau Syntaxe Sémantique Discours et relations textuelles, Référence 5

22/11/126 6 a. L’annotation syntaxique Objectifs : ◦ création de ressources pour les analyseurs automatiques ◦ études des phénomènes linguistiques Identification des constituants ◦ catégories de constituants ◦ ambiguïtés Identification des fonctions syntaxiques/ dépendances Indépendance par rapport aux modèles ? 6

22/11/127 7 Corpus arborés - FR Français contemporain ◦ French Treebank (Abeillé, et al 2003) extrait de Le Monde correction manuelle constituants (continus) compatibilité avec plusieurs analyseurs ◦ Séquoia (Candito et Seddah, 2012) multi-domaine, multi-genre, libre de droit constituants et dépendances 7

22/11/128 8 Corpus arborés – FR (II) Corpus arborés de français contemporain interrogeables en ligne ◦ L’arboratoire (syntaxe de contrainte) : textes français interrogeables en ligne (Europarl) ◦ Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault) 8

22/11/129 9 b. L’annotation sémantique L’annotation sémantique de corpus est très diverse : ◦ Types sémantiques et référentiels Exemples : Entités nommées, expressions calendaires et temporelles Opinions et sentiments ◦ Désambiguïsation Repérage du « bon » sens du mot Complexité de la tâche : ◦ Difficulté à automatiser et à atteindre un bon niveau d'accord interannotateurs 9

22/11/121022/11/1210 Quelques exemples Sentiments et opinions (de très nombreux corpus) : ◦ Blogoscopie (ANR) (piloté par le LINA) : annotation des blogs avec les concepts et les évaluations. Librement disponible : ◦ Corpus DEFT 2007 : Annotation des opinions disponible à : 10

22/11/121122/11/1211 Expressions temporelles Expressions temporelles : ◦ French TimeBank : Alpage & Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain) ◦ Travaux sur l’annotation des expressions temporelles. Projet ANR Chronolines ( (Modyco, LIMSI, Exalead, AFP, Xerox) 11

22/11/121222/11/1212 c. Annotation discursive et textuelle De nombreux phénomènes : ◦ Structure textuelle : aspects structurels ◦ Relations discursives, connecteurs, relations rhétoriques (au sens de la RST) Connecteurs implicites ou explicites Relations de discours hiérarchiques ou indépendantes ◦ Référence, co-référence, phénomènes anaphoriques Délimitation des expressions référentielles Relations anaphoriques ou de co-référence Typologie d’expressions référentielles 12

22/11/121322/11/1213 Quelques exemples Annotations textuelles ◦ Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumératives Corpus variés. Disponible à : tlse2.fr/corpus/annodis/ tlse2.fr/corpus/annodis/ ◦ Corpus Géopo : Corpus de mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations

22/11/121422/11/1214 Discours, relations discursives ◦ French Discourse Treebank (Alpage) : le pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours) ◦ ANNODIS (en partie) ◦ LELIE, projet ANR (IRIT) Textes procéduraux (8000 textes) relations du discours, structure des verbes Annotation automatique révisé (partiellement) TextCoop + Dislog analyseur de discours 14

22/11/121522/11/1215 Corpus annotés au plan de la coréférence et des anaphores Corpus annotés au plan de la coréférence et des anaphores ◦ Corpus ELRA (Xerox, U. Stendhal) : Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots ◦ Corpus DEDE : Descriptions définies ( mots) ◦ Corpus ANNODIS : chaines topicalisées ( mots) ◦ Corpus EvalRefGen : ( mots) multi-genre 15

22/11/121622/11/1216 D’autres types d’annotation de haut niveau? À discuter 16

22/11/121722/11/ Actions envisagées Séance de formation/information (janvier 2013) : ◦ Formation à Glozz, outil d’annotation discursif ◦ Retour d’expérience sur l’annotation de haut niveau : mise en œuvre, difficultés… Journée d’études sur l’annotation de haut niveau (juin 2013) ◦ Présentation de quelques réalisations 17