vers une base libre de corpus annotés

Slides:



Advertisements
Présentations similaires
Normalisation pour les corpus et les lexiques multilingues
Advertisements

DTD Sylvain Salvati
Thème 3 : plate-forme de modélisation et de gestion de référentiels XML étapes modélisation des structures (UML) gestion du référentiel de modélisation.
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
XML - Henry Boccon-Gibod 1 XML, Langage de description Ontologie pour les nuls.
Urbanisation de Systèmes d'Information
Indexation vidéo Indexation multimédia
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
- Qu'est ce qui te différencie d'autrui* ? (autrui = l'autre)
vers une base libre de corpus annotés
L'étiquetage morpho-syntaxique d'un corpus oral Claudia-Mariana Ionescu Ripoll.
Présentation PowerPoint TICE2 Adeline VINCENDEAU
Cartes Conceptuelles Daniel Peraya
Approche critique des produits IdL Master 1 IdL Année
Vue générale de Sharpdesk
Pour un système formel de description linguistique
Chap 4 Les bases de données et le modèle relationnel
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Bases de données lexicales
Introduction à la structuration des documents: les techniques M2: Gestion des connaissances.
Vers des composants TAL réutilisables
STAF 2X XSL/FO Glaus & Ruckstuhl Mars © Glaus & Ruckstuhl TECFA Programme du 18 et 19 mars Revision XML Introduction à XSL/FO (intérêts et.
Présentation du mémoire
OUTILEX Présentation des résultats
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
OPTIMA, 6 novembre 2008, BnF 1 un outil daide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d I nformatique, T raitement.
Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.
Le Père Goriot Honoré de BALZAC
Jonathan Montois Cyrille Kriegel
Présentation de larchive ouverte « ArchiveTématice » Colloque Technologies pour lapprentissage et léducation, Paris,
Normalisation des échanges de données en terminologie
Vers une génération automatique du mapping de sources biomédicales
Les feuilles de style CSS
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)
Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.
Jacques Cartier, enseignant à l’Université de Franche-Comté Unité de Formation et de Recherche - Sciences du Langage, de l’Homme et de la Société Besançon.
Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,
22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Le langage XML.
Bordeaux - Juin HAL – Le contenu / Les acteurs
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Vers une analyse syntaxique à granularité variable Tristan Van rullen
MSH – Paris, 18/01/2007 Les archives ouvertes, un nouveau mode de communication scientifique ? HAL-SHS, des résultats positifs. Christine Berthaud Institut.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
François CARCENAC,Frédéric BONIOL ONERA-DTIM Zoubir MAMMERI IRIT
Dominique LAURENT Patrick SEGUELA
Modélisation N-morphes en classification des textes de Wikipedia
Sur le statut référentiel des entités nommées
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Soutenance du mémoire de synthèse
Module : Langage XML (21h)
Modélisation des documents: DTD et Schéma
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
BASES ET BANQUES DE DONNEES Objectifs de l’enseignement
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
XML : un métalangage pour la description de documents structurés XML a été défini par le consortium W3 en fonction de 2 objectifs: Compenser les limitations.
Introduction au HTML Qu’est ce que le HTML ?
Transmodalité – Multimodalité Fabrice Maurel IRIT – Toulouse Directeur : Luis Fariñas Del Cerro Équipe DIAMANT – Nadine Vigouroux Concours CNRS CR
Transcription de la présentation:

vers une base libre de corpus annotés La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS) Eckhard Bick (University of Southern Denmark) Laurent Romary (LORIA – INRIA) Jean-Marie Pierrel (ATILF – CNRS)

Survol Trois constats, un objectif et un rêve Terminologie Spécifications architecturales Amorce et état actuel Perspectives Démo De l’architecture à l’interface Dépôt et visualisation

Trois constats Manque de corpus annotés modélisation, apprentissage, évaluation retard important par rapport à l’anglais Initiatives d’annotation au-delà de la morphologie syntaxe (Abeillé 2003, Vilnat & al. 2003) sémantique ? anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002) majorité de ressources sous droits et/ou non normalisées Initiatives de mise en ligne de ressources libres tables LADL/IGM, LEFFF, ABU Asila, GDR Sémantique, Ananas, Text®, ABU mais peu de ressources annotées problèmes d’interfaçage et de mise à jour

Un objectif Espace ouvert de dépôt de ressources libres pas un simple espace de méta-données (cf. OLAC) téléchargement et dépôt de ressources brutes ou annotées dépôt d’annotations sur ressources existantes méta-annotations annotations concurrentes corrections, affinages annotation d’extraits pas de validation à priori des annotations documentation schémas pratiques

… et un rêve Annotations « stand-off » Annotations normalisées séparation entre données primaires et annotations souhaitables pour annotations concurrentes : comparaison de deux étiqueteurs annotations non hiérarchiques : antécédents complexes Annotations normalisées suivi des recommandations (TEI, ISO TC37/SC4, RNIL) indispensables pour interfaçage avec outils TAL évaluation des ressources pérennisation partage d’outils de traitement de corpus documentation partagée

Couverture, corpus, ressource « Couverture linguistique » conditions de production & contenu linéaire « Je sais que le langage courant est plein de pièges. » => TALN 2004; S. de Beauvoir, 1976; M. Yaguello, 1978 « Corpus » collection de données caractérisée par une même couverture linguistique Le Monde 09/1986, articles sportif du Monde 09/1986 corpus contingent vs. intentionnel (Sinclair 1996) « Ressource » unité physique de dépôt de données relatives à un corpus Monde scanné (image) Monde Word Monde XML POS + arboré (Tiger) Corpus contingent (décalage entre compilateur et utilisateur) vs. intentionnel => méta-données : compilateur (celui qui compile le corpus)

Niveaux de description Ensemble cohérent d’informations explicitées relatif à un corpus donné analyse humaine ou traitement automatique instancié par un schéma d’annotation (Ide & Romary, 2001) propriétés structurelles & catégories de données typologie fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours, actes de langage distinction entre données primaires et secondaires ? continuum théorique considération pratique : reconstitution de la couverture linguistique articulation des notions, pas à plat… caractérisation des notions dans un base (méta-données) .

Architecture Corpus Niveau de Ressource description 1..1 0..n 1..1 Couverture Locuteur, conditions spatio-temporelles, … Caractérisations supplémentaires Taille, Genre, … Corpus 1..1 0..n est composé de Ressource Niveau de description 1..1 0..n est composé de dépend de 0..n 0..1 1..1 1..n est composé de Laurent : animation : corpus niv. de description ressource (efface description) synthèse méta-donnée corpus : cf. TEI 1. couverture linguistique (dépendant du type de corpus) 2. descripteur additionnel (size, genre, ressource ID dépôt, … --------------------------------- - lien direct entre corpus et niveau d’annotation ? cardinalités Res-Niv ? 0..n , puisqu’on peut avoir des ressources sans niveaux d’annotation veut dire que les méta-données Res doivent couvrir entièrement celles qu’on souhaite attacher à une ressource « primaire » est-ce que ça peut poser prb pour des codages élémentaires tels que TEI, time stamps etc (que Laurent ne considère pas comme des annotations) ? cardinalité Niv-Niv ? 0..n si 1 niveau peut dépendre de plusieurs niveaux, 0..1 sinon localisation des méta-données : format de codage (Word, XML, SGML, …) au niveau de la ressource ou des niveaux ? - conditions de recueil au niveau de la ressource ou des niveaux ? schéma d’annotation/catégorie de données : pointeur sur norme ? DTD ? DCS ? ou attacher les méta-données sur l’évaluation et la révision ? fait non explicité pour l’instant : plusieurs annotateurs d’un même niveau de description linguistique => si ça revient à avoir plusieurs ressources (nécessairement ???), pas de pb, mais sinon, on est mal… Notion de « primaire / secondaire » : attaché à la ressource (pour le dépôt) Attaché au niv de description : dépendance conceptuelle Aux deux ??? Pas de parallélisme : cf. TIGER (uniquement dépendance conceptuelle) Cf. RAF : si markables séparés des liens… Dépositaire Date de dépôt Typologie informationnelle Source (humaine, logicielle) Schéma d’annotation (langage de codage, DTD, catégories de données) Évaluation (campagne, mesures, résultats)

Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut Madame Vauquer, née De Conflans , est une vieille femme qui, depuis quarante ans, tient à Paris une pension bourgeoise établie rue Neuve-Sainte-Geneviève , entre le quartier latin et le faubourg Saint-Marceau . Cette pension, connue sous le nom de la Maison-Vauquer , admet également des hommes et des femmes, des jeunes gens et des vieillards, sans que jamais la médisance ait attaqué les mœurs de ce respectable établissement. Mais aussi depuis trente ans ne s'y était-il jamais vu de jeune personne, et pour qu'un jeune homme y demeure, sa famille doit-elle lui faire une bien maigre pension. Néanmoins, en 1819, époque à laquelle ce drame commence, il s'y trouvait une pauvre jeune fille. En quelque discrédit que soit tombé le mot drame par la manière abusive et

Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut <tt> <ut> <p> <seg> <er type="person-oeuvre" id2="p1" id="1"> Madame Vauquer , née De Conflans </er> , est une vieille femme qui , depuis quarante ans , tient à <er type="place-ville" id2="pl1" id="2"> Paris </er> <er type="org-oeuvre" id2="or1" id="6"> une pension bourgeoise établie <er type="place-rue" id2="pl2" id="3"> rue Neuve - Sainte - Geneviève </er> , entre <er type="place-quartier" id2="pl3" id="4"> le quartier latin </er> et le <er type="place-rue" id2="pl4" id="5"> faubourg Saint - Marceau </er> </er> . </seg> texte_balisé_tei entités_nommées référence

Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut <tt><ut><p><seg> <rs type="person-oeuvre" id="p1"> <name type="person-oeuvre" key="Mme Vauquer">Madame Vauquer</name>née <name type="person-oeuvre" key="De Conflans">De Conflans</name> </rs>, est une vieille femme qui, depuis quarante ans, tient à <rs type="place-ville" id="pl1"> <name type="place-ville" key="Paris">Paris</name> </rs> … </seg></p> </ut></tt> texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut <word id="word_27">Madame</word> <word id="word_28">Vauquer</word> <word id="word_29">,</word> <word id="word_30">née</word> <word id="word_31">De</word> <word id="word_32">Conflans</word> <word id="word_33">,</word> <word id="word_34">est</word> <word id="word_35">une</word> <word id="word_36">vieille</word> <word id="word_37">femme</word> <word id="word_38">qui</word> texte_segmenté texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut morpho-syntaxe <w span="word_24" msd="DTN:m:s" lemma="un"></w> <w span="word_25" msd="SBC:_:s" lemma="pension"></w> <w span="word_26" msd="ADJ:f:s" lemma="bourgeois"></w> <w span="word_27" msd="SBC:_:s" lemma="madame"></w> <w span="word_28" msd="SBP" lemma="vauquer"></w> <w span="word_29" msd=" " lemma=","></w> <w span="word_30" msd="ADJ2PAR:f:s" lemma="naître"></w> <w span="word_31" msd="PREP" lemma="de"></w> <w span="word_32" msd="SBP" lemma="conflans"></w> <w span="word_33" msd=" " lemma=","></w> texte_segmenté texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut morpho-syntaxe <w span="word_24" msd="DETIFS" lemma="un"></w> <w span="word_25" msd="NCFS" lemma="pension"></w> <w span="word_26" msd="ADJFS" lemma="bourgeois"></w> <w span="word_27" msd="NCFIN" lemma="madame"></w> <w span="word_28" msd="INC" lemma="Vauquer"></w> <w span="word_29" msd="PCTFAIB" lemma=","></w> <w span="word_30" msd="VPARPFS" lemma="naître"></w> <w span="word_31" msd="PREP" lemma="de"></w> <w span="word_32" msd="INC" lemma="Conflans"></w> <w span="word_33" msd="PCTFAIB" lemma=","></w> <w span="word_34" msd="VINDP3S" lemma="être"></w> texte_segmenté morpho-syntaxe texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut morpho-syntaxe <root label="UTT" idref="nt_1_6" /> <nt id="nt_1_0" cat="np"> <edge label="DN"  href="tt.xml#xptr(id(msd_4))"/> <edge label="H" href="tt.xml#xptr(id(msd_5))"/> </nt> <nt id="nt_1_1" cat="pp"> <edge label="H" href="tt.xml#xptr(id(msd_3))"/> <edge label="DP" idref="nt_1_0" /> </nt>… </root> texte_segmenté morpho-syntaxe syntaxe.xml texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Amorce Corpus libres de droits État actuel Asila (corpus de dialogue) Ananas (corpus annotés en anaphores) + GDR Sémantique, L’Arboratoire, Easy, Text® toute contribution est la bienvenue… État actuel Genre Taille TEI Seg. Brill Cord. TreeT Synt. GN Coref littérature 100 k  () presse science administratif 70 k oral

Annotation syntaxique FrAG (French Annotation Grammar, E. Bick) http://sandbox.visl.sdu.dk/visl/fr/

Annotation référentielle Analyse syntaxique étiquetage TreeTagger & constituants + dépendances (VISL) structure arborescente correction manuelle partielle Normalisation format Negra-TIGER + stand-off Extraction GNs TIGER-Search XSL Annotation référentielle filtrage semi-manuel des GN référentiels annotation manuelle (double annotation + évaluation accord)

Granularité, versions, corrections Niveau de description « Jardin à la française » « Jardin botanique » « Forêt vierge »  structure (TEI) oui ? étiquetage partiellement non syntaxe référence Nouveau dépôt ressource + niveaux de description méta-données (catégories de données, évaluation, annotateur) extraction de GN => catégorisation entités nommées sur-spécification étiquettes morpho-syntaxiques correction manuelle des dépendances syntaxiques

Perspectives Contenu de la base Outils & Interface Ouverture recensement et intégration de corpus bruts ou annotés méta-données => OLAC Outils & Interface outils de restitution visuelle des corpus évaluation de l’accord entre plusieurs annotations statistiques accès & téléchargement Ouverture d’autres types de ressources lexiques morphologiques, syntaxiques, sémantiques

Gestion des en-têtes dans la FReeBank ???