vers une base libre de corpus annotés

vers une base libre de corpus annotés
La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS) Eckhard Bick (University of Southern Denmark) Laurent Romary (LORIA – INRIA) Jean-Marie Pierrel (ATILF – CNRS)

Survol Trois constats, un objectif et un rêve Terminologie
Spécifications architecturales Amorce et état actuel Perspectives Démo De l’architecture à l’interface Dépôt et visualisation

Trois constats Manque de corpus annotés
modélisation, apprentissage, évaluation retard important par rapport à l’anglais Initiatives d’annotation au-delà de la morphologie syntaxe (Abeillé 2003, Vilnat & al. 2003) sémantique ? anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002) majorité de ressources sous droits et/ou non normalisées Initiatives de mise en ligne de ressources libres tables LADL/IGM, LEFFF, ABU Asila, GDR Sémantique, Ananas, Text®, ABU mais peu de ressources annotées problèmes d’interfaçage et de mise à jour

Un objectif Espace ouvert de dépôt de ressources libres
pas un simple espace de méta-données (cf. OLAC) téléchargement et dépôt de ressources brutes ou annotées dépôt d’annotations sur ressources existantes méta-annotations annotations concurrentes corrections, affinages annotation d’extraits pas de validation à priori des annotations documentation schémas pratiques

… et un rêve Annotations « stand-off » Annotations normalisées
séparation entre données primaires et annotations souhaitables pour annotations concurrentes : comparaison de deux étiqueteurs annotations non hiérarchiques : antécédents complexes Annotations normalisées suivi des recommandations (TEI, ISO TC37/SC4, RNIL) indispensables pour interfaçage avec outils TAL évaluation des ressources pérennisation partage d’outils de traitement de corpus documentation partagée

Couverture, corpus, ressource
« Couverture linguistique » conditions de production & contenu linéaire « Je sais que le langage courant est plein de pièges. » => TALN 2004; S. de Beauvoir, 1976; M. Yaguello, 1978 « Corpus » collection de données caractérisée par une même couverture linguistique Le Monde 09/1986, articles sportif du Monde 09/1986 corpus contingent vs. intentionnel (Sinclair 1996) « Ressource » unité physique de dépôt de données relatives à un corpus Monde scanné (image) Monde Word Monde XML POS + arboré (Tiger) Corpus contingent (décalage entre compilateur et utilisateur) vs. intentionnel => méta-données : compilateur (celui qui compile le corpus)

Niveaux de description
Ensemble cohérent d’informations explicitées relatif à un corpus donné analyse humaine ou traitement automatique instancié par un schéma d’annotation (Ide & Romary, 2001) propriétés structurelles & catégories de données typologie fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours, actes de langage distinction entre données primaires et secondaires ? continuum théorique considération pratique : reconstitution de la couverture linguistique articulation des notions, pas à plat… caractérisation des notions dans un base (méta-données) .

Architecture Corpus Niveau de Ressource description 1..1 0..n 1..1
Couverture Locuteur, conditions spatio-temporelles, … Caractérisations supplémentaires Taille, Genre, … Corpus 1..1 0..n est composé de Ressource Niveau de description 1..1 0..n est composé de dépend de 0..n 0..1 1..1 1..n est composé de Laurent : animation : corpus niv. de description ressource (efface description) synthèse méta-donnée corpus : cf. TEI 1. couverture linguistique (dépendant du type de corpus) 2. descripteur additionnel (size, genre, ressource ID dépôt, … - lien direct entre corpus et niveau d’annotation ? cardinalités Res-Niv ? 0..n , puisqu’on peut avoir des ressources sans niveaux d’annotation veut dire que les méta-données Res doivent couvrir entièrement celles qu’on souhaite attacher à une ressource « primaire » est-ce que ça peut poser prb pour des codages élémentaires tels que TEI, time stamps etc (que Laurent ne considère pas comme des annotations) ? cardinalité Niv-Niv ? 0..n si 1 niveau peut dépendre de plusieurs niveaux, 0..1 sinon localisation des méta-données : format de codage (Word, XML, SGML, …) au niveau de la ressource ou des niveaux ? - conditions de recueil au niveau de la ressource ou des niveaux ? schéma d’annotation/catégorie de données : pointeur sur norme ? DTD ? DCS ? ou attacher les méta-données sur l’évaluation et la révision ? fait non explicité pour l’instant : plusieurs annotateurs d’un même niveau de description linguistique => si ça revient à avoir plusieurs ressources (nécessairement ???), pas de pb, mais sinon, on est mal… Notion de « primaire / secondaire » : attaché à la ressource (pour le dépôt) Attaché au niv de description : dépendance conceptuelle Aux deux ??? Pas de parallélisme : cf. TIGER (uniquement dépendance conceptuelle) Cf. RAF : si markables séparés des liens… Dépositaire Date de dépôt Typologie informationnelle Source (humaine, logicielle) Schéma d’annotation (langage de codage, DTD, catégories de données) Évaluation (campagne, mesures, résultats)

Assemblage architectural
Corpus : Le Père Goriot (chap. I) texte_brut Madame Vauquer, née De Conflans , est une vieille femme qui, depuis quarante ans, tient à Paris une pension bourgeoise établie rue Neuve-Sainte-Geneviève , entre le quartier latin et le faubourg Saint-Marceau . Cette pension, connue sous le nom de la Maison-Vauquer , admet également des hommes et des femmes, des jeunes gens et des vieillards, sans que jamais la médisance ait attaqué les mœurs de ce respectable établissement. Mais aussi depuis trente ans ne s'y était-il jamais vu de jeune personne, et pour qu'un jeune homme y demeure, sa famille doit-elle lui faire une bien maigre pension. Néanmoins, en 1819, époque à laquelle ce drame commence, il s'y trouvait une pauvre jeune fille. En quelque discrédit que soit tombé le mot drame par la manière abusive et

Corpus : Le Père Goriot (chap. I) texte_brut <tt> <ut> <p> <seg> <er type="person-oeuvre" id2="p1" id="1"> Madame Vauquer , née De Conflans </er> , est une vieille femme qui , depuis quarante ans , tient à <er type="place-ville" id2="pl1" id="2"> Paris </er> <er type="org-oeuvre" id2="or1" id="6"> une pension bourgeoise établie <er type="place-rue" id2="pl2" id="3"> rue Neuve - Sainte - Geneviève </er> , entre <er type="place-quartier" id2="pl3" id="4"> le quartier latin </er> et le <er type="place-rue" id2="pl4" id="5"> faubourg Saint - Marceau </er> </er> . </seg> texte_balisé_tei entités_nommées référence

Corpus : Le Père Goriot (chap. I) texte_brut <tt><ut><p><seg> <rs type="person-oeuvre" id="p1"> <name type="person-oeuvre" key="Mme Vauquer">Madame Vauquer</name>née <name type="person-oeuvre" key="De Conflans">De Conflans</name> </rs>, est une vieille femme qui, depuis quarante ans, tient à <rs type="place-ville" id="pl1"> <name type="place-ville" key="Paris">Paris</name> </rs> … </seg></p> </ut></tt> texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Corpus : Le Père Goriot (chap. I) texte_brut <word id="word_27">Madame</word> <word id="word_28">Vauquer</word> <word id="word_29">,</word> <word id="word_30">née</word> <word id="word_31">De</word> <word id="word_32">Conflans</word> <word id="word_33">,</word> <word id="word_34">est</word> <word id="word_35">une</word> <word id="word_36">vieille</word> <word id="word_37">femme</word> <word id="word_38">qui</word> texte_segmenté texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Corpus : Le Père Goriot (chap. I) texte_brut morpho-syntaxe <w span="word_24" msd="DTN:m:s" lemma="un"></w> <w span="word_25" msd="SBC:_:s" lemma="pension"></w> <w span="word_26" msd="ADJ:f:s" lemma="bourgeois"></w> <w span="word_27" msd="SBC:_:s" lemma="madame"></w> <w span="word_28" msd="SBP" lemma="vauquer"></w> <w span="word_29" msd=" " lemma=","></w> <w span="word_30" msd="ADJ2PAR:f:s" lemma="naître"></w> <w span="word_31" msd="PREP" lemma="de"></w> <w span="word_32" msd="SBP" lemma="conflans"></w> <w span="word_33" msd=" " lemma=","></w> texte_segmenté texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Corpus : Le Père Goriot (chap. I) texte_brut morpho-syntaxe <w span="word_24" msd="DETIFS" lemma="un"></w> <w span="word_25" msd="NCFS" lemma="pension"></w> <w span="word_26" msd="ADJFS" lemma="bourgeois"></w> <w span="word_27" msd="NCFIN" lemma="madame"></w> <w span="word_28" msd="INC" lemma="Vauquer"></w> <w span="word_29" msd="PCTFAIB" lemma=","></w> <w span="word_30" msd="VPARPFS" lemma="naître"></w> <w span="word_31" msd="PREP" lemma="de"></w> <w span="word_32" msd="INC" lemma="Conflans"></w> <w span="word_33" msd="PCTFAIB" lemma=","></w> <w span="word_34" msd="VINDP3S" lemma="être"></w> texte_segmenté morpho-syntaxe texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Corpus : Le Père Goriot (chap. I) texte_brut morpho-syntaxe <root label="UTT" idref="nt_1_6" /> <nt id="nt_1_0" cat="np"> <edge label="DN" href="tt.xml#xptr(id(msd_4))"/> <edge label="H" href="tt.xml#xptr(id(msd_5))"/> </nt> <nt id="nt_1_1" cat="pp"> <edge label="H" href="tt.xml#xptr(id(msd_3))"/> <edge label="DP" idref="nt_1_0" /> </nt>… </root> texte_segmenté morpho-syntaxe syntaxe.xml texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence

Amorce Corpus libres de droits État actuel Asila (corpus de dialogue)
Ananas (corpus annotés en anaphores) + GDR Sémantique, L’Arboratoire, Easy, Text® toute contribution est la bienvenue… État actuel Genre Taille TEI Seg. Brill Cord. TreeT Synt. GN Coref littérature 100 k  () presse science administratif 70 k oral

Annotation syntaxique
FrAG (French Annotation Grammar, E. Bick)

Annotation référentielle
Analyse syntaxique étiquetage TreeTagger & constituants + dépendances (VISL) structure arborescente correction manuelle partielle Normalisation format Negra-TIGER + stand-off Extraction GNs TIGER-Search XSL Annotation référentielle filtrage semi-manuel des GN référentiels annotation manuelle (double annotation + évaluation accord)

Granularité, versions, corrections
Niveau de description « Jardin à la française » « Jardin botanique » « Forêt vierge » structure (TEI) oui ? étiquetage partiellement non syntaxe référence Nouveau dépôt ressource + niveaux de description méta-données (catégories de données, évaluation, annotateur) extraction de GN => catégorisation entités nommées sur-spécification étiquettes morpho-syntaxiques correction manuelle des dépendances syntaxiques

Perspectives Contenu de la base Outils & Interface Ouverture
recensement et intégration de corpus bruts ou annotés méta-données => OLAC Outils & Interface outils de restitution visuelle des corpus évaluation de l’accord entre plusieurs annotations statistiques accès & téléchargement Ouverture d’autres types de ressources lexiques morphologiques, syntaxiques, sémantiques

Gestion des en-têtes dans la FReeBank
???

vers une base libre de corpus annotés

Présentations similaires

Présentation au sujet: "vers une base libre de corpus annotés"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

vers une base libre de corpus annotés

Présentations similaires

Présentation au sujet: "vers une base libre de corpus annotés"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back