La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Présentations similaires


Présentation au sujet: "Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)"— Transcription de la présentation:

1 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS) Eckhard Bick (University of Southern Denmark) Laurent Romary (LORIA – INRIA) Jean-Marie Pierrel (ATILF – CNRS)

2 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Trois constats Manque de corpus annotés réutilisables –modélisation, apprentissage, évaluation –retard important par rapport à langlais Initiatives dannotation au-delà de la morphologie –syntaxe (Abeillé 2003, Vilnat & al. 2003) –anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002) –sémantique (Projet Evalda Média) –majorité de ressources sous droits et/ou non normalisées Initiatives de mise en ligne de ressources libres –lexiques : tables LADL/IGM, LEFFF, ABU, Papillon –corpus : Asila, GDR Sémantique, Ananas, Text®, ABU –mais peu de ressources annotées –problèmes dinterfaçage et de mise à jour

3 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Un objectif Espace ouvert de dépôt de ressources libres –pas un simple espace de méta-données (cf. OLAC) –téléchargement et dépôt de données brutes ou annotées –dépôt dannotations sur ressources existantes –méta-annotations –annotations concurrentes –corrections, affinages –annotation dextraits –pas de validation a priori des annotations –documentation –schémas –pratiques

4 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc … et un rêve Annotations « stand-off » –séparation entre données primaires et annotations –souhaitables pour –annotations concurrentes : comparaison de deux étiqueteurs –annotations non hiérarchiques : antécédents complexes Annotations normalisées –suivi des recommandations (TEI, ISO TC37/SC4, RNIL) –indispensables pour –interfaçage avec outils TAL –évaluation des ressources –partage doutils de traitement de corpus –pérennisation –documentation partagée

5 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Corpus : Le Père Goriot (chap. I) texte_brut Madame Vauquer, née De Conflans, est une vieille femme qui, depuis quarante ans, tient à Paris une pension bourgeoise établie rue Neuve- Sainte-Geneviève, entre le quartier latin et le faubourg Saint-Marceau. Cette pension, connue sous le nom de la Maison-Vauquer, admet également des hommes et des femmes, des jeunes gens et des vieillards, sans que jamais la médisance ait attaqué les mœurs de ce respectable établissement. Mais aussi depuis trente ans ne s'y était-il jamais vu de jeune personne, et pour qu'un jeune homme y demeure, sa famille doit-elle lui faire une bien maigre pension. Néanmoins, en 1819, époque à laquelle ce drame commence, il s'y trouvait une pauvre jeune fille. En quelque discrédit que soit tombé le mot drame par la manière abusive et Du rêve à la réalité…

6 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Corpus : Le Père Goriot (chap. I) texte_brut Madame Vauquer, née De Conflans, est une vieille femme qui, depuis quarante ans, tient à Paris une pension bourgeoise établie rue Neuve - Sainte - Geneviève, entre le quartier latin et le faubourg Saint - Marceau. texte_balisé_tei entités_nommées référence Du rêve à la réalité…

7 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence Madame Vauquer née De Conflans, est une vieille femme qui, depuis quarante ans, tient à Paris … Du rêve à la réalité…

8 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté texte_balisé_tei entités_nommées référence Madame Vauquer, née De Conflans, est une vieille femme qui Du rêve à la réalité…

9 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté morpho-syntaxe texte_balisé_tei entités_nommées référence Du rêve à la réalité…

10 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté morpho-syntaxe texte_balisé_tei entités_nommées référence Du rêve à la réalité…

11 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc syntaxe Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté morpho-syntaxe texte_balisé_tei entités_nommées référence … Du rêve à la réalité…

12 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc syntaxe Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté morpho-syntaxe texte_balisé_tei entités_nommées référence Concepts fondamentaux

13 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc syntaxe Corpus : Le Père Goriot (chap. I) texte_brutmorpho-syntaxe texte_balisé_tei entités_nommées référence texte_segmenté texte_balisé_tei entités_nommées référence Concepts fondamentaux

14 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc syntaxe Corpus : Le Père Goriot (chap. I) texte_brutmorpho-syntaxe texte_balisé_tei entités_nommées référence texte_segmenté texte_balisé_tei entités_nommées référence Concepts fondamentaux

15 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc « Couverture linguistique » –conditions de production & contenu linéaire –« Je sais que le langage courant est plein de pièges. » => S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004 « Corpus » –collection de données caractérisée par une même couverture linguistique –Goriot, chap. I –Le Monde 09/1986 articles sportifs du Monde 09/1986 –corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000) « Ressource » –unité physique de dépôt de données relatives à un corpus –Goriot scanné (image) –Goriot texte brut (Word) –Goriot étiqueté + arboré (XML Tiger) Concepts fondamentaux

16 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc « Niveau de description » –ensemble cohérent dinformations explicitées relatif à un corpus –fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours –analyse humaine ou traitement automatique –instancié par un schéma dannotation (Ide & Romary, 2001) –données primaires et secondaires –considération pratique : reconstitution de la couverture –continuum théorique (texte balisé TEI ?) « Méta-données » –identification et gestion des données Concepts fondamentaux

17 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Organisation linguistique Corpus Couverture Caractérisations supplémentaires … dépend de 0..n 0..1 Typologie informationnelle Source Schéma dannotation Évaluation Niveau de description n est composé de

18 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Organisation opérationnelle Corpus Dépositaire Date de dépôt Couverture Caractérisations supplémentaires … n est composé de Ressource dépend de 0..n 0..1 Typologie informationnelle Source Schéma dannotation Évaluation Niveau de description n est composé de n est composé de

19 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Méta-données Complémentarité des initiatives internationales –Dublin Core, OLAC, IMDI, TEI –convergence sur les descripteurs du TC 37 de lISO –répertoire de catégories de données : rôles, codes de langue… Méta-données utiles pour la FReeBank –pertinence vis-à-vis de corpus, ressource et niveau de description –prévoir des méta-données plus fines à terme –documentation des étiquettes morpho-syntaxiques –caractérisation de données « primaires » / « secondaires » Méta-données codées sous forme den-têtes TEI –dissémination de bonnes pratiques pour la représentation et la transcription –diffusion au format OLAC et IMDI –moissonnage de la FReeBank par les portails correspondants

20 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Exemple « types de discours » Classification stable dans OLAC –drama, formulaic discourse, interactive discourse, language play, oratory, narrative, procedural discourse, singing, unintelligible speech Caractérise la composante « niveau de description » –utilisation de / dans len-tête TEI A définir… –opérationnalité de la classification –percolation vers la composante « corpus » ?

21 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Exemple « rôles » Ensemble complexe de rôles dans OLAC –caractérisation des agents intervenant dans la création, gestion et distribution de données linguistiques Distribution vis-à-vis de larchitecture de la FReeBank –Corpus –Depositor –Ressource –Depositor, Compiler, Editor, Researcher, Sponsor –Niveau de description –[Gestion de lannotation] Editor, Researcher, Annotator, Data inputter, Developer, Sponsor –[Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder, Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker

22 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Contenu : amorce Corpus libres de droits –Asila (corpus de dialogue) –Ananas (corpus annotés en anaphores) –GDR Sémantique, LArboratoire, Text®, ABU –toute contribution est la bienvenue ! État actuel (cf. papier) GenreTailleTEISeg.BrillCord.TreeTSynt.GNCoref littérature100 k ( ) presse100 k ( ) science100 k administratif70 k ( ) oral100 k ( )

23 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Annotation syntaxique (Arboratoire) FrAG (French Annotation Grammar, E. Bick) –http://sandbox.visl.sdu.dk/visl/fr/

24 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Annotation référentielle (Ananas) Analyse syntaxique –étiquetage TreeTagger & constituants + dépendances (VISL) –structure arborescente –correction manuelle partielle Normalisation –format Negra-TIGER + stand-off Extraction GNs –TIGER-Search –XSL Annotation référentielle –filtrage semi-manuel des GN référentiels –annotation manuelle (double annotation + évaluation accord)

25 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Granularité, versions, corrections Nouveau dépôt –ressource + niveaux de description –méta-données (catégories de données, évaluation, annotateur) –extraction de GN => catégorisation entités nommées –sur-spécification étiquettes morpho-syntaxiques –correction manuelle des dépendances syntaxiques Niveau de description « Jardin à la française » « Jardin botanique » « Forêt vierge » structure (TEI)oui ? étiquetageouipartiellementnon syntaxeouipartiellementnon référenceouipartiellementnon

26 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Bilan & Perspectives Base évolutive, cohérente et générique –analyse des pratiques linguistiques et des besoins TALN –abstraction, modélisation, implémentation –suivi des initiatives internationales Outils & Interface –outils de restitution visuelle des corpus –évaluation de laccord entre plusieurs annotations –statistiques accès & téléchargement –gestion des versions Ouverture –à dautres types de ressources –lexiques morphologiques, syntaxiques, sémantiques

27 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Et en plus, ça existe vraiment…


Télécharger ppt "Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)"

Présentations similaires


Annonces Google