La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Présentations similaires


Présentation au sujet: "Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)"— Transcription de la présentation:

1 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS) Eckhard Bick (University of Southern Denmark) Laurent Romary (LORIA – INRIA) Jean-Marie Pierrel (ATILF – CNRS)

2 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Survol Trois constats, un objectif et un rêve Terminologie Spécifications architecturales Amorce et état actuel Perspectives Démo –De l’architecture à l’interface –Dépôt et visualisation

3 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Trois constats Manque de corpus annotés –modélisation, apprentissage, évaluation –retard important par rapport à l’anglais Initiatives d’annotation au-delà de la morphologie –syntaxe (Abeillé 2003, Vilnat & al. 2003) –sémantique ? –anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002) –majorité de ressources sous droits et/ou non normalisées Initiatives de mise en ligne de ressources libres –tables LADL/IGM, LEFFF, ABU –Asila, GDR Sémantique, Ananas, Text®, ABU –mais peu de ressources annotées –problèmes d’interfaçage et de mise à jour

4 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Un objectif Espace ouvert de dépôt de ressources libres –pas un simple espace de méta-données (cf. OLAC) –téléchargement et dépôt de ressources brutes ou annotées –dépôt d’annotations sur ressources existantes –méta-annotations –annotations concurrentes –corrections, affinages –annotation d’extraits –pas de validation à priori des annotations –documentation –schémas –pratiques

5 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc … et un rêve Annotations « stand-off » –séparation entre données primaires et annotations –souhaitables pour –annotations concurrentes : comparaison de deux étiqueteurs –annotations non hiérarchiques : antécédents complexes Annotations normalisées –suivi des recommandations (TEI, ISO TC37/SC4, RNIL) –indispensables pour –interfaçage avec outils TAL –évaluation des ressources –pérennisation –partage d’outils de traitement de corpus –documentation partagée

6 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Couverture, corpus, ressource « Couverture linguistique » –conditions de production & contenu linéaire –« Je sais que le langage courant est plein de pièges. » => TALN 2004; S. de Beauvoir, 1976; M. Yaguello, 1978 « Corpus » –collection de données caractérisée par une même couverture linguistique –Le Monde 09/1986, –articles sportif du Monde 09/1986 –corpus contingent vs. intentionnel (Sinclair 1996) « Ressource » –unité physique de dépôt de données relatives à un corpus –Monde scanné (image) –Monde Word –Monde XML POS + arboré (Tiger)

7 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Niveaux de description Ensemble cohérent d’informations explicitées relatif à un corpus donné –analyse humaine ou traitement automatique –instancié par un schéma d’annotation (Ide & Romary, 2001) –propriétés structurelles & catégories de données –typologie –fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours, actes de langage –distinction entre données primaires et secondaires ? –continuum théorique –considération pratique : reconstitution de la couverture linguistique

8 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Architecture Corpus dépend de 0..n 0..1 Typologie informationnelle Source (humaine, logicielle) Schéma d’annotation (langage de codage, DTD, catégories de données) Évaluation (campagne, mesures, résultats) Dépositaire Date de dépôt Couverture Locuteur, conditions spatio- temporelles, … Caractérisations supplémentaires Taille, Genre, … Niveau de description n est composé de n est composé de n est composé de Ressource

9 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut Madame Vauquer, née De Conflans, est une vieille femme qui, depuis quarante ans, tient à Paris une pension bourgeoise établie rue Neuve- Sainte-Geneviève, entre le quartier latin et le faubourg Saint-Marceau. Cette pension, connue sous le nom de la Maison-Vauquer, admet également des hommes et des femmes, des jeunes gens et des vieillards, sans que jamais la médisance ait attaqué les mœurs de ce respectable établissement. Mais aussi depuis trente ans ne s'y était-il jamais vu de jeune personne, et pour qu'un jeune homme y demeure, sa famille doit-elle lui faire une bien maigre pension. Néanmoins, en 1819, époque à laquelle ce drame commence, il s'y trouvait une pauvre jeune fille. En quelque discrédit que soit tombé le mot drame par la manière abusive et

10 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut Madame Vauquer, née De Conflans, est une vieille femme qui, depuis quarante ans, tient à Paris une pension bourgeoise établie rue Neuve - Sainte - Geneviève, entre le quartier latin et le faubourg Saint - Marceau. texte_balisé_tei entités_nommées référence

11 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_balisé_tei entités_nommées référence Madame Vauquer née De Conflans, est une vieille femme qui, depuis quarante ans, tient à Paris …

12 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté texte_balisé_tei entités_nommées référence Madame Vauquer, née De Conflans, est une vieille femme qui

13 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté morpho-syntaxe texte_balisé_tei entités_nommées référence

14 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté morpho-syntaxe texte_balisé_tei entités_nommées référence

15 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Assemblage architectural Corpus : Le Père Goriot (chap. I) texte_brut texte_balisé_tei entités_nommées référence texte_segmenté morpho-syntaxe syntaxe.xml texte_balisé_tei entités_nommées référence …

16 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Amorce Corpus libres de droits –Asila (corpus de dialogue) –Ananas (corpus annotés en anaphores) –+ GDR Sémantique, L’Arboratoire, Easy, Text® –toute contribution est la bienvenue… État actuel GenreTailleTEISeg.BrillCord.TreeTSynt.GNCoref littérature100 k ( ) presse100 k ( ) science100 k administratif70 k ( ) oral100 k ( )

17 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Annotation syntaxique FrAG (French Annotation Grammar, E. Bick) –http://sandbox.visl.sdu.dk/visl/fr/

18 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Annotation référentielle Analyse syntaxique –étiquetage TreeTagger & constituants + dépendances (VISL) –structure arborescente –correction manuelle partielle Normalisation –format Negra-TIGER + stand-off Extraction GNs –TIGER-Search –XSL Annotation référentielle –filtrage semi-manuel des GN référentiels –annotation manuelle (double annotation + évaluation accord)

19 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Granularité, versions, corrections Nouveau dépôt –ressource + niveaux de description –méta-données (catégories de données, évaluation, annotateur) –extraction de GN => catégorisation entités nommées –sur-spécification étiquettes morpho-syntaxiques –correction manuelle des dépendances syntaxiques Niveau de description « Jardin à la française » « Jardin botanique » « Forêt vierge » structure (TEI)oui ? étiquetageouipartiellementnon syntaxeouipartiellementnon référenceouipartiellementnon

20 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Perspectives Contenu de la base –recensement et intégration de corpus bruts ou annotés –méta-données => OLAC Outils & Interface –outils de restitution visuelle des corpus –évaluation de l’accord entre plusieurs annotations –statistiques accès & téléchargement Ouverture –d’autres types de ressources –lexiques morphologiques, syntaxiques, sémantiques

21 Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc Gestion des en-têtes dans la FReeBank ???


Télécharger ppt "Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)"

Présentations similaires


Annonces Google