Normalisation pour les corpus et les lexiques multilingues

Slides:

Advertisements

Présentations similaires

Rosa María Gómez de Regil Educatice, 25 novembre 2010

Advertisements

Présenté à Par. 2 3Termes et définitions 3.7 compétence aptitude à mettre en pratique des connaissances et un savoir-faire pour obtenir les résultats.

Journée d'information du 26 juin 2008 Projet de recherche BATERI BAnc de TEst pour la Réalisation de lInteropérabilité

Copyright 2008 © Consortium ESUP-Portail ESUP-Days 7, Paris, 3 février 2009 La démarche projet Pascal Aubry.

Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)

Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.

Thème 3 : plate-forme de modélisation et de gestion de référentiels XML étapes modélisation des structures (UML) gestion du référentiel de modélisation.

1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.

UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE

Urbanisation de Systèmes d'Information

Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.

Utilisation didactique des extractions lexicales des corpus

UML - Présentation.

1 er décembre 2005Projet ILD&ISTC1 Langues et documents Perspectives.

vers une base libre de corpus annotés

Format dannotations génériques, multi-annotations, multi- documents Présentation ASP navigation 11 avril 2002.

Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline

Dématérialisation des échanges entre les commanditaires et les laboratoires Etude de faisabilité Table ronde EDI laboratoires 17 septembre 2002.

JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.

Évaluer pour faire apprendre dans une approche par compétences

Le portfolio électronique

INFO-MED Réseau d information méditerranéen Problématique La production et la maîtrise des savoirs contribuent aujourdhui à laccroissement des valeurs.

XML-Family Web Services Description Language W.S.D.L.

Pour un système formel de description linguistique

Il faut… DES SAVOIR-FAIRE!!!

Centre National pour la numérisation de sources visuelles

Web Sémantique: Le Relief Actuel

Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.

Bases de données lexicales

Recherche Documentaire et traitement de l’information

Introduction à la sociolinguistique

Normes et standards pour les plate-formes de e-learning

Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.

Vers des composants TAL réutilisables

WikiViz La visualisation dun réseau sémantique Travail de diplôme 2005 Urs Richle / 31 it.

OUTILEX Présentation des résultats

Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.

Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions

La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,

Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.

Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.

Jonathan Montois Cyrille Kriegel

Normalisation des échanges de données en terminologie

UN THESAURUS Pourquoi ? Pour qui ? Comment ?

Bases de données phénotypique et ontologie

TRAITEMENT INSTRUMENTÉ DE CORPUS

Web Sémantique et Interopérabilité des Vocabulaires Conceptuels

Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.

Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

vers une base libre de corpus annotés

Contenus riches et logique d'industrialisation Contenus riches et logique d'industrialisation Modélisation, production, génération, gestion Stéphane Crozat.

Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO

SMIL Synchronized Multimedia Integration Language

Campus-Booster ID : **XXXXX Copyright © SUPINFO. All rights reserved Le développement Web.

Techniques documentaires et veille stratégique Anne Pajard, avril 2008

Application: les terminologies multilingues

Reveal-This Ou comment générer des métadonnées utiles automatiquement.

Constitution de bases de données terminologiques sur le web Samuel Jolibois © 19 mars 2005 DESS Terminologie, Bruxelles CTB, Institut Libre Marie Haps.

Module : Langage XML (21h)

Principes et définitions

La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?

Stage à Ontomantics Master Pro TILDE

Le Traitement Automatique des Langues (TAL)

Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.

Introduction Module 1.

Mémoire de fin d’études

Transcription de la présentation:

Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie et corpus multilingues »

Objectifs généraux Partager des ressources (corpus annotés) Partager des outils (annotation, visualisation, accès) Partager des pratiques E.g. recueil de données, manuels d’annotation, méthodes d’évaluation Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

Lexicométrie et corpus multilingues Notion de corpus parallèle ou comparable Point de vue linguistique: role de l’expert Point de vue technique: Adoption de formats « similaires »: codage primaire, niveaux d’annotation Comparaisons de la sémantique des annotations E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?

Lexicométrie et corpus multilingues (suite) Représentation consistante des structures lexicales Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé Croiser les observations avec des dictionnaires existants interopérabilité Deux aspects Organisation générale des entrées lexicales (méta-modèle) Choix des catégories de données permettant de décorer un modèle particulier

Normalisation ? Standard: Norme Pratique d’un groupe de personnes, d’une communauté, choix d’un industriel pour un produit Avantage: flexibilité Difficulté: maintenance (documentation, évolution, compatibilité avec d’autres standards) Norme Officialisation d’une telle pratique par une décision consensuelle sous l’égide d’une organisation « reconnue » et « pérenne » E.g.: W3C, TEI, ISO, IEC, CEN

Que normaliser? Documentation des données Transcription Annotation Permettre l’identification des données existantes et de leurs principales caractéristiques (conditions de recueil, description du contenu, droits associés) Transcription Passage d’un matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques (texte, phonétique) Annotation Accompagne l’étude d’un phénomène, stabilise l’observation

Bases de travail Quelles initiatives devons nous considérer? De multiples projets ont visité le domaine EAGLES, ISLE, Mate, NITE, OLAC, ATLAS Quelques points de référence W3C TEI ISO Autres?

Le W3C World Wide Web Consortium Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio) Apporte des normes (recommandations) horizontales XML, XSLT, chemins, pointeurs, liens RDF, RDFS, OWL SVG, SMIL

La TEI Text Encoding Initiative Les éléments principaux Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire): 2004! Les éléments principaux En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.

ISO Organisation internationale de standardisation Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.) Organisé en comités techniques et sous-comités Couvre tous les domaines

ISO - exemples ISO-IEC/JTC1 E.g. ISO 10646 / Unicode pour l’identification et la représentatioin universelle de caractères ISO/TC 37 (Terminologie et autres ressources linguistiques) SC 1: Méthodes en terminologie SC 2: e.g. Codes langues; ISO 639-1 (en, fr) SC 3: Terminologies informatisés; ISO 16642 (TMF) SC 4: Ressources linguistiques

L’ISO/TC 37/SC 4 Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques Mécanismes de base: e.g. structures de traits Répertoires de catégories de données Processus souple de spécification d’un format d’annotation Domaines abordés/à aborder Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation http://www.tc37sc4.org

LMF: le modèle Lexical DB Global Info Lexical Entry Lexical extensions 1..1 Global Info Lexical Entry 0..n 1..1 Lexical extensions Lexical extension Lexical extension 1..1 Form Sense 0..n 1..1 Lexical extension for morphology Lexical Entry Lexical Entry 1..1 1..1 Lexical extensions 1..1 1..1 Morphology Morphology 0..1 Paradigm 1..1 Flexion 0..n 1..1

Méta-modèle d’un lexique morphologique Lexical DB Entry 0..n 1..1 Global Info Morphology 1..1 Paradigm 0..1 Inflexion 0..n

Décoration du modèle Lexical DB Entry Morphology Paradigm Inflexion 1..1 Morphology Paradigm 0..1 Inflexion 1..1 /lemma/ /POS/ 1..1 Global Info /word form/ /gender/ /number/ /tense/ …

Une entrée du DCR Entry Identifier: gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Object Language: de Name: Geschlecht Conceptual Domain: {/feminine/, /masculine/, /neuter/}

Un format compatible avec le modèle <struct type='lexical entry'> <feat type='lemma'>chat</feat> <feat type=’grammatical category’>noun</feat> <struct type=’morphology’> <struct type=‘paradigm’> <feat type=’paradigm identifier'>fr-s-plural</feat> </struct> <struct type='inflexion'> <feat type='word form'>chat</feat> <feat type=’number’>singular</feat> <feat type='word form'>chats</feat> <feat type=’number’>plural</feat> …

Cas de la morpho-syntaxe Exemple: “du” = “de” + “le” <struct type=”W-level”> <feat type=”source text”>du</feat> <feat type=”lemma”>de</feat> <feat type=”pos”>preposition</feat> </struct> <feat type=”lemma”>le</feat> <feat type=”pos”>determinant</feat> seg : ….………..…….du…. ……………. …………… ………….. ………… Lemma : de Pos : prep Lemma : le Pos : det

Et maintenant… Engagez-vous… ;-) Participation comme expert au sein des groupes nationaux miroir de l’ISO/TC 37/SC 4 Application directes (projets ATILF-Loria) Morphalou: un lexique morphologique ouvert Téléchargement+ patch+fair use FReeBank: une base de ressources libres annotées Dépôt en ligne (En-têtes TEI) Téléchargement d’un simple clic Fair use