Normalisation pour les corpus et les lexiques multilingues

Slides:



Advertisements
Présentations similaires
Rosa María Gómez de Regil Educatice, 25 novembre 2010
Advertisements

Présenté à Par. 2 3Termes et définitions 3.7 compétence aptitude à mettre en pratique des connaissances et un savoir-faire pour obtenir les résultats.
Journée d'information du 26 juin 2008 Projet de recherche BATERI BAnc de TEst pour la Réalisation de lInteropérabilité
Copyright 2008 © Consortium ESUP-Portail ESUP-Days 7, Paris, 3 février 2009 La démarche projet Pascal Aubry.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Thème 3 : plate-forme de modélisation et de gestion de référentiels XML étapes modélisation des structures (UML) gestion du référentiel de modélisation.
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
Urbanisation de Systèmes d'Information
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
Utilisation didactique des extractions lexicales des corpus
UML - Présentation.
1 er décembre 2005Projet ILD&ISTC1 Langues et documents Perspectives.
vers une base libre de corpus annotés
Format dannotations génériques, multi-annotations, multi- documents Présentation ASP navigation 11 avril 2002.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Dématérialisation des échanges entre les commanditaires et les laboratoires Etude de faisabilité Table ronde EDI laboratoires 17 septembre 2002.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Évaluer pour faire apprendre dans une approche par compétences
Le portfolio électronique
INFO-MED Réseau d information méditerranéen Problématique La production et la maîtrise des savoirs contribuent aujourdhui à laccroissement des valeurs.
XML-Family Web Services Description Language W.S.D.L.
Pour un système formel de description linguistique
Il faut… DES SAVOIR-FAIRE!!!
Centre National pour la numérisation de sources visuelles
Web Sémantique: Le Relief Actuel
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Bases de données lexicales
RDF(S)
Recherche Documentaire et traitement de l’information
Introduction à la sociolinguistique
Normes et standards pour les plate-formes de e-learning
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Vers des composants TAL réutilisables
WikiViz La visualisation dun réseau sémantique Travail de diplôme 2005 Urs Richle / 31 it.
OUTILEX Présentation des résultats
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.
Jonathan Montois Cyrille Kriegel
Normalisation des échanges de données en terminologie
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Bases de données phénotypique et ontologie
TRAITEMENT INSTRUMENTÉ DE CORPUS
Web Sémantique et Interopérabilité des Vocabulaires Conceptuels
Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.
Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,
vers une base libre de corpus annotés
Contenus riches et logique d'industrialisation Contenus riches et logique d'industrialisation Modélisation, production, génération, gestion Stéphane Crozat.
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
SMIL Synchronized Multimedia Integration Language
Campus-Booster ID : **XXXXX Copyright © SUPINFO. All rights reserved Le développement Web.
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Application: les terminologies multilingues
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Constitution de bases de données terminologiques sur le web Samuel Jolibois © 19 mars 2005 DESS Terminologie, Bruxelles CTB, Institut Libre Marie Haps.
Module : Langage XML (21h)
Principes et définitions
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Stage à Ontomantics Master Pro TILDE
Le Traitement Automatique des Langues (TAL)
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Introduction Module 1.
Mémoire de fin d’études
Transcription de la présentation:

Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie et corpus multilingues »

Objectifs généraux Partager des ressources (corpus annotés) Partager des outils (annotation, visualisation, accès) Partager des pratiques E.g. recueil de données, manuels d’annotation, méthodes d’évaluation Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

Lexicométrie et corpus multilingues Notion de corpus parallèle ou comparable Point de vue linguistique: role de l’expert Point de vue technique: Adoption de formats « similaires »: codage primaire, niveaux d’annotation Comparaisons de la sémantique des annotations E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?

Lexicométrie et corpus multilingues (suite) Représentation consistante des structures lexicales Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé Croiser les observations avec des dictionnaires existants interopérabilité Deux aspects Organisation générale des entrées lexicales (méta-modèle) Choix des catégories de données permettant de décorer un modèle particulier

Normalisation ? Standard: Norme Pratique d’un groupe de personnes, d’une communauté, choix d’un industriel pour un produit Avantage: flexibilité Difficulté: maintenance (documentation, évolution, compatibilité avec d’autres standards) Norme Officialisation d’une telle pratique par une décision consensuelle sous l’égide d’une organisation « reconnue » et « pérenne » E.g.: W3C, TEI, ISO, IEC, CEN

Que normaliser? Documentation des données Transcription Annotation Permettre l’identification des données existantes et de leurs principales caractéristiques (conditions de recueil, description du contenu, droits associés) Transcription Passage d’un matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques (texte, phonétique) Annotation Accompagne l’étude d’un phénomène, stabilise l’observation

Bases de travail Quelles initiatives devons nous considérer? De multiples projets ont visité le domaine EAGLES, ISLE, Mate, NITE, OLAC, ATLAS Quelques points de référence W3C TEI ISO Autres?

Le W3C World Wide Web Consortium Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio) Apporte des normes (recommandations) horizontales XML, XSLT, chemins, pointeurs, liens RDF, RDFS, OWL SVG, SMIL

La TEI Text Encoding Initiative Les éléments principaux Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire): 2004! Les éléments principaux En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.

ISO Organisation internationale de standardisation Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.) Organisé en comités techniques et sous-comités Couvre tous les domaines

ISO - exemples ISO-IEC/JTC1 E.g. ISO 10646 / Unicode pour l’identification et la représentatioin universelle de caractères ISO/TC 37 (Terminologie et autres ressources linguistiques) SC 1: Méthodes en terminologie SC 2: e.g. Codes langues; ISO 639-1 (en, fr) SC 3: Terminologies informatisés; ISO 16642 (TMF) SC 4: Ressources linguistiques

L’ISO/TC 37/SC 4 Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques Mécanismes de base: e.g. structures de traits Répertoires de catégories de données Processus souple de spécification d’un format d’annotation Domaines abordés/à aborder Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation http://www.tc37sc4.org

LMF: le modèle Lexical DB Global Info Lexical Entry Lexical extensions 1..1 Global Info Lexical Entry 0..n 1..1 Lexical extensions Lexical extension Lexical extension 1..1 Form Sense 0..n 1..1 Lexical extension for morphology Lexical Entry Lexical Entry 1..1 1..1 Lexical extensions 1..1 1..1 Morphology Morphology 0..1 Paradigm 1..1 Flexion 0..n 1..1

Méta-modèle d’un lexique morphologique Lexical DB Entry 0..n 1..1 Global Info Morphology 1..1 Paradigm 0..1 Inflexion 0..n

Décoration du modèle Lexical DB Entry Morphology Paradigm Inflexion 1..1 Morphology Paradigm 0..1 Inflexion 1..1 /lemma/ /POS/ 1..1 Global Info /word form/ /gender/ /number/ /tense/ …

Une entrée du DCR Entry Identifier: gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Object Language: de Name: Geschlecht Conceptual Domain: {/feminine/, /masculine/, /neuter/}

Un format compatible avec le modèle <struct type='lexical entry'> <feat type='lemma'>chat</feat> <feat type=’grammatical category’>noun</feat> <struct type=’morphology’> <struct type=‘paradigm’> <feat type=’paradigm identifier'>fr-s-plural</feat> </struct> <struct type='inflexion'> <feat type='word form'>chat</feat> <feat type=’number’>singular</feat> <feat type='word form'>chats</feat> <feat type=’number’>plural</feat> …

Cas de la morpho-syntaxe Exemple: “du” = “de” + “le” <struct type=”W-level”> <feat type=”source text”>du</feat> <feat type=”lemma”>de</feat> <feat type=”pos”>preposition</feat> </struct> <feat type=”lemma”>le</feat> <feat type=”pos”>determinant</feat> seg : ….………..…….du…. ……………. …………… ………….. ………… Lemma : de Pos : prep Lemma : le Pos : det

Et maintenant… Engagez-vous… ;-) Participation comme expert au sein des groupes nationaux miroir de l’ISO/TC 37/SC 4 Application directes (projets ATILF-Loria) Morphalou: un lexique morphologique ouvert Téléchargement+ patch+fair use FReeBank: une base de ressources libres annotées Dépôt en ligne (En-têtes TEI) Téléchargement d’un simple clic Fair use