Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Slides:



Advertisements
Présentations similaires
Rosa María Gómez de Regil Educatice, 25 novembre 2010
Advertisements

Normalisation pour les corpus et les lexiques multilingues
Initiation à l’utilisation du logiciel STATISTICA
Manuel Qualité, Structure et Contenus – optionnel
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Thème 3 : plate-forme de modélisation et de gestion de référentiels XML étapes modélisation des structures (UML) gestion du référentiel de modélisation.
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
JXDVDTEK – Une DVDthèque en Java et XML
Documentation numérique sur l’Internet
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
vers une base libre de corpus annotés
Dématérialisation des échanges entre les commanditaires et les laboratoires Etude de faisabilité Table ronde EDI laboratoires 17 septembre 2002.
Gestion des connaissances
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Travaux pratiques sur Nooj
La mise en place du Règlement sur la diffusion de linformation Un travail déquipe.
Control des objectifs des technologies de l’information COBIT
INFO-MED Réseau d information méditerranéen Problématique La production et la maîtrise des savoirs contribuent aujourdhui à laccroissement des valeurs.
XML-Family Web Services Description Language W.S.D.L.
Pour un système formel de description linguistique
le profil UML en temps réel MARTE
Plugin B pour JEdit Matthias Meusburger Antoine Acquaviva
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 2 : Les applications fonctionnelles.
Web Sémantique: Le Relief Actuel
DeltaPROD Suivi des interventions Gestion de configuration
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
RDF(S)
Recherche Documentaire et traitement de l’information
SCIENCES DE L ’INGENIEUR
Normes et standards pour les plate-formes de e-learning
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Vers des composants TAL réutilisables
WikiViz La visualisation dun réseau sémantique Travail de diplôme 2005 Urs Richle / 31 it.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
An Introduction to distributed applications and ecommerce 1 1 Les services Web, XML et les places de marchés.
Web sémantique : Web de demain
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
De la scénarisation pédagogique à la scénarisation documentaire
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.
Catalogage de données Notions, enjeux et initiatives actuelles.
Jonathan Montois Cyrille Kriegel
Projet de Master première année 2007 / 2008
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI Jean-Jacques DUMÉRY -1-
Chapitre 3 Les bibliothèques de balises JSP et la JSTL
Normalisation des échanges de données en terminologie
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Bases de données phénotypique et ontologie
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
CAPES Lettres Modernes / Cours de grammaire Jean-Paul Meyer
ECOLE DES HAUTES ETUDES COMMERCIALES RECHERCHE MARKETING M. KHERRI Abdenacer Mars
ANALYSE METHODE & OUTILS
Paradigmes des Langages de Programmation
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
vers une base libre de corpus annotés
Epreuve anticipée d’étude de gestion en première STMG
1 L’évaluation de l’Entente entre le MCC et les CRC 19 mai 2005 Colloque SQEP Les résultats générés par la performance organisationnelle.
Supports de formation au SQ Unifié
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Communication dans un SIC : morphologie d’un paysage d’agents
Initiation à la conception des systèmes d'informations
SMIL Synchronized Multimedia Integration Language
Campus-Booster ID : **XXXXX Copyright © SUPINFO. All rights reserved Le développement Web.
Application: les terminologies multilingues
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Le Traitement Automatique des Langues (TAL)
Transcription de la présentation:

Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble, 7 juin 2007

Seite 2 Objectifs généraux  Partager des ressources (corpus annotés)  Contexte : déclaration de Berlin   Partager des outils (annotation, visualisation, accès)  Partager des pratiques  E.g. recueil de données, manuels d’annotation, méthodes d’évaluation  Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

Seite 3 Lexicométrie et corpus multilingues  Notion de corpus parallèle ou comparable  Point de vue linguistique: rôle de l’expert  Point de vue technique:  Adoption de formats « similaires »: codage primaire, niveaux d’annotation  Comparaisons de la sémantique des annotations  E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique  Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?

Seite 4 Lexicométrie et corpus multilingues (suite)  Représentation consistante des structures lexicales  Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé  Croiser les observations avec des dictionnaires existants  interopérabilité  Deux aspects  Organisation générale des entrées lexicales (méta-modèle)  Choix des catégories de données permettant de décorer un modèle particulier

Seite 5  « Couverture linguistique »  conditions de production & contenu linéaire  « Je sais que le langage courant est plein de pièges. » => S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004  « Corpus »  collection de données caractérisée par une même couverture linguistique  Goriot, chap. I  Le Monde 09/1986  articles sportifs du Monde 09/1986  corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000)  « Ressource »  unité physique de dépôt de données relatives à un corpus  Goriot scanné (image)  Goriot texte brut (Word)  Goriot étiqueté + arboré (XML Tiger) Concepts fondamentaux

Seite 6  « Niveau de description »  ensemble cohérent d’informations explicitées relatif à un corpus  fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours  analyse humaine ou traitement automatique  instancié par un schéma d’annotation (Ide & Romary, 2001)  données primaires et secondaires  considération pratique : reconstitution de la couverture  continuum théorique (texte balisé TEI ?)  « Méta-données »  identification et gestion des données Concepts fondamentaux

Seite 7 Organisation linguistique Corpus Couverture Caractérisations supplémentaires … dépend de 0..n 0..1 Typologie informationnelle Source Schéma d’annotation Évaluation Niveau de description n est composé de

Seite 8 Organisation opérationnelle Corpus Dépositaire Date de dépôt Couverture Caractérisations supplémentaires … n est composé de Ressource dépend de 0..n 0..1 Typologie informationnelle Source Schéma d’annotation Évaluation Niveau de description n est composé de n est composé de

Seite 9 Méta-données  Complémentarité des initiatives internationales  Dublin Core, OLAC, IMDI, TEI  convergence sur les descripteurs du TC 37 de l’ISO  répertoire de catégories de données : rôles, codes de langue…  Méta-données utiles pour la FReeBank  pertinence vis-à-vis de corpus, ressource et niveau de description  prévoir des méta-données plus fines à terme  documentation des étiquettes morpho-syntaxiques  caractérisation de données « primaires » / « secondaires »  Méta-données codées sous forme d’en-têtes TEI  dissémination de bonnes pratiques pour la représentation et la transcription  diffusion au format OLAC et IMDI  moissonnage de la FReeBank par les portails correspondants

Seite 10 Exemple « types de discours »  Classification stable dans OLAC  drama, formulaic discourse, interactive discourse, language play, oratory, narrative, procedural discourse, singing, unintelligible speech  Caractérise la composante « niveau de description »  utilisation de / dans l’en-tête TEI  A définir…  opérationnalité de la classification  percolation vers la composante « corpus » ?

Seite 11 Exemple « rôles »  Ensemble complexe de rôles dans OLAC  caractérisation des agents intervenant dans la création, gestion et distribution de données linguistiques  Distribution vis-à-vis de l’architecture de la FReeBank  Corpus  Depositor  Ressource  Depositor, Compiler, Editor, Researcher, Sponsor  Niveau de description  [Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer, Sponsor  [Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder, Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker

Seite 12 Normalisation ?  Standard:  Pratique d’un groupe de personnes, d’une communauté, choix d’un industriel pour un produit  Avantage: flexibilité  Difficulté: maintenance (documentation, évolution, compatibilité avec d’autres standards)  Norme  Officialisation d’une telle pratique par une décision consensuelle sous l’égide d’une organisation « reconnue » et « pérenne »  E.g.: W3C, TEI, ISO, IEC, CEN

Seite 13 Que normaliser?  Documentation des données  Permettre l’identification des données existantes et de leurs principales caractéristiques (conditions de recueil, description du contenu, droits associés)  Transcription  Passage d’un matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques (texte, phonétique)  Annotation  Accompagne l’étude d’un phénomène, stabilise l’observation

Seite 14 Bases de travail  Quelles initiatives devons nous considérer?  De multiples projets ont visité le domaine  EAGLES, ISLE, Mate, NITE, OLAC, ATLAS  Quelques points de référence  W3C  TEI  ISO  Autres?

Seite 15 Le W3C  World Wide Web Consortium  Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio)  Apporte des normes (recommandations) horizontales  XML, XSLT, chemins, pointeurs, liens  RDF, RDFS, OWL  SVG, SMIL  SOAP, WSDL

Seite 16 La TEI  Text Encoding Initiative  Consortium académique à forte orientation sciences humaines  Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire):  Les éléments principaux  En-tête : base documentaire riche  Composants de base : prose, poésie, théâtre, oral…  Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.

Seite 17 ISO  Organisation internationale de standardisation  Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.)  Organisé en comités techniques et sous-comités  Couvre tous les domaines

Seite 18 ISO - exemples  ISO-IEC/JTC1  E.g. ISO / Unicode pour l’identification et la représentatioin universelle de caractères  ISO/TC 37 (Terminologie et autres ressources linguistiques)  SC 1: Méthodes en terminologie  SC 2: e.g. Codes langues; ISO (en, fr)  SC 3: Terminologies informatisés; ISO (TMF)  SC 4: Ressources linguistiques

Seite 19 L’ISO/TC 37/SC 4  Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques  Mécanismes de base: e.g. structures de traits  Répertoires de catégories de données  Processus souple de spécification d’un format d’annotation  Domaines abordés/à aborder  Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation

Seite 20 LMF: le modèle Lexical DB 1..1 Global Info 1..1 Lexical Entry 0..n 1..1 Form 1..1 Sense 0..n n 1..1 Lexical Entry Morphology 1..1 Lexical Entry Morphology 1..1 Lexical extensions Lexical extensions Lexical extension Lexical extension 0..1 Paradigm 1..1 Flexion 0..n 1..1 Lexical extension for morphology

Seite 21 Méta-modèle d’un lexique morphologique Morphology 1..1 Paradigm Inflexion 0..n 1..1 Lexical DB Entry 0..n 1..1 Global Info 1..1

Seite 22 Décoration du modèle Lexical DB Entry 0..n 1..1 Morphology 1..1 Paradigm Inflexion 0..n 1..1 /lemma/ /POS/ /word form/ /gender/ /number/ /tense/ … 1..1 Global Info 1..1

Seite 23 Une entrée du DCR Entry Identifier: grammatical gender Profile:morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Name: grammatical gender Object Language: de Name: Geschlecht Name: Genus Conceptual Domain: {/feminine/, /masculine/, /neuter/}

Seite 24 Un format compatible avec le modèle chat noun fr-s-plural chat singular chats plural …

Seite 25 Application directes  Morphalou:  un lexique morphologique ouvert  Téléchargement+ patch+fair use  FReeBank:  une base de ressources libres annotées  Dépôt en ligne (En-têtes TEI)  Téléchargement d’un simple clic  Fair use  Une institution de référence:  Le CNRTL