Application: les terminologies multilingues

Slides:



Advertisements
Présentations similaires
& Approche méthodologique
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Quelques pistes pour lavenir Division des Politiques linguistiques - DG IV Conseil de lEurope, Strasbourg, France Le droit des apprenants.
Normalisation pour les corpus et les lexiques multilingues
Journée d'information du 26 juin 2008 Projet de recherche BATERI BAnc de TEst pour la Réalisation de lInteropérabilité
Projet BATERI - journée régionale du 22 octobre 2007 à Grenoble 1 BATERI Banc de Test pour la Réalisation de lInteropérabilité
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
DTD Sylvain Salvati
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
Olivier Kraif, Agnès Tutin LIDILEM
Projet Sample Orchestrator Réunion plénière, 10 octobre 2007 SP2 - Indexation audio et navigation par le contenu Equipe Perception et Design Sonores A.
Urbanisation des Systèmes d'Information - Henry Boccon-Gibod1 Urbanisation de système d'information PLM 4 (Product Lifecycle Management) Préoccupation.
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Urbanisation de Systèmes d'Information
Recherche-Action-Formation Quelles questions se poser ? Bernadette Charlier BIE 14 juin
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
Ontologie, Méta-données, Sémiotiques
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
ETAPES DE LA RECHERCHE DOCUMENTAIRE
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Rénovation de la filière STL - PNF Biotechnologies - 1 et 2 décembre 2011 LES BIOTECHNOLOGIES Une culture technologique.
Etude des Technologies du Web services
XML-Family Web Services Description Language W.S.D.L.
Initiation à la conception de systèmes d'information
Web Sémantique: Le Relief Actuel
Introduction à la conception de Bases de Données Relationnelles
Tous les mercredis du 3 octobre au 19 décembre 2012
Le Travail Collaboratif ...
RDF(S)
Etude globale de système.
Notions sur le XML Réfs : manuel p 149. Introduction Le XML (eXtensible Markup Language) est un standard d'échange de données. Il fait partie comme le.
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Présentation du mémoire
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Catalogage de données Notions, enjeux et initiatives actuelles.
Normalisation des échanges de données en terminologie
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Réaliser et diffuser un projet intégrant les TIC
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,
XML-schema. Pourquoi XML-schema Les DTD : Pas de typage, peu de contraintes sur les contenus nombre d'apparitions d'un élément à choisir entre 0 et 1.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
1 BEP métiers de l’électronique Déroulement de l’examen (Candidats scolarisés)
Comment utiliser un dictionnaire
Le système informatique et le système d’information
Intégration de schémas
Initiation à la conception des systèmes d'informations
François CARCENAC,Frédéric BONIOL ONERA-DTIM Zoubir MAMMERI IRIT
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Management de la qualité
Spécialités Gestion et Finance Ressources humaines et communication
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
TMF schemas NV General architecture Abst. Struct. (TMF) DCS ref (ISO12620) DCS i -subset add. cat. Virtual TML XML Dialecte i Vocab.
Soutenance du mémoire de synthèse
Constitution de bases de données terminologiques sur le web Samuel Jolibois © 19 mars 2005 DESS Terminologie, Bruxelles CTB, Institut Libre Marie Haps.
Module : Langage XML (21h)
Hiver 2004SEG2501 Chapître 41 Chapître 4 SDL – structure d’un système et son comportement.
Stage à Ontomantics Master Pro TILDE
Le Traitement Automatique des Langues (TAL)
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
les compétences des élèves dans le domaine du vocabulaire
Introduction à la Programmation Orientée Objet
Introduction Module 1.
Echanges de données géographiques Sandre Geography Markup Language (GML) GIGE 2014 – Dimitri MEUNIER.
1 Point Modélisation – ZHI 2.0 – MDO 2.0. Groupes ADD-GIGE 24/09/ ZHI 2.0.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Transcription de la présentation:

Application: les terminologies multilingues TMF - Terminological Markup Framework ISO 16642

Objectifs Prendre de la distance par rapport aux formats spécifiques de document La structure d’un document XML passe-t-il par la définition de sa DTD (ou de son schéma) ? E.g.: quel est le lien entre un texte TEI et un texte DocBook… Décrire une étude de cas sur une classe particulière de documents Les terminologies multilingues informatisées

Contexte général Représentation de données terminologique informatisées Une variété d’usage Traducteurs, rédacteurs techniques, documentaliste, enseignants, praticiens d’un domaine particulier Base de données, Systèmes de traduction… Une variété de formes et de structures Des bases d’origines diverses (e.g. Union Européenne) Pérennisation de l’information Échanges d’une base vers une autre Publications multiples

Lexicographie ou terminologie (1) Documenter l’étendue lexicale d’une communauté linguistique Terminologie “S’intéresse aux termes, c’est-à-dire les mots ou expressions assignés aux concepts utilisés dans des textes spécialisés” [Handbook of Terminology Management (Budin & Wright)]

Lexicographie ou terminologie (2) Mot + genericité Approche sémasiologique mot > signification(s) Terminologie Terme: correspond à un concept spécifique dans un domaine particulier Approche onomasiologique Concept > formes linguistiques possibles

Le modèle « classique » du dictionnaire Le mot est au centre de la démarche “mot vedette” Ordre alphabétique etc. Conséquences de la perspective sémasiologique Variantes morphosyntaxiques Variations sémantiques, polysémie

Richesse du modèle du dictionnaire Informations morphologiques Caractérisations grammaticales Définitions Synonymes Équivalents de traduction Étymologie Références croisées à d’autres entrées Indications d’usage Exemples

Définitions dans le modèle du dictionnaire Description du mot Aspects lexicographiques (Le fait de…) Aspects encyclopédiques Un sens est décrit soit de façon indépendante, soit en relation avec d’autres significations de mots

Parties du discours en terminologie Principalement : Noms (Abréviations) et verbes Parfois : Adjectifs, adverbes Phraséologie

Les Définitions en Terminologie Définitions terminologiques ? (De Bessé,1997) Une terminologie, c’est à dire tous les termes appartenant à un domaine, constitue un véritable système définitionnel, en ce qu’elle reflète l’organisation structurée du domaine en question. Notion de système conceptuel Définir, c’est : Décrire (un objet) Délimiter (un concept) Distinguer (un concept des autres concepts appartenant au même champ)

Les Définitions en Terminologie Autres informations Indication du domaine Informations encyclopédiques supplémentaires non pertinentes au niveau de la définition elle-même

L’approche conceptuelle

Exemple

Organisation d’une terminologie Relations conceptuelles

Notions de base Système conceptuel, donc : Liens Liens entre concepts Subordonné à un domaine Liens Hiérarchiques ou hétérarchiques

Relations hiérarchiques (1) X est une sorte de Y Y: générique (plus large) X: spécifique (plus étroit) Y: hyperonyme X: hyponyme (cf. co-hyponymes) The superordinate concept is construed as being a concept that can be subdivided into a number of lower ranking concepts. The subordinate concept is seen as a concept that can be grouped together with at least one more concept of the same level to form a higher ranking concept.

Exemple

Relations hiérarchiques (2) Relation partie-tout X est une partie de Y Notion de méréonymie

Autres relations Relations séquentielles Organisation des concepts dans le temps ou l’espace Actions élémentaires dans un processus industriel Parties d’une région côtière Relations associatives/pragmatiques E.g.: voiture-conducteur, cigarette-briquet

Représentation de la polysémie Perspective lexicographique Intégrée dans la structure des entrées Description de plusieurs significations Perspective terminologique Pas considérée a priori Un terme est supposé ne correspondre qu’à u seul concept Éventuellement lié à la notion de domaine

Représentation de la synonymie Perspective lexicographique Liens d’une entrée (ou signification) à une autre Perspective terminologique Intégrée à la structure du concept Indications de variantes Cf. abréviations, variantes orthographiques etc. Concepts “reliés”

Conclusions Perspective terminologique : une conception idéaliste Meilleure identification des significations Perte de finesse linguistique Dictionnaire et Terminologie Deux perspectives complémentaires Faire un choix entre des considérations linguistiques et pratiques

Dictionnaires multilingues Une extension de la perspective monolingue

Dictionnaires bilingues En cohérence avec l’approche lexicographique classique Entrées polysémiques (ou polygrammaticales) Association à des équivalents de traduction Parfois à des sens spécifiques Des informations spécifiques peuvent être associées aux équivalents de traduction

Exemple Larousse : Grand dictionnaire (en->fr) Dart [da:t]  n 1. SPORT fléchette f; [weapon] flèche f; to play ~s jouer aux fléchettes … 2. SEW pince f. 3. …  vt [glance - look quickly] lancer, jeter; …  vi: to ~ away OR off partir en OR comme une flèche …

Terminologie multilingue

Concept Langue 1 Langue 2 Langue 3 Langue ... Définition Terme 1 Usage Contexte

Conséquences Pas de pointeurs vers des équivalents de traduction Implicites dans la représentation conceptuelle Pourtant : les définitions peuvent garder leur spécificité dans chaque langue Objectifs : évaluer les décalages sémantiques Utilisation d’attestions contextuelles Notion de concept : peut être guidée par la traduction

Traduction et polysémie Exemple : Domaine : biotechnologies fr: agitateur en: stirrer - shaker Vue monolingue : un concept Vue bilingue : deux concepts Vue multilingue : ???

Enjeux de la normalisation en terminologie Eviter des difficultés de compréhension dans des secteurs techniques d’activité Faire reconnaître des procédés (ou produits) et les termes qui les dénomment Promouvoir un savoir, une compétence Permettre des échanges de données Contribuer à l’évaluation des travaux effectués dans un même domaine

Normes d ’échanges : bref historique Micromater TEI, chapitre 13 (SGML!) Martif (ISO 12 200, 1999) Fondé sur ISO 12620 Nouveaux projets ISO : Geneter, MSC - DXLT (projet Salt) Olif 2 Entre traduction automatique et terminologie multilingue

TMF - Terminological Markup Framework Une volonté de définir une plate-forme unifiée de représentation de données terminologique multilingues Norme ISO 16642 du TC37/SC3

Principes généraux Expression de contraintes au niveau de la représentation de terminologies informatisées Quelle est la structure sous-jacente des terminologies informatisées ? Quelle sont les catégories de données utilisées et sous quelles conditions ? Maintient de l’interopérabilité entre représentations Proposer un outil conceptuel pour la comparaison de deux formats donnés

Définitions TMF: Terminological Mark-up Framework Définition de structures sous-jacentes et de mécanismes nécessaires à la représentation informatisée de données terminologiques Indépendance vis-à-vis des formats spécifiques GMT: Generic Mapping Tool Un format XML abstrait équivalent au modèle sous-jacent de TMF TML: Terminological Mark-up Language Une représentation spécifique générée dans le cadre de TMF

Une famille de formats… TMF … TML1 TML2 TML3 TMLi (Geneter) (TBX) GMT

Représentation de la structure sous-jacente de données terminologiques Meta-modèle Représentation de la structure sous-jacente de données terminologiques

Complementary Information Term Component Section TMF – Metamodèle Terminological DC 1..1 1..1 1..1 1..1 0..n 1..1 Global Info Terminological Entry Complementary Information 1..1 0..n Language Section 1..1 0..n Term Section 1..1 0..n Term Component Section

Comment cela fonctionne-t’il ? Un petit exemple…

Exemple TBX (cf. www.lisa.org) <termEntry id="ID67"> <descrip type="subjectField">manufacturing</descrip> <descrip type="definition">A value between 0 and 1 used in ... </descrip> <langSet lang="en"> <tig> <term>alpha smoothing factor</term> <termNote type="termType">fullForm</termNote> </tig> </langSet> <langSet lang="hu"> <term>Alfa ... </term> </termEntry>

Identification du squelette structurel TE: Terminological Entry LS: Language Section TS: Term Section id=‘ID67’ [attribute] subjectField=‘ manufacturing ’ [typedElement] definition=‘A value…’ [typedElement] lang=‘ hu ’ [attribute] lang=‘ en ’ [attribute] term=‘…’ [element] term=‘alpha smoothing factor’ [element] termType=‘fullForm’ [typedElement] TE LS TS

Modèle TMF niveau information id=‘ID67’ subjectField=‘ manufacturing ’ definition=‘A value…’ TE LS LS lang=‘ hu ’ lang=‘ en ’ TS term=‘alpha smoothing factor’ termType=‘fullForm’ term=‘…’ TS

Représentation GMT <struct type=“TE”> <feat type=“id”>ID67</feat> <feat type=“subjectField”>manufacturing</feat> <feat type=“definition”>A value between 0 and 1 used in ...</feat> <struct type=“LS”> <feat type=“lang”>en</feat> <struct type=“TS”> <feat type=“term”>alpha smoothing factor</feat> <feat type=“termType”>fullForm</feat> </struct> <feat type=“lang”>hu</feat> <feat type=“term”>Alfa ...</feat>

GMT Répertoire de catégories de données Méta-modèle (Cf. ISO 12620) DCS: sous-ensemble du DCR Catégories de données propres à l’application Dialecte : Arbres d’expansion Styles + Vocabulaires GMT Conditions d’interopérabilité Terminological Markup Language (TML) DCR - Data Category Registry DCS - Data Category Selection GMT - Generic Mapping Tool

Langue objet et langue de travail identifie la langue dont on parle (information terminologique) [Language section] Langue de travail : dans laquelle on parle (descriptions linguistiques) xml:lang Le terme est le point de rencontre entre la langue objet et la langue de travail appartient à un bloc langue (Langue objet) est décrit dans une langue donnée (Langue de travail)

Exemple TERMINOLOGICAL ENTRY /definition/ xml:lang=“fr“ Membre de l'équipage d'un vaisseau spatial LANGUAGE SECTION /language identifier/=“français“ TERM SECTION astronaute TERM SECTION cosmonaute TERM SECTION spationaute /language identifier/=“anglais“ TERM SECTION astronaut TERM SECTION cosmonaut

<struct type="terminologicalEntry"> <feat type="definition » xml:lang=“fr“>Membre de l'équipage d'un vaisseau spatial</feat> <struct type="languageSection"> <feat type="languageIdentifier">en</feat> <struct type="termSection"> <feat type="term">astronaut</feat> </struct> <feat type="term">cosmonaut</feat> <struct type="LanguageSection"> <feat type="languageIdentifier">fr</feat> <feat type="term">astronaute</feat> <feat type="term">cosmonaute</feat> <feat type="term">spationaute</feat>

Une description formelle Catégories de données Une description formelle

Catégorie de donnée Définition Exemple Role Descripteur élémentaire utilisé dans une structure linguistique Exemple Champs: /part of speech/, /grammatical gender/ Valeurs: /feminine/, /plural/, /dual/, /ablative case/ Role Caractérisation de la structure (spécification) Identification de sa couverture linguistique (documentation) Espace de référence pour les concepteurs de schémas Vers un répertoire international de catégories de données Data Category Registry (DCR); syntax.loria.fr

Différents usages des catégories de donnnées Documentation Meta-data Spécification de catégories de donnée Schémas XML Méta-modèle FiltresXSLT

Contexte technique ISO 11179 (ISO JTC 1/SC 32): métadonnées Gestion des catégories de données OWL (W3C Sem. Web activity): ontologies Hiérarchies et contraintes sur les catégories de données fr: /noun/ => /grammatical gender/ + /grammatical number/ ISO 16642 (ISO TC 37/SC 3): terminologies Aspets multilingues Noms multiples, valeurs propres à une langue

XML schema declaration Lien avec l’ISO 11179 Complex datcat Set of Simple datcats /grammatical gender/ /masculine/ /feminine/ /neuter/ Data element concept Conceptual domain Data element Value domain XML object List of values Implemented as an XML attribute named ‘gen’ m, f, n XML schema declaration <w lemme=“vert” gen=“f”>verte</w>

Lien avec OWL (W3C) <owl:Class rdf:ID="Noun"> <rdfs:label xml:lang="fr">Nom</rdfs:label> <rdfs:label xml:lang="en">Noun</rdfs:label> </owl:Class> <owl:Class rdf:ID="CommonNoun"> <rdfs:label xml:lang="fr">Nom commun</rdfs:label> <rdfs:subClassOf rdf:resource="#Noun"/>

Le modèle retenu Entry Identifier: grammatical gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Name: grammatical gender Object Language: de Name: Geschlecht Name: Genus Conceptual Domain: {/feminine/, /masculine/, /neuter/}

Mise en œuvre Mise en place d’un répertoire unique de catégories de donnée pour l’ingénierie des langues Contexte: Comité ISO/TC 37/SC 4: Gestion de ressources linguistiques http://www.tc37sc4.org Comité miroir RNIL de l’AFNOR (soutien du programme Technolangue) Objectifs Permettre aux concepteurs de définir leurs propres formats Fournir un cadre de référence unique pour comparer leurs descripteurs (e.g. codes de langue, ISO 639) Améliorer l’interopérabilité entre systèmes d’information

Registre de catégories de données Agence de maintenance Vue 1 Vue 2 … Vue n Registre de catégories de données Resource commune Part 1 Harmonisation Bureau (ISO/TC 37) Part 1 Comité 3 Sélection Comité 1 … Terminologie Codes de langue Comité 2 Morpho-syntaxe

Bilan Convergence Normalisation Dissémination Plus de cohérence entre méta-données, web sémantique et terminologie Normalisation Accompagner les initiatives (ISO/TC 37/SC 4): Le développement d’outils réutilisables passe par l’existence de standards pertinents et fiables Dissémination Les mondes académiques et industriels doivent connaître et pratiquer les standards disponibles (e.g. terminologie)

Références Romary L. 2001, Un modèle abstrait pour la représentation de terminologies multilingues informatisées, Cahiers de GUTenberg, n°39-40, pp. 81-88 Romary L., 2002, De la sémantique des contenus à la sémantique des structures, in La Recherche d’information sur les réseaux, ADBS Editions. N. Ide and J. Veronis, ed. The Text Encoding Initiative: Background and Contexts. Special triple issue of Computers and the Humanities, 29(3), 1995. ISO/IEC 11179 – Specification and Standardization of Data Elements, Parts 1-6. Genève, Organisation internationale de normalisation. ISO 12200 – Applications informatiques en terminologie – Format de transfert de données terminologiques exploitables par la machine (MARTIF) – Transfert négocié. Genève, Organisation internationale de normalisation, 1999. ISO 12620 – Aides informatiques en terminologie – Catégories de données. Genève, Organisation internationale de normalisation, 1999. ISO 16642 - Computer Applications in Terminology - TMF, Terminological Markup Framework, Organisation internationale de normalisation, 2003.