Application: les terminologies multilingues TMF - Terminological Markup Framework ISO 16642
Objectifs Prendre de la distance par rapport aux formats spécifiques de document La structure d’un document XML passe-t-il par la définition de sa DTD (ou de son schéma) ? E.g.: quel est le lien entre un texte TEI et un texte DocBook… Décrire une étude de cas sur une classe particulière de documents Les terminologies multilingues informatisées
Contexte général Représentation de données terminologique informatisées Une variété d’usage Traducteurs, rédacteurs techniques, documentaliste, enseignants, praticiens d’un domaine particulier Base de données, Systèmes de traduction… Une variété de formes et de structures Des bases d’origines diverses (e.g. Union Européenne) Pérennisation de l’information Échanges d’une base vers une autre Publications multiples
Lexicographie ou terminologie (1) Documenter l’étendue lexicale d’une communauté linguistique Terminologie “S’intéresse aux termes, c’est-à-dire les mots ou expressions assignés aux concepts utilisés dans des textes spécialisés” [Handbook of Terminology Management (Budin & Wright)]
Lexicographie ou terminologie (2) Mot + genericité Approche sémasiologique mot > signification(s) Terminologie Terme: correspond à un concept spécifique dans un domaine particulier Approche onomasiologique Concept > formes linguistiques possibles
Le modèle « classique » du dictionnaire Le mot est au centre de la démarche “mot vedette” Ordre alphabétique etc. Conséquences de la perspective sémasiologique Variantes morphosyntaxiques Variations sémantiques, polysémie
Richesse du modèle du dictionnaire Informations morphologiques Caractérisations grammaticales Définitions Synonymes Équivalents de traduction Étymologie Références croisées à d’autres entrées Indications d’usage Exemples
Définitions dans le modèle du dictionnaire Description du mot Aspects lexicographiques (Le fait de…) Aspects encyclopédiques Un sens est décrit soit de façon indépendante, soit en relation avec d’autres significations de mots
Parties du discours en terminologie Principalement : Noms (Abréviations) et verbes Parfois : Adjectifs, adverbes Phraséologie
Les Définitions en Terminologie Définitions terminologiques ? (De Bessé,1997) Une terminologie, c’est à dire tous les termes appartenant à un domaine, constitue un véritable système définitionnel, en ce qu’elle reflète l’organisation structurée du domaine en question. Notion de système conceptuel Définir, c’est : Décrire (un objet) Délimiter (un concept) Distinguer (un concept des autres concepts appartenant au même champ)
Les Définitions en Terminologie Autres informations Indication du domaine Informations encyclopédiques supplémentaires non pertinentes au niveau de la définition elle-même
L’approche conceptuelle
Exemple
Organisation d’une terminologie Relations conceptuelles
Notions de base Système conceptuel, donc : Liens Liens entre concepts Subordonné à un domaine Liens Hiérarchiques ou hétérarchiques
Relations hiérarchiques (1) X est une sorte de Y Y: générique (plus large) X: spécifique (plus étroit) Y: hyperonyme X: hyponyme (cf. co-hyponymes) The superordinate concept is construed as being a concept that can be subdivided into a number of lower ranking concepts. The subordinate concept is seen as a concept that can be grouped together with at least one more concept of the same level to form a higher ranking concept.
Exemple
Relations hiérarchiques (2) Relation partie-tout X est une partie de Y Notion de méréonymie
Autres relations Relations séquentielles Organisation des concepts dans le temps ou l’espace Actions élémentaires dans un processus industriel Parties d’une région côtière Relations associatives/pragmatiques E.g.: voiture-conducteur, cigarette-briquet
Représentation de la polysémie Perspective lexicographique Intégrée dans la structure des entrées Description de plusieurs significations Perspective terminologique Pas considérée a priori Un terme est supposé ne correspondre qu’à u seul concept Éventuellement lié à la notion de domaine
Représentation de la synonymie Perspective lexicographique Liens d’une entrée (ou signification) à une autre Perspective terminologique Intégrée à la structure du concept Indications de variantes Cf. abréviations, variantes orthographiques etc. Concepts “reliés”
Conclusions Perspective terminologique : une conception idéaliste Meilleure identification des significations Perte de finesse linguistique Dictionnaire et Terminologie Deux perspectives complémentaires Faire un choix entre des considérations linguistiques et pratiques
Dictionnaires multilingues Une extension de la perspective monolingue
Dictionnaires bilingues En cohérence avec l’approche lexicographique classique Entrées polysémiques (ou polygrammaticales) Association à des équivalents de traduction Parfois à des sens spécifiques Des informations spécifiques peuvent être associées aux équivalents de traduction
Exemple Larousse : Grand dictionnaire (en->fr) Dart [da:t] n 1. SPORT fléchette f; [weapon] flèche f; to play ~s jouer aux fléchettes … 2. SEW pince f. 3. … vt [glance - look quickly] lancer, jeter; … vi: to ~ away OR off partir en OR comme une flèche …
Terminologie multilingue
Concept Langue 1 Langue 2 Langue 3 Langue ... Définition Terme 1 Usage Contexte
Conséquences Pas de pointeurs vers des équivalents de traduction Implicites dans la représentation conceptuelle Pourtant : les définitions peuvent garder leur spécificité dans chaque langue Objectifs : évaluer les décalages sémantiques Utilisation d’attestions contextuelles Notion de concept : peut être guidée par la traduction
Traduction et polysémie Exemple : Domaine : biotechnologies fr: agitateur en: stirrer - shaker Vue monolingue : un concept Vue bilingue : deux concepts Vue multilingue : ???
Enjeux de la normalisation en terminologie Eviter des difficultés de compréhension dans des secteurs techniques d’activité Faire reconnaître des procédés (ou produits) et les termes qui les dénomment Promouvoir un savoir, une compétence Permettre des échanges de données Contribuer à l’évaluation des travaux effectués dans un même domaine
Normes d ’échanges : bref historique Micromater TEI, chapitre 13 (SGML!) Martif (ISO 12 200, 1999) Fondé sur ISO 12620 Nouveaux projets ISO : Geneter, MSC - DXLT (projet Salt) Olif 2 Entre traduction automatique et terminologie multilingue
TMF - Terminological Markup Framework Une volonté de définir une plate-forme unifiée de représentation de données terminologique multilingues Norme ISO 16642 du TC37/SC3
Principes généraux Expression de contraintes au niveau de la représentation de terminologies informatisées Quelle est la structure sous-jacente des terminologies informatisées ? Quelle sont les catégories de données utilisées et sous quelles conditions ? Maintient de l’interopérabilité entre représentations Proposer un outil conceptuel pour la comparaison de deux formats donnés
Définitions TMF: Terminological Mark-up Framework Définition de structures sous-jacentes et de mécanismes nécessaires à la représentation informatisée de données terminologiques Indépendance vis-à-vis des formats spécifiques GMT: Generic Mapping Tool Un format XML abstrait équivalent au modèle sous-jacent de TMF TML: Terminological Mark-up Language Une représentation spécifique générée dans le cadre de TMF
Une famille de formats… TMF … TML1 TML2 TML3 TMLi (Geneter) (TBX) GMT
Représentation de la structure sous-jacente de données terminologiques Meta-modèle Représentation de la structure sous-jacente de données terminologiques
Complementary Information Term Component Section TMF – Metamodèle Terminological DC 1..1 1..1 1..1 1..1 0..n 1..1 Global Info Terminological Entry Complementary Information 1..1 0..n Language Section 1..1 0..n Term Section 1..1 0..n Term Component Section
Comment cela fonctionne-t’il ? Un petit exemple…
Exemple TBX (cf. www.lisa.org) <termEntry id="ID67"> <descrip type="subjectField">manufacturing</descrip> <descrip type="definition">A value between 0 and 1 used in ... </descrip> <langSet lang="en"> <tig> <term>alpha smoothing factor</term> <termNote type="termType">fullForm</termNote> </tig> </langSet> <langSet lang="hu"> <term>Alfa ... </term> </termEntry>
Identification du squelette structurel TE: Terminological Entry LS: Language Section TS: Term Section id=‘ID67’ [attribute] subjectField=‘ manufacturing ’ [typedElement] definition=‘A value…’ [typedElement] lang=‘ hu ’ [attribute] lang=‘ en ’ [attribute] term=‘…’ [element] term=‘alpha smoothing factor’ [element] termType=‘fullForm’ [typedElement] TE LS TS
Modèle TMF niveau information id=‘ID67’ subjectField=‘ manufacturing ’ definition=‘A value…’ TE LS LS lang=‘ hu ’ lang=‘ en ’ TS term=‘alpha smoothing factor’ termType=‘fullForm’ term=‘…’ TS
Représentation GMT <struct type=“TE”> <feat type=“id”>ID67</feat> <feat type=“subjectField”>manufacturing</feat> <feat type=“definition”>A value between 0 and 1 used in ...</feat> <struct type=“LS”> <feat type=“lang”>en</feat> <struct type=“TS”> <feat type=“term”>alpha smoothing factor</feat> <feat type=“termType”>fullForm</feat> </struct> <feat type=“lang”>hu</feat> <feat type=“term”>Alfa ...</feat>
GMT Répertoire de catégories de données Méta-modèle (Cf. ISO 12620) DCS: sous-ensemble du DCR Catégories de données propres à l’application Dialecte : Arbres d’expansion Styles + Vocabulaires GMT Conditions d’interopérabilité Terminological Markup Language (TML) DCR - Data Category Registry DCS - Data Category Selection GMT - Generic Mapping Tool
Langue objet et langue de travail identifie la langue dont on parle (information terminologique) [Language section] Langue de travail : dans laquelle on parle (descriptions linguistiques) xml:lang Le terme est le point de rencontre entre la langue objet et la langue de travail appartient à un bloc langue (Langue objet) est décrit dans une langue donnée (Langue de travail)
Exemple TERMINOLOGICAL ENTRY /definition/ xml:lang=“fr“ Membre de l'équipage d'un vaisseau spatial LANGUAGE SECTION /language identifier/=“français“ TERM SECTION astronaute TERM SECTION cosmonaute TERM SECTION spationaute /language identifier/=“anglais“ TERM SECTION astronaut TERM SECTION cosmonaut
<struct type="terminologicalEntry"> <feat type="definition » xml:lang=“fr“>Membre de l'équipage d'un vaisseau spatial</feat> <struct type="languageSection"> <feat type="languageIdentifier">en</feat> <struct type="termSection"> <feat type="term">astronaut</feat> </struct> <feat type="term">cosmonaut</feat> <struct type="LanguageSection"> <feat type="languageIdentifier">fr</feat> <feat type="term">astronaute</feat> <feat type="term">cosmonaute</feat> <feat type="term">spationaute</feat>
Une description formelle Catégories de données Une description formelle
Catégorie de donnée Définition Exemple Role Descripteur élémentaire utilisé dans une structure linguistique Exemple Champs: /part of speech/, /grammatical gender/ Valeurs: /feminine/, /plural/, /dual/, /ablative case/ Role Caractérisation de la structure (spécification) Identification de sa couverture linguistique (documentation) Espace de référence pour les concepteurs de schémas Vers un répertoire international de catégories de données Data Category Registry (DCR); syntax.loria.fr
Différents usages des catégories de donnnées Documentation Meta-data Spécification de catégories de donnée Schémas XML Méta-modèle FiltresXSLT
Contexte technique ISO 11179 (ISO JTC 1/SC 32): métadonnées Gestion des catégories de données OWL (W3C Sem. Web activity): ontologies Hiérarchies et contraintes sur les catégories de données fr: /noun/ => /grammatical gender/ + /grammatical number/ ISO 16642 (ISO TC 37/SC 3): terminologies Aspets multilingues Noms multiples, valeurs propres à une langue
XML schema declaration Lien avec l’ISO 11179 Complex datcat Set of Simple datcats /grammatical gender/ /masculine/ /feminine/ /neuter/ Data element concept Conceptual domain Data element Value domain XML object List of values Implemented as an XML attribute named ‘gen’ m, f, n XML schema declaration <w lemme=“vert” gen=“f”>verte</w>
Lien avec OWL (W3C) <owl:Class rdf:ID="Noun"> <rdfs:label xml:lang="fr">Nom</rdfs:label> <rdfs:label xml:lang="en">Noun</rdfs:label> </owl:Class> <owl:Class rdf:ID="CommonNoun"> <rdfs:label xml:lang="fr">Nom commun</rdfs:label> <rdfs:subClassOf rdf:resource="#Noun"/>
Le modèle retenu Entry Identifier: grammatical gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Name: grammatical gender Object Language: de Name: Geschlecht Name: Genus Conceptual Domain: {/feminine/, /masculine/, /neuter/}
Mise en œuvre Mise en place d’un répertoire unique de catégories de donnée pour l’ingénierie des langues Contexte: Comité ISO/TC 37/SC 4: Gestion de ressources linguistiques http://www.tc37sc4.org Comité miroir RNIL de l’AFNOR (soutien du programme Technolangue) Objectifs Permettre aux concepteurs de définir leurs propres formats Fournir un cadre de référence unique pour comparer leurs descripteurs (e.g. codes de langue, ISO 639) Améliorer l’interopérabilité entre systèmes d’information
Registre de catégories de données Agence de maintenance Vue 1 Vue 2 … Vue n Registre de catégories de données Resource commune Part 1 Harmonisation Bureau (ISO/TC 37) Part 1 Comité 3 Sélection Comité 1 … Terminologie Codes de langue Comité 2 Morpho-syntaxe
Bilan Convergence Normalisation Dissémination Plus de cohérence entre méta-données, web sémantique et terminologie Normalisation Accompagner les initiatives (ISO/TC 37/SC 4): Le développement d’outils réutilisables passe par l’existence de standards pertinents et fiables Dissémination Les mondes académiques et industriels doivent connaître et pratiquer les standards disponibles (e.g. terminologie)
Références Romary L. 2001, Un modèle abstrait pour la représentation de terminologies multilingues informatisées, Cahiers de GUTenberg, n°39-40, pp. 81-88 Romary L., 2002, De la sémantique des contenus à la sémantique des structures, in La Recherche d’information sur les réseaux, ADBS Editions. N. Ide and J. Veronis, ed. The Text Encoding Initiative: Background and Contexts. Special triple issue of Computers and the Humanities, 29(3), 1995. ISO/IEC 11179 – Specification and Standardization of Data Elements, Parts 1-6. Genève, Organisation internationale de normalisation. ISO 12200 – Applications informatiques en terminologie – Format de transfert de données terminologiques exploitables par la machine (MARTIF) – Transfert négocié. Genève, Organisation internationale de normalisation, 1999. ISO 12620 – Aides informatiques en terminologie – Catégories de données. Genève, Organisation internationale de normalisation, 1999. ISO 16642 - Computer Applications in Terminology - TMF, Terminological Markup Framework, Organisation internationale de normalisation, 2003.