Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Application: les terminologies multilingues
TMF - Terminological Markup Framework ISO 16642
2
Objectifs Prendre de la distance par rapport aux formats spécifiques de document La structure d’un document XML passe-t-il par la définition de sa DTD (ou de son schéma) ? E.g.: quel est le lien entre un texte TEI et un texte DocBook… Décrire une étude de cas sur une classe particulière de documents Les terminologies multilingues informatisées
3
Contexte général Représentation de données terminologique informatisées Une variété d’usage Traducteurs, rédacteurs techniques, documentaliste, enseignants, praticiens d’un domaine particulier Base de données, Systèmes de traduction… Une variété de formes et de structures Des bases d’origines diverses (e.g. Union Européenne) Pérennisation de l’information Échanges d’une base vers une autre Publications multiples
6
Lexicographie ou terminologie (1)
Documenter l’étendue lexicale d’une communauté linguistique Terminologie “S’intéresse aux termes, c’est-à-dire les mots ou expressions assignés aux concepts utilisés dans des textes spécialisés” [Handbook of Terminology Management (Budin & Wright)]
7
Lexicographie ou terminologie (2)
Mot + genericité Approche sémasiologique mot > signification(s) Terminologie Terme: correspond à un concept spécifique dans un domaine particulier Approche onomasiologique Concept > formes linguistiques possibles
8
Le modèle « classique » du dictionnaire
Le mot est au centre de la démarche “mot vedette” Ordre alphabétique etc. Conséquences de la perspective sémasiologique Variantes morphosyntaxiques Variations sémantiques, polysémie
9
Richesse du modèle du dictionnaire
Informations morphologiques Caractérisations grammaticales Définitions Synonymes Équivalents de traduction Étymologie Références croisées à d’autres entrées Indications d’usage Exemples
10
Définitions dans le modèle du dictionnaire
Description du mot Aspects lexicographiques (Le fait de…) Aspects encyclopédiques Un sens est décrit soit de façon indépendante, soit en relation avec d’autres significations de mots
11
Parties du discours en terminologie
Principalement : Noms (Abréviations) et verbes Parfois : Adjectifs, adverbes Phraséologie
12
Les Définitions en Terminologie
Définitions terminologiques ? (De Bessé,1997) Une terminologie, c’est à dire tous les termes appartenant à un domaine, constitue un véritable système définitionnel, en ce qu’elle reflète l’organisation structurée du domaine en question. Notion de système conceptuel Définir, c’est : Décrire (un objet) Délimiter (un concept) Distinguer (un concept des autres concepts appartenant au même champ)
13
Les Définitions en Terminologie
Autres informations Indication du domaine Informations encyclopédiques supplémentaires non pertinentes au niveau de la définition elle-même
14
L’approche conceptuelle
15
Exemple
16
Organisation d’une terminologie
Relations conceptuelles
17
Notions de base Système conceptuel, donc : Liens Liens entre concepts
Subordonné à un domaine Liens Hiérarchiques ou hétérarchiques
18
Relations hiérarchiques (1)
X est une sorte de Y Y: générique (plus large) X: spécifique (plus étroit) Y: hyperonyme X: hyponyme (cf. co-hyponymes) The superordinate concept is construed as being a concept that can be subdivided into a number of lower ranking concepts. The subordinate concept is seen as a concept that can be grouped together with at least one more concept of the same level to form a higher ranking concept.
19
Exemple
20
Relations hiérarchiques (2)
Relation partie-tout X est une partie de Y Notion de méréonymie
21
Autres relations Relations séquentielles
Organisation des concepts dans le temps ou l’espace Actions élémentaires dans un processus industriel Parties d’une région côtière Relations associatives/pragmatiques E.g.: voiture-conducteur, cigarette-briquet
22
Représentation de la polysémie
Perspective lexicographique Intégrée dans la structure des entrées Description de plusieurs significations Perspective terminologique Pas considérée a priori Un terme est supposé ne correspondre qu’à u seul concept Éventuellement lié à la notion de domaine
23
Représentation de la synonymie
Perspective lexicographique Liens d’une entrée (ou signification) à une autre Perspective terminologique Intégrée à la structure du concept Indications de variantes Cf. abréviations, variantes orthographiques etc. Concepts “reliés”
24
Conclusions Perspective terminologique : une conception idéaliste
Meilleure identification des significations Perte de finesse linguistique Dictionnaire et Terminologie Deux perspectives complémentaires Faire un choix entre des considérations linguistiques et pratiques
25
Dictionnaires multilingues
Une extension de la perspective monolingue
26
Dictionnaires bilingues
En cohérence avec l’approche lexicographique classique Entrées polysémiques (ou polygrammaticales) Association à des équivalents de traduction Parfois à des sens spécifiques Des informations spécifiques peuvent être associées aux équivalents de traduction
27
Exemple Larousse : Grand dictionnaire (en->fr)
Dart [da:t] n 1. SPORT fléchette f; [weapon] flèche f; to play ~s jouer aux fléchettes … 2. SEW pince f. 3. … vt [glance - look quickly] lancer, jeter; … vi: to ~ away OR off partir en OR comme une flèche …
28
Terminologie multilingue
29
Concept Langue 1 Langue 2 Langue 3 Langue ... Définition Terme 1
Usage Contexte
30
Conséquences Pas de pointeurs vers des équivalents de traduction
Implicites dans la représentation conceptuelle Pourtant : les définitions peuvent garder leur spécificité dans chaque langue Objectifs : évaluer les décalages sémantiques Utilisation d’attestions contextuelles Notion de concept : peut être guidée par la traduction
31
Traduction et polysémie
Exemple : Domaine : biotechnologies fr: agitateur en: stirrer - shaker Vue monolingue : un concept Vue bilingue : deux concepts Vue multilingue : ???
32
Enjeux de la normalisation en terminologie
Eviter des difficultés de compréhension dans des secteurs techniques d’activité Faire reconnaître des procédés (ou produits) et les termes qui les dénomment Promouvoir un savoir, une compétence Permettre des échanges de données Contribuer à l’évaluation des travaux effectués dans un même domaine
33
Normes d ’échanges : bref historique
Micromater TEI, chapitre 13 (SGML!) Martif (ISO , 1999) Fondé sur ISO 12620 Nouveaux projets ISO : Geneter, MSC - DXLT (projet Salt) Olif 2 Entre traduction automatique et terminologie multilingue
34
TMF - Terminological Markup Framework
Une volonté de définir une plate-forme unifiée de représentation de données terminologique multilingues Norme ISO du TC37/SC3
35
Principes généraux Expression de contraintes au niveau de la représentation de terminologies informatisées Quelle est la structure sous-jacente des terminologies informatisées ? Quelle sont les catégories de données utilisées et sous quelles conditions ? Maintient de l’interopérabilité entre représentations Proposer un outil conceptuel pour la comparaison de deux formats donnés
36
Définitions TMF: Terminological Mark-up Framework
Définition de structures sous-jacentes et de mécanismes nécessaires à la représentation informatisée de données terminologiques Indépendance vis-à-vis des formats spécifiques GMT: Generic Mapping Tool Un format XML abstrait équivalent au modèle sous-jacent de TMF TML: Terminological Mark-up Language Une représentation spécifique générée dans le cadre de TMF
37
Une famille de formats…
TMF … TML1 TML2 TML3 TMLi (Geneter) (TBX) GMT
38
Représentation de la structure sous-jacente de données terminologiques
Meta-modèle Représentation de la structure sous-jacente de données terminologiques
39
Complementary Information Term Component Section
TMF – Metamodèle Terminological DC 1..1 1..1 1..1 1..1 0..n 1..1 Global Info Terminological Entry Complementary Information 1..1 0..n Language Section 1..1 0..n Term Section 1..1 0..n Term Component Section
40
Comment cela fonctionne-t’il ?
Un petit exemple…
41
Exemple TBX (cf. www.lisa.org)
<termEntry id="ID67"> <descrip type="subjectField">manufacturing</descrip> <descrip type="definition">A value between 0 and 1 used in ... </descrip> <langSet lang="en"> <tig> <term>alpha smoothing factor</term> <termNote type="termType">fullForm</termNote> </tig> </langSet> <langSet lang="hu"> <term>Alfa ... </term> </termEntry>
42
Identification du squelette structurel
TE: Terminological Entry LS: Language Section TS: Term Section id=‘ID67’ [attribute] subjectField=‘ manufacturing ’ [typedElement] definition=‘A value…’ [typedElement] lang=‘ hu ’ [attribute] lang=‘ en ’ [attribute] term=‘…’ [element] term=‘alpha smoothing factor’ [element] termType=‘fullForm’ [typedElement] TE LS TS
43
Modèle TMF niveau information
id=‘ID67’ subjectField=‘ manufacturing ’ definition=‘A value…’ TE LS LS lang=‘ hu ’ lang=‘ en ’ TS term=‘alpha smoothing factor’ termType=‘fullForm’ term=‘…’ TS
44
Représentation GMT <struct type=“TE”>
<feat type=“id”>ID67</feat> <feat type=“subjectField”>manufacturing</feat> <feat type=“definition”>A value between 0 and 1 used in ...</feat> <struct type=“LS”> <feat type=“lang”>en</feat> <struct type=“TS”> <feat type=“term”>alpha smoothing factor</feat> <feat type=“termType”>fullForm</feat> </struct> <feat type=“lang”>hu</feat> <feat type=“term”>Alfa ...</feat>
45
GMT Répertoire de catégories de données Méta-modèle (Cf. ISO 12620)
DCS: sous-ensemble du DCR Catégories de données propres à l’application Dialecte : Arbres d’expansion Styles + Vocabulaires GMT Conditions d’interopérabilité Terminological Markup Language (TML) DCR - Data Category Registry DCS - Data Category Selection GMT - Generic Mapping Tool
46
Langue objet et langue de travail
identifie la langue dont on parle (information terminologique) [Language section] Langue de travail : dans laquelle on parle (descriptions linguistiques) xml:lang Le terme est le point de rencontre entre la langue objet et la langue de travail appartient à un bloc langue (Langue objet) est décrit dans une langue donnée (Langue de travail)
47
Exemple TERMINOLOGICAL ENTRY /definition/ xml:lang=“fr“
Membre de l'équipage d'un vaisseau spatial LANGUAGE SECTION /language identifier/=“français“ TERM SECTION astronaute TERM SECTION cosmonaute TERM SECTION spationaute /language identifier/=“anglais“ TERM SECTION astronaut TERM SECTION cosmonaut
48
<struct type="terminologicalEntry">
<feat type="definition » xml:lang=“fr“>Membre de l'équipage d'un vaisseau spatial</feat> <struct type="languageSection"> <feat type="languageIdentifier">en</feat> <struct type="termSection"> <feat type="term">astronaut</feat> </struct> <feat type="term">cosmonaut</feat> <struct type="LanguageSection"> <feat type="languageIdentifier">fr</feat> <feat type="term">astronaute</feat> <feat type="term">cosmonaute</feat> <feat type="term">spationaute</feat>
49
Une description formelle
Catégories de données Une description formelle
50
Catégorie de donnée Définition Exemple Role
Descripteur élémentaire utilisé dans une structure linguistique Exemple Champs: /part of speech/, /grammatical gender/ Valeurs: /feminine/, /plural/, /dual/, /ablative case/ Role Caractérisation de la structure (spécification) Identification de sa couverture linguistique (documentation) Espace de référence pour les concepteurs de schémas Vers un répertoire international de catégories de données Data Category Registry (DCR); syntax.loria.fr
51
Différents usages des catégories de donnnées
Documentation Meta-data Spécification de catégories de donnée Schémas XML Méta-modèle FiltresXSLT
52
Contexte technique ISO 11179 (ISO JTC 1/SC 32): métadonnées
Gestion des catégories de données OWL (W3C Sem. Web activity): ontologies Hiérarchies et contraintes sur les catégories de données fr: /noun/ => /grammatical gender/ + /grammatical number/ ISO (ISO TC 37/SC 3): terminologies Aspets multilingues Noms multiples, valeurs propres à une langue
53
XML schema declaration
Lien avec l’ISO 11179 Complex datcat Set of Simple datcats /grammatical gender/ /masculine/ /feminine/ /neuter/ Data element concept Conceptual domain Data element Value domain XML object List of values Implemented as an XML attribute named ‘gen’ m, f, n XML schema declaration <w lemme=“vert” gen=“f”>verte</w>
54
Lien avec OWL (W3C) <owl:Class rdf:ID="Noun">
<rdfs:label xml:lang="fr">Nom</rdfs:label> <rdfs:label xml:lang="en">Noun</rdfs:label> </owl:Class> <owl:Class rdf:ID="CommonNoun"> <rdfs:label xml:lang="fr">Nom commun</rdfs:label> <rdfs:subClassOf rdf:resource="#Noun"/>
55
Le modèle retenu Entry Identifier: grammatical gender
Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Name: grammatical gender Object Language: de Name: Geschlecht Name: Genus Conceptual Domain: {/feminine/, /masculine/, /neuter/}
56
Mise en œuvre Mise en place d’un répertoire unique de catégories de donnée pour l’ingénierie des langues Contexte: Comité ISO/TC 37/SC 4: Gestion de ressources linguistiques Comité miroir RNIL de l’AFNOR (soutien du programme Technolangue) Objectifs Permettre aux concepteurs de définir leurs propres formats Fournir un cadre de référence unique pour comparer leurs descripteurs (e.g. codes de langue, ISO 639) Améliorer l’interopérabilité entre systèmes d’information
57
Registre de catégories de données
Agence de maintenance Vue 1 Vue 2 … Vue n Registre de catégories de données Resource commune Part 1 Harmonisation Bureau (ISO/TC 37) Part 1 Comité 3 Sélection Comité 1 … Terminologie Codes de langue Comité 2 Morpho-syntaxe
58
Bilan Convergence Normalisation Dissémination
Plus de cohérence entre méta-données, web sémantique et terminologie Normalisation Accompagner les initiatives (ISO/TC 37/SC 4): Le développement d’outils réutilisables passe par l’existence de standards pertinents et fiables Dissémination Les mondes académiques et industriels doivent connaître et pratiquer les standards disponibles (e.g. terminologie)
59
Références Romary L. 2001, Un modèle abstrait pour la représentation de terminologies multilingues informatisées, Cahiers de GUTenberg, n°39-40, pp Romary L., 2002, De la sémantique des contenus à la sémantique des structures, in La Recherche d’information sur les réseaux, ADBS Editions. N. Ide and J. Veronis, ed. The Text Encoding Initiative: Background and Contexts. Special triple issue of Computers and the Humanities, 29(3), 1995. ISO/IEC – Specification and Standardization of Data Elements, Parts 1-6. Genève, Organisation internationale de normalisation. ISO – Applications informatiques en terminologie – Format de transfert de données terminologiques exploitables par la machine (MARTIF) – Transfert négocié. Genève, Organisation internationale de normalisation, 1999. ISO – Aides informatiques en terminologie – Catégories de données. Genève, Organisation internationale de normalisation, 1999. ISO Computer Applications in Terminology - TMF, Terminological Markup Framework, Organisation internationale de normalisation, 2003.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.