La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Application: les terminologies multilingues

Présentations similaires


Présentation au sujet: "Application: les terminologies multilingues"— Transcription de la présentation:

1 Application: les terminologies multilingues
TMF - Terminological Markup Framework ISO 16642

2 Objectifs Prendre de la distance par rapport aux formats spécifiques de document La structure d’un document XML passe-t-il par la définition de sa DTD (ou de son schéma) ? E.g.: quel est le lien entre un texte TEI et un texte DocBook… Décrire une étude de cas sur une classe particulière de documents Les terminologies multilingues informatisées

3 Contexte général Représentation de données terminologique informatisées Une variété d’usage Traducteurs, rédacteurs techniques, documentaliste, enseignants, praticiens d’un domaine particulier Base de données, Systèmes de traduction… Une variété de formes et de structures Des bases d’origines diverses (e.g. Union Européenne) Pérennisation de l’information Échanges d’une base vers une autre Publications multiples

4

5

6 Lexicographie ou terminologie (1)
Documenter l’étendue lexicale d’une communauté linguistique Terminologie “S’intéresse aux termes, c’est-à-dire les mots ou expressions assignés aux concepts utilisés dans des textes spécialisés” [Handbook of Terminology Management (Budin & Wright)]

7 Lexicographie ou terminologie (2)
Mot + genericité Approche sémasiologique mot > signification(s) Terminologie Terme: correspond à un concept spécifique dans un domaine particulier Approche onomasiologique Concept > formes linguistiques possibles

8 Le modèle « classique » du dictionnaire
Le mot est au centre de la démarche “mot vedette” Ordre alphabétique etc. Conséquences de la perspective sémasiologique Variantes morphosyntaxiques Variations sémantiques, polysémie

9 Richesse du modèle du dictionnaire
Informations morphologiques Caractérisations grammaticales Définitions Synonymes Équivalents de traduction Étymologie Références croisées à d’autres entrées Indications d’usage Exemples

10 Définitions dans le modèle du dictionnaire
Description du mot Aspects lexicographiques (Le fait de…) Aspects encyclopédiques Un sens est décrit soit de façon indépendante, soit en relation avec d’autres significations de mots

11 Parties du discours en terminologie
Principalement : Noms (Abréviations) et verbes Parfois : Adjectifs, adverbes Phraséologie

12 Les Définitions en Terminologie
Définitions terminologiques ? (De Bessé,1997) Une terminologie, c’est à dire tous les termes appartenant à un domaine, constitue un véritable système définitionnel, en ce qu’elle reflète l’organisation structurée du domaine en question. Notion de système conceptuel Définir, c’est : Décrire (un objet) Délimiter (un concept) Distinguer (un concept des autres concepts appartenant au même champ)

13 Les Définitions en Terminologie
Autres informations Indication du domaine Informations encyclopédiques supplémentaires non pertinentes au niveau de la définition elle-même

14 L’approche conceptuelle

15 Exemple

16 Organisation d’une terminologie
Relations conceptuelles

17 Notions de base Système conceptuel, donc : Liens Liens entre concepts
Subordonné à un domaine Liens Hiérarchiques ou hétérarchiques

18 Relations hiérarchiques (1)
X est une sorte de Y Y: générique (plus large) X: spécifique (plus étroit) Y: hyperonyme X: hyponyme (cf. co-hyponymes) The superordinate concept is construed as being a concept that can be subdivided into a number of lower ranking concepts. The subordinate concept is seen as a concept that can be grouped together with at least one more concept of the same level to form a higher ranking concept.

19 Exemple

20 Relations hiérarchiques (2)
Relation partie-tout X est une partie de Y Notion de méréonymie

21 Autres relations Relations séquentielles
Organisation des concepts dans le temps ou l’espace Actions élémentaires dans un processus industriel Parties d’une région côtière Relations associatives/pragmatiques E.g.: voiture-conducteur, cigarette-briquet

22 Représentation de la polysémie
Perspective lexicographique Intégrée dans la structure des entrées Description de plusieurs significations Perspective terminologique Pas considérée a priori Un terme est supposé ne correspondre qu’à u seul concept Éventuellement lié à la notion de domaine

23 Représentation de la synonymie
Perspective lexicographique Liens d’une entrée (ou signification) à une autre Perspective terminologique Intégrée à la structure du concept Indications de variantes Cf. abréviations, variantes orthographiques etc. Concepts “reliés”

24 Conclusions Perspective terminologique : une conception idéaliste
Meilleure identification des significations Perte de finesse linguistique Dictionnaire et Terminologie Deux perspectives complémentaires Faire un choix entre des considérations linguistiques et pratiques

25 Dictionnaires multilingues
Une extension de la perspective monolingue

26 Dictionnaires bilingues
En cohérence avec l’approche lexicographique classique Entrées polysémiques (ou polygrammaticales) Association à des équivalents de traduction Parfois à des sens spécifiques Des informations spécifiques peuvent être associées aux équivalents de traduction

27 Exemple Larousse : Grand dictionnaire (en->fr)
Dart [da:t]  n 1. SPORT fléchette f; [weapon] flèche f; to play ~s jouer aux fléchettes … 2. SEW pince f. 3. …  vt [glance - look quickly] lancer, jeter; …  vi: to ~ away OR off partir en OR comme une flèche …

28 Terminologie multilingue

29 Concept Langue 1 Langue 2 Langue 3 Langue ... Définition Terme 1
Usage Contexte

30 Conséquences Pas de pointeurs vers des équivalents de traduction
Implicites dans la représentation conceptuelle Pourtant : les définitions peuvent garder leur spécificité dans chaque langue Objectifs : évaluer les décalages sémantiques Utilisation d’attestions contextuelles Notion de concept : peut être guidée par la traduction

31 Traduction et polysémie
Exemple : Domaine : biotechnologies fr: agitateur en: stirrer - shaker Vue monolingue : un concept Vue bilingue : deux concepts Vue multilingue : ???

32 Enjeux de la normalisation en terminologie
Eviter des difficultés de compréhension dans des secteurs techniques d’activité Faire reconnaître des procédés (ou produits) et les termes qui les dénomment Promouvoir un savoir, une compétence Permettre des échanges de données Contribuer à l’évaluation des travaux effectués dans un même domaine

33 Normes d ’échanges : bref historique
Micromater TEI, chapitre 13 (SGML!) Martif (ISO , 1999) Fondé sur ISO 12620 Nouveaux projets ISO : Geneter, MSC - DXLT (projet Salt) Olif 2 Entre traduction automatique et terminologie multilingue

34 TMF - Terminological Markup Framework
Une volonté de définir une plate-forme unifiée de représentation de données terminologique multilingues Norme ISO du TC37/SC3

35 Principes généraux Expression de contraintes au niveau de la représentation de terminologies informatisées Quelle est la structure sous-jacente des terminologies informatisées ? Quelle sont les catégories de données utilisées et sous quelles conditions ? Maintient de l’interopérabilité entre représentations Proposer un outil conceptuel pour la comparaison de deux formats donnés

36 Définitions TMF: Terminological Mark-up Framework
Définition de structures sous-jacentes et de mécanismes nécessaires à la représentation informatisée de données terminologiques Indépendance vis-à-vis des formats spécifiques GMT: Generic Mapping Tool Un format XML abstrait équivalent au modèle sous-jacent de TMF TML: Terminological Mark-up Language Une représentation spécifique générée dans le cadre de TMF

37 Une famille de formats…
TMF TML1 TML2 TML3 TMLi (Geneter) (TBX) GMT

38 Représentation de la structure sous-jacente de données terminologiques
Meta-modèle Représentation de la structure sous-jacente de données terminologiques

39 Complementary Information Term Component Section
TMF – Metamodèle Terminological DC 1..1 1..1 1..1 1..1 0..n 1..1 Global Info Terminological Entry Complementary Information 1..1 0..n Language Section 1..1 0..n Term Section 1..1 0..n Term Component Section

40 Comment cela fonctionne-t’il ?
Un petit exemple…

41 Exemple TBX (cf. www.lisa.org)
<termEntry id="ID67"> <descrip type="subjectField">manufacturing</descrip> <descrip type="definition">A value between 0 and 1 used in ... </descrip> <langSet lang="en"> <tig> <term>alpha smoothing factor</term> <termNote type="termType">fullForm</termNote> </tig> </langSet> <langSet lang="hu"> <term>Alfa ... </term> </termEntry>

42 Identification du squelette structurel
TE: Terminological Entry LS: Language Section TS: Term Section id=‘ID67’ [attribute] subjectField=‘ manufacturing ’ [typedElement] definition=‘A value…’ [typedElement] lang=‘ hu ’ [attribute] lang=‘ en ’ [attribute] term=‘…’ [element] term=‘alpha smoothing factor’ [element] termType=‘fullForm’ [typedElement] TE LS TS

43 Modèle TMF niveau information
id=‘ID67’ subjectField=‘ manufacturing ’ definition=‘A value…’ TE LS LS lang=‘ hu ’ lang=‘ en ’ TS term=‘alpha smoothing factor’ termType=‘fullForm’ term=‘…’ TS

44 Représentation GMT <struct type=“TE”>
<feat type=“id”>ID67</feat> <feat type=“subjectField”>manufacturing</feat> <feat type=“definition”>A value between 0 and 1 used in ...</feat> <struct type=“LS”> <feat type=“lang”>en</feat> <struct type=“TS”> <feat type=“term”>alpha smoothing factor</feat> <feat type=“termType”>fullForm</feat> </struct> <feat type=“lang”>hu</feat> <feat type=“term”>Alfa ...</feat>

45 GMT Répertoire de catégories de données Méta-modèle (Cf. ISO 12620)
DCS: sous-ensemble du DCR Catégories de données propres à l’application Dialecte : Arbres d’expansion Styles + Vocabulaires GMT Conditions d’interopérabilité Terminological Markup Language (TML) DCR - Data Category Registry DCS - Data Category Selection GMT - Generic Mapping Tool

46 Langue objet et langue de travail
identifie la langue dont on parle (information terminologique) [Language section] Langue de travail : dans laquelle on parle (descriptions linguistiques) xml:lang Le terme est le point de rencontre entre la langue objet et la langue de travail appartient à un bloc langue (Langue objet) est décrit dans une langue donnée (Langue de travail)

47 Exemple TERMINOLOGICAL ENTRY /definition/ xml:lang=“fr“
Membre de l'équipage d'un vaisseau spatial LANGUAGE SECTION /language identifier/=“français“ TERM SECTION astronaute TERM SECTION cosmonaute TERM SECTION spationaute /language identifier/=“anglais“ TERM SECTION astronaut TERM SECTION cosmonaut

48 <struct type="terminologicalEntry">
<feat type="definition » xml:lang=“fr“>Membre de l'équipage d'un vaisseau spatial</feat> <struct type="languageSection"> <feat type="languageIdentifier">en</feat> <struct type="termSection"> <feat type="term">astronaut</feat> </struct> <feat type="term">cosmonaut</feat> <struct type="LanguageSection"> <feat type="languageIdentifier">fr</feat> <feat type="term">astronaute</feat> <feat type="term">cosmonaute</feat> <feat type="term">spationaute</feat>

49 Une description formelle
Catégories de données Une description formelle

50 Catégorie de donnée Définition Exemple Role
Descripteur élémentaire utilisé dans une structure linguistique Exemple Champs: /part of speech/, /grammatical gender/ Valeurs: /feminine/, /plural/, /dual/, /ablative case/ Role Caractérisation de la structure (spécification) Identification de sa couverture linguistique (documentation) Espace de référence pour les concepteurs de schémas Vers un répertoire international de catégories de données Data Category Registry (DCR); syntax.loria.fr

51 Différents usages des catégories de donnnées
Documentation Meta-data Spécification de catégories de donnée Schémas XML Méta-modèle FiltresXSLT

52 Contexte technique ISO 11179 (ISO JTC 1/SC 32): métadonnées
Gestion des catégories de données OWL (W3C Sem. Web activity): ontologies Hiérarchies et contraintes sur les catégories de données fr: /noun/ => /grammatical gender/ + /grammatical number/ ISO (ISO TC 37/SC 3): terminologies Aspets multilingues Noms multiples, valeurs propres à une langue

53 XML schema declaration
Lien avec l’ISO 11179 Complex datcat Set of Simple datcats /grammatical gender/ /masculine/ /feminine/ /neuter/ Data element concept Conceptual domain Data element Value domain XML object List of values Implemented as an XML attribute named ‘gen’ m, f, n XML schema declaration <w lemme=“vert” gen=“f”>verte</w>

54 Lien avec OWL (W3C) <owl:Class rdf:ID="Noun">
<rdfs:label xml:lang="fr">Nom</rdfs:label> <rdfs:label xml:lang="en">Noun</rdfs:label> </owl:Class> <owl:Class rdf:ID="CommonNoun"> <rdfs:label xml:lang="fr">Nom commun</rdfs:label> <rdfs:subClassOf rdf:resource="#Noun"/>

55 Le modèle retenu Entry Identifier: grammatical gender
Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Name: grammatical gender Object Language: de Name: Geschlecht Name: Genus Conceptual Domain: {/feminine/, /masculine/, /neuter/}

56 Mise en œuvre Mise en place d’un répertoire unique de catégories de donnée pour l’ingénierie des langues Contexte: Comité ISO/TC 37/SC 4: Gestion de ressources linguistiques Comité miroir RNIL de l’AFNOR (soutien du programme Technolangue) Objectifs Permettre aux concepteurs de définir leurs propres formats Fournir un cadre de référence unique pour comparer leurs descripteurs (e.g. codes de langue, ISO 639) Améliorer l’interopérabilité entre systèmes d’information

57 Registre de catégories de données
Agence de maintenance Vue 1 Vue 2 Vue n Registre de catégories de données Resource commune Part 1 Harmonisation Bureau (ISO/TC 37) Part 1 Comité 3 Sélection Comité 1 Terminologie Codes de langue Comité 2 Morpho-syntaxe

58 Bilan Convergence Normalisation Dissémination
Plus de cohérence entre méta-données, web sémantique et terminologie Normalisation Accompagner les initiatives (ISO/TC 37/SC 4): Le développement d’outils réutilisables passe par l’existence de standards pertinents et fiables Dissémination Les mondes académiques et industriels doivent connaître et pratiquer les standards disponibles (e.g. terminologie)

59 Références Romary L. 2001, Un modèle abstrait pour la représentation de terminologies multilingues informatisées, Cahiers de GUTenberg, n°39-40, pp Romary L., 2002, De la sémantique des contenus à la sémantique des structures, in La Recherche d’information sur les réseaux, ADBS Editions. N. Ide and J. Veronis, ed. The Text Encoding Initiative: Background and Contexts. Special triple issue of Computers and the Humanities, 29(3), 1995. ISO/IEC – Specification and Standardization of Data Elements, Parts 1-6. Genève, Organisation internationale de normalisation. ISO – Applications informatiques en terminologie – Format de transfert de données terminologiques exploitables par la machine (MARTIF) – Transfert négocié. Genève, Organisation internationale de normalisation, 1999. ISO – Aides informatiques en terminologie – Catégories de données. Genève, Organisation internationale de normalisation, 1999. ISO Computer Applications in Terminology - TMF, Terminological Markup Framework, Organisation internationale de normalisation, 2003.


Télécharger ppt "Application: les terminologies multilingues"

Présentations similaires


Annonces Google