Normalisation des échanges de données en terminologie Le cas des relations dites « conceptuelles » Laurent Romary & Marc Van Campenhoudt avec la voix d ’André Schaaff
Représentation et échange des relations : état des lieux Kif (Knowledge Interchange Format) CGS (Conceptual Graph Standard) Oil (Ontology Inference Layer) XTM (XML Topic Maps : Iso 13250 2000)
Normes d ’échanges : bref historique Micromater TEI, chapitre 13 Martif (ISO 12 200, 1999) Fondé sur Iso 12620 Nouveaux projets ISO : Geneter, MSC - DXLT (projet Salt),TMF Olif 2
TMF - Terminological Markup Framework
Principes généraux Expression de contraintes au niveau de la représentation de terminologies informatisées Quelle est la structure sous-jacente des terminologies informatisées ? Quelle sont les catégories de données utilisées et sous quelles conditions ? Maintient de l’interopérabilité entre représentations Proposer un outil conceptuel pour la comparaison de deux formats donnés
Définitions TMF: Terminological Mark-up Framework Définition de structures sous-jacentes et de mécanismes nécessaires à la représentation informatisée de données terminologiques Indépendance vis-à-vis des formats spécifiques GMT: Generic Mapping Tool Un format XML abstrait équivalent au modèle sous-jacent de TMF TML: Terminological Mark-up Language Une représentation spécifique générée dans le cadre de TMF
Une famille de formats… TMF … TML1 TML2 TML3 TMLi (Geneter) (DXLT) GMT
Représentation de la structure sous-jacente de données terminologiques Meta-modèle Représentation de la structure sous-jacente de données terminologiques
Modèle conceptuel : structure typique Décrit et défini dans n langues Désigné par n termes
Exemple : la fiche Dhydro Langue 1 Langue 2 « Concept » Langue 3 Langue ... Définition Terme 1 Terme 2 Terme... ... Grammaire Usage Contexte
Le squelette structurel Terminological Data Collection (TDC) Global Information (GI) Complementary Information (CI) * Terminological Entry (TE) * Language Section (LS) * Term Level (TL) * Term Component Level (TCL)
Comment cela fonctionne ? Étudions un exemple…
Exemple DXLT : <termEntry id="ID67"> <descrip type="subjectField">manufacturing</descrip> <descrip type="definition">A value between 0 and 1 used in ... </descrip> <langSet lang="en"> <tig> <term>alpha smoothing factor</term> <termNote type="termType">fullForm</termNote> </tig> </langSet> <langSet lang="hu"> <term>Alfa ... </term> </termEntry>
Identification du squelette structurel TE: Terminological Entry LS: Language Section TS: Term Section id=‘ID67’ [attribute] subjectField=‘ manufacturing ’ [typedElement] definition=‘A value…’ [typedElement] lang=‘ hu ’ [attribute] lang=‘ en ’ [attribute] term=‘…’ [element] term=‘alpha smoothing factor’ [element] termType=‘fullForm’ [typedElement] TE LS TS
Modèle TMF niveau information id=‘ID67’ subjectField=‘ manufacturing ’ definition=‘A value…’ TE LS LS lang=‘ en ’ lang=‘ hu ’ TS term=‘alpha smoothing factor’ termType=‘fullForm’ term=‘…’ TS
Représentation GMT <struct type="TE"> <feat type="id">ID67</feat> <feat type="subjectField">manufacturing</feat> <feat type="definition">A value between 0 and 1 used in ... </feat> <struct type="LS"> <feat type="lang">en</feat> <struct type="TS"> <feat type="term">alpha smoothing factor</feat> <feat type="termType">fullForm</feat> </struct> <feat type="lang">hu</feat> <feat type="term">Alfa ... </feat>
Une description formelle Catégories de données Une description formelle
Quel modèle pour les catégories de données ? Utilisation de XML : Cohérence avec les principes de TMF Utilisation de feuilles de style pour la génération de schémas et de filtres Utilisation de RDF (Resource Description Framework) Futur format pour la représentation de méta-données : La description de catégories de données est synonyme de méta-donnée dans l’approche TMF
Description d’une catégorie de données DCIdentifier DCParent DCName dcsd:DCIdentifier dcsd:DCParent DCDefinition dcsd:DCName dcsd:DCDefinition dcsd:DCType DCType (S, C) Data Category dcsd:DCExample DCExample dcsd:DCAdmin dcsd:DCComment dcsd:Content Locus should remain under the scope of 16642. dcsd:Level DCAdmin DCComment Locus Content Salt 2000-11-08/SEW
Niveaux et contenus Content Level/Loci TargetType DataType dcsd:DataType dcsd:TargetType Level/Loci rdf:Alt rdf:Alt TargetType DataType List of References List of References rdf:Alt rdf:li Ref to other datcats rdf:li List of References Ref to other datcat(s) rdf:li Ref to other datcat(s)
Relations implicites et explicites Synonymie Équivalence Relations à expliciter liens lexicaux entre termes : ‘abréviation de’, ‘troncation de’, ‘symbole de’, etc. liens sémantiques entre « concepts » ‘type de’, ‘cause de’, ‘au-dessus de’, etc.
Situer les relations conceptuelles Au niveau interlangue la relation est valide pour tout équivalent Concept = noyau de sens commun Au niveau de chaque langue la relation est valide pour tout synonyme Concept = unité de compréhension Au niveau de chaque terme La relation est valide pour un terme donné Concept = ?
Quelle typologie des relations? ISO 12620 (1999) typologie élémentaire espèce-genre, partie-tout, séquentielle (spatiales, temporelles, causales) et associative imprécision la place de chaque concept dans la relation n’est pas toujours précisée
Olif 2 (2000) Open Lexicon Interchange Format inventaire nettement plus étoffé prenant en compte : les théories de la méronymie l’interaction entre relations sémantiques et syntaxe mélange des relations lexicales : ‘abréviation de’ sémantiques : ‘synonyme de’ conceptuelles : ‘ fils de’
Quelles informations échanger? classification typologique du lien niveau de validité « concept », langue, terme? autres informations direction éventuelle du «vecteur» formulation du lien dans chaque langue propriétés de la relation restriction trait distinctif ...
Conclusion Un modèle général pour l’analyse et la représentation de collections de données terminologiques Un formalisme sous-jacent exprimé en XML, RDF Outils associés DCSEditor, DCSBrowser, Génération automatique de filtres XSLT et de schémas XML pour une spécification donnée de TML