Constitution de bases de données terminologiques sur le web Samuel Jolibois © 19 mars 2005 DESS Terminologie, Bruxelles CTB, Institut Libre Marie Haps
Constitution de bases de données terminologiques sur le web I - Exposé du problème II – Conception (aspects théoriques) III – Réalisation (atelier pratique)
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 I – Exposé du problème A – Données terminologiques B – Outils terminologiques
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 II - Conception A – Diversité des approches B – Diversité des fiches terminologiques C – Normes et formats terminologiques D – Approche proposée : primauté du concept ● D1 – exemple du TMF ● D2 – exemple de l'UMLS
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 III – Réalisation A – Mobilisation des ressources B – Atelier pratique ● B1 – exemple de glossaire ● B2 – exemple de terminologie ● B3 – exemple de thesaurus
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 I - Exposé du problème Pourquoi réaliser une BDD sur le web ? ● Objectifs : partage de données terminologiques Au sein d'une organisation (intranet) Au sein d'un public restreint (extranet) En direction du grand public (internet) ● Avantages techniques : Relative facilité et souplesse de mise en oeuvre Intégration à un serveur web existant Utilisation exclusive du navigateur Web
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 I – Exposé du problème Polysémie du terme “BD terminologiques” qui désigne à la fois : ● Corpus de données (cf. typologie des données terminologiques – partie I) ● Organisation logique de ces données (cf. modèles conceptuels, normes & formats – partie II) ● Implémentation informatique de ces modèles (cf. atelier pratique – partie III) ● Applications pour réaliser cette implémentation (cf. outils logiciels – partie I)
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 A - Données terminologiques Typologie des données terminologiques ● Dictionnaires : de langue générale (monolingue ou multilingue), parfois de langue de spécialité ● Lexiques : listes de termes et d'équivalents ● Glossaires : liste de termes et de leur définition ● Terminologies : listes organisées de termes ● Thesaurus : langages documentaires ● Banques de données terminologiques : ensemble organisé de termes interrogeables par des requêtes
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B - Outils terminologiques Logiciels spécialisés ● Avantages : prêt à l'emploi, richesse des fonctionnalités ● Inconvénients : coûts, dépendance vis à vis de l'éditeur, pas ou peu personnalisables, intégration web limitée Logiciels génériques de type SGBD ● Clients (ex: Access) ou serveurs (ex: MySql, Sql Server) ● Avantages : facilité d'utilisation, utilisables à d'autres fins, entièrement personnalisables, adaptables à ses besoins ● Inconvénients : temps de développements importants
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B – Outils terminologiques Logiciels spécialisés ● Multi-Term, Trados Intégration avec outils de traduction ● Termstar, STAR Module de publication sur le web (WebTerm) ● Xerox Terminology Suite, racheté par Temis Group Intégré à des solutions de Text Mining
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 II Conception Cette phase consiste à réfléchir à : ● Une modélisation logique des données terminologiques, adaptée aux besoins de l'organisation (terminologie, traduction, documentation, etc.) ● Un modèle générique de fiche terminologique listant tous les champs répondant aux besoins définis plus haut ● Un format de représentation électronique compatible avec le modèle de fiche retenu et permettant la réutilisation et l'échange des données terminologiques
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 A Diversité des approches Diversité des points de vue et centres d'intérêt : ● le cogniticien : s'intéresse aux notions et aux relations sémantiques entre les notions > ontologies ● le terminologue : s'intéresse aux termes, aux relations entre la notion et la dénomination > terminologies ● le documentaliste : s'intéresse aux relations entre les termes et les documents > thesaurus ● le traducteur : s'intéresse aux équivalences entre les dénominations de 2 langues > lexique ● le lexicographe/linguiste : s'intéresse aux procédés et dénominations linguistiques > dictionnaires
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B Diversité des fiches terminol.
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 C Normes de représentation Diversité des normes & formats de représentation ● TEI (Text Encoding Initiative) ● IIF (Interval Interchange Format) : the task T41 ● MARTIF (MAchine-Readable Terminology Interchange Format) : norme ISO ISO ● GENETER ● OLIF (Open Lexicon Interchange Format) ● D-XLT (Default XML representations of Lexicons and Terminologies) ● TMF (Terminology Markup Framework) : norme ISO TC/37 - ISO/DIS 16642
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 D Primauté du concept Organisation des données terminologiques en entités logiques : ● Concepts > données sémantiques : définitions, relations (synonymie, généricité, etc.) ● Termes > données morphologiques ou syntaxiques : indicatif de langue, grammaire, phraséologie, etc. ● Documents > contexte d'usage, source, etc. C'est le schéma notionnel qui constitue la colonne vertébrale de la base autour duquel se rattache une liste de termes : ● cf. TMF (Terminological Markup Framework) ● cf. UMLS (Unified Medical Language System) et ses applications (MeSH Browser, The Lexical Grid, etc.)MeSH BrowserThe Lexical Grid
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 D1 – Exemple du TMF 1 concept décrit et défini dans n langues et désigné par n termes ● Modèle conceptuel TMF (Romary et al. 2001) ● Ex: Fiche DHYDRO Langue 1 Définition Terme 1Terme 2Terme... UsageGrammaire Contexte... « Concept » Langue nLangue 2
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 D2 - Exemple de l'UMLS Terme préféré C atrial fibrillation S atrial fibrillation Concept Forme de base S atrial fibrillations Variante L atrial fibrillation Terme préféré S atrial fibrillation Forme de base S atrial fibrillations Variante L atrial fibrillation Terme synonyme S auricular fibrillation Forme de base S auricular fibrillations Variante L auricular fibrillation
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B – Atelier pratique Lexiques, glossaires : ● Modèle simple, BD tabulaires (une seule table) Terme, POS, définition, équivalent étranger Thesaurus, terminologies : ● Modèle complexe > BD relationnelles ou hiérarchiques Concepts : concept, domaine, définition Relations entre concepts : C1, relation, C2 Termes : terme, POS, statut (terme/variante) Gestion : rédacteur, date Source : source, date
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B1 – Exemple de glossaire Modèle tabulaire > table unique Applications utilisables : ● Usage bureautique (client unique > monoposte) Traitement de texte (ex: Word) ou Tableur (ex: Excel) Utilisation avancée : SGBD (ex: Access, Filemaker) ● Usage web (clients multiples > multiposte) HTML standard (tableau) Utilisation avancée : PHP + SGBD MySQL
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B2 – Exemple de terminologie Modèle hiérarchique > fichier XML Applications utilisables : ● Aucun développement envisagé (env. bureautique) Logiciels terminologiques (ex: Multi-Term, TermStar) ● Développements internes envisagés (env. web) Éditeur XML (ex: Cooktop), navigateur Web (IE 6)
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B2 – Exemple de fiche TMF ID67 manufacturing A value between 0 and 1 used in... en alpha smoothing factor fullForm hu Alfa...
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B3 – Exemple de thesaurus Modèle relationnel > tables multiples Applications utilisables : ● Usage bureautique (client unique > monoposte) SGBD indispensable (ex: Access, Filemaker) ● Usage web (clients multiples > multiposte) Applications indispensables : PHP + SGBD MySQL
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 B3 – Exemple de thesaurus à 1 concept sont associées 1 ou plusieurs formes linguistiques de n'importe quelle langue et statut (form. préf. / variante) à 1 concept sont liés 0 ou plusieurs autres concepts par n'importe quelle relation forme concept relation num_forme num_concept forme statut langue num_concept domaine definition num_rel num_concept1 relation num_concept2 n n n 1 1 1
Constitution d'une base terminologique sur le web – CTB 19/03/2005 – © 2005 Bibliographie La terminologie : théorie, méthode et applications / Maria Teresa Cabré. Ottawa : Les Presses de l'Université d'Ottawa, 1998 Terminologie : constitution de données / Henri Gouadec. Paris : AFNOR, 1990 Principes méthodologiques du travail terminologique / Louis-Jean Rousseau. IVe Réunion de coordination de Realiter, Barcelone, décembre 1995 Lejeune (N.) et Van Campenhoudt (M.), 1998 : Modèle de données et validité structurelle des fiches terminologiques : l'expérience des microglossaires de TERMISTI, in Blanchon (É.), coord., La banque des mots : Terminologie et qualité, numéro spécial 8, p Normalisation des échanges de données en terminologie : le cas des relations dites conceptuelles / Laurent Romary & Marc Van Campenhoudt. TIA 2001 Une base de connaissances multilingue dans le domaine biomédical : l'UMLS / Samuel Jolibois. In: JILA'99. LILLA, Université de Nice : juin 1999