La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Représentation et usage de terminologies et de vocabulaires d’indexation Sabine Barreaux Nourdine Combo Françoise Drouard Isabelle Gomez Dominique Vachez.

Présentations similaires


Présentation au sujet: "Représentation et usage de terminologies et de vocabulaires d’indexation Sabine Barreaux Nourdine Combo Françoise Drouard Isabelle Gomez Dominique Vachez."— Transcription de la présentation:

1 Représentation et usage de terminologies et de vocabulaires d’indexation Sabine Barreaux Nourdine Combo Françoise Drouard Isabelle Gomez Dominique Vachez INIST-CNRS 25/11/2014

2 Terminologies à l’Inist : de l’indexation vers de nouveaux services Françoise Drouard
La terminologie au service des données de la recherche : méthodologie de constitution d’un thésaurus de la biodiversité Isabelle Gomez & Dominique Vachez Représentation des terminologies Inist pour le projet Termith Sabine Barreaux & Nourdine Combo Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

3 Terminologies à l’Inist
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

4 Au commencement… Lexiques Documentaliste Indexation manuelle
Création et gestion de lexiques thématiques au fil des indexations Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

5 Production terminologique
Lexiques « papier » PASCAL & FRANCIS Propriétaires - payants - Ensemble de descripteurs utilisés pour représenter un document - Langue de spécialité SHS/STM - Multilingues Anglais Espagnol Allemand Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

6 Informatisation du poste de l’ingénieur documentaliste
1990 Dématérialisation des données Partage de données Automatisation des process Indexation automatique Ouverture des données Exposition & mutualisation Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

7 Partage des données Travail collaboratif facilité
Base vocabulaire Travail collaboratif facilité Enrichissement sémantique des vocabulaires Synonymie, termes associés, termes génériques, catégorisation sémantique… Uniformisation selon des normes spécifiques ISO (thésaurus unilingues) ISO (thésaurus multilingues) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

8 Exposition & mutualisation
2005 Portail terminologique développé par l’Inist-CNRS en association avec le LORIA et l’ATILF - valoriser et mutualiser les ressources terminologiques des organismes publics de recherche et d’enseignement supérieur - constituer un référentiel terminologique commun Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

9 Termsciences Terme Concept
Utilisation de la norme TMF ISO (Terminological Mark-up Framework), standard international pour la représentation des bases de données terminologiques en XML. Introduction des deux notions : Interopérabilité des données Open Data (données ouvertes) Terme Concept Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

10 Avènement du web sémantique Passage au SKOS
Modèle de représentation standard des systèmes d'organisation du savoir (thésaurus, classifications ou autre vocabulaire contrôlé et structuré) Recommandation du W3C depuis 2009 Construction sur la base de RDF Contribution à la constitution d'une structure de concepts mis en commun et exploités à l'aide de langages d'ontologies (OWL) Il permet : d’ échanger, relier et publier ces systèmes d'organisation de connaissances dans le contexte du web sémantique. de rendre les systèmes d’organisation des connaissances lisibles par un ordinateur Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

11 Exposition & mutualisation Projet collaboratif Temis
Construction et exposition de « Cartouches de connaissance » reposant sur des terminologies Inist-CNRS Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

12 Evolution des technologies révolution des métiers
Ingénieur documentaliste Informatisation Partage des données Ingénieur de l’information Web sémantique Réseaux sociaux Big data Ingénieur de la donnée ? Accès BIBLIOSHS : Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

13 La terminologie au service des données de la recherche : méthodologie de constitution d’un thésaurus de la Biodiversité Inist-CNRS Logos des partenaires : rBDD, CEFE, CESAB, FRB, IMBE, INRA, AnaEE-France Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

14 Besoins des chercheurs
Des chercheurs du CEFE et du CESAB CEFE (Centre d’Ecologie Fonctionnelle et Evolutive ) UMR CNRS-Univ. Montpellier CESAB (CEntre de Synthèse et d’Analyse sur la Biodiversité / Aix-en Provence) programme-phare de la FRB–Fondation pour la Recherche sur la Biodiversité produisent différentes bases de données sur la Biodiversité et souhaitent les rendre interopérables sémantiquement Enrichissement terminologique des métadonnées : meilleure description des données de la recherche en Biodiversité  Découverte, partage et réutilisabilité Utilisation d’un vocabulaire contrôlé  Harmonisation et intégration des données de Biodiversité (BdD CEFE, TRY database) Besoins des chercheurs Des chercheurs du CEFE et du CESAB CEFE (Centre d’Ecologie Fonctionnelle et Evolutive ) UMR 5175 CNRS-Univ.Montpellier CESAB (CEntre de Synthèse et d’Analyse sur la Biodiversité / Aix-en Provence) : programme-phare de la FRB–Fondation pour la Recherche sur la Biodiversité. Lien vers les Fiches projets de la FRB Par enrichissement terminologique des métadonnées, on obtient une meilleure description des données de la recherche en Biodiversité  facilite la découverte, le partage et la réutilisabilité de ces données Avec l’utilisation d’un vocabulaire contrôlé  Harmonisation/homogénéisation et intégration des données/métadonnées environnementales (bases de données produites par le CEFE; TRY Plant Trait database : base de données internationale sur les traits fonctionnels des plantes …) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

15 « Vers un thésaurus de la biodiversité »
Contexte Organisation du projet Création d’un groupe de travail rassemblant : - des écologues, informaticiens du CEFE et du CESAB - d’autres acteurs de la Biodiversité (AnaEE-France, IMBE, INRA) et - des documentalistes (Cellule Terminologie INIST) sous l’égide du rBDD (réseau Bases de Données) – volet «Interopérabilité» (Mission pour l’Interdisciplinarité du CNRS) Atelier conjoint en juin 2014 (CESAB) : « Vers un thésaurus de la biodiversité » Création d’un groupe de travail rassemblant des écologues et informaticiens du CEFE et du CESAB, d’autres acteurs de la Biodiversité (AnaEE-France, IMBE, INRA) et des documentalistes (Cellule Terminologie INIST), sous l’égide du rBDD (réseau Bases de Données) - volet «Interopérabilité» (dans le cadre de la Mission pour l’Interdisciplinarité du CNRS) - AnaEE-France (Analyses et Expérimentations sur les Ecosystèmes): infrastructure européenne - IMBE (Institut Méditerranéen de Biodiversité et d’Ecologie marine et continentale) UMR CNRS-Univ. Aix-Marseille - INRA (Institut National de la Recherche Agronomique) Organisation d’un atelier conjoint au CESAB le 18 juin 2014 : « Vers un thésaurus de la biodiversité » (lien vers le site rBDD) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

16 Contexte Cadre du projet
Des données environnementales interdisciplinaires, hétérogènes, disséminées dans de multiples jeux de données et réparties dans de nombreuses bases (BBEES-INEE) Des standards de métadonnées spécifiques à l’Environnement : EML Ecological Metadata Language (GBIF, ILTER, KNB) ISO pour les données géoréférencées conformes à la Directive européenne INSPIRE Des thésaurus dédiés à l’Environnement utilisant les formats et standards du web sémantique, mais non spécialisés sur la thématique « biodiversité » Données environnementales Elles sont issues de recherches interdisciplinaires, donc sémantiquement hétérogènes, disséminées dans de multiples jeux de données, sans concertation sur la qualité des métadonnées associées, et réparties dans de nombreuses bases Bases recensées par l’UMS BBEES (Bases de données Biodiversité, Ecologie, Environnements Sociétés – MNHN/CNRS INEE Institut écologie et environnement) Annuaire de la Recherche sur la Biodiversité (FRB) Des standards de métadonnées spécifiques au domaine Environnement : Standard de métadonnées EML Ecological Metadata Language Ex. d’utilisateurs : Système mondial d'information sur la biodiversité GBIF (Global Biodiversity Information Facility) metadata profile; réseau international ILTER (International Long-Term Ecological Research); Entrepôt de données KNB (Knowledge Network for Biocomplexity); futur Portail national ECOSCOPE (réseau des observatoires de recherche sur la biodiversité) Le projet ECOSCOPE est un Système d’Observation et d’Expérimentation sur le long terme pour la Recherche en Environnement (SOERE) et une Infrastructure de Recherche (IR) financé par le ministère de la recherche, via AllEnvi depuis 2011. - Norme ISO pour les données géoréférencées conformes aux exigences de la Directive européenne INSPIRE (Infrastructure for Spatial Information in the European Community) (2007, transposée en 2010) Des thésaurus et ontologies dédiés à l’Environnement utilisant les formats et standards du web sémantique, mais non spécialisés sur la thématique « biodiversité » Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

17 Les thésaurus sur l’Environnement dans le web sémantique
Phase préliminaire Inventaire des thésaurus du domaine Environnement sémantiquement interopérables Interdisciplinarité Thésaurus multidisciplinaires ; Initiatives européennes : GEMET et EARTh (compatibles thématiques INSPIRE) interrogeables simultanément avec AGROVOC (LusTRE); EnvThes (ILTER) Interopérabilité Conformité avec les standards et formats du web de données (W3C, SKOS, RDF, concept URI) et la norme ISO ; Disponibilité dans le Linked Open Data (LOD cloud) Alignements Réalisés en skos:exactMatch ou closeMatch et affichés réciproquement ou non pour chaque concept au sein du LOD. Ressources téléchargeables sous licence libre Phase préliminaire Inventaire (lien avec schéma 1) des thésaurus existants dans le domaine Environnement et sémantiquement interopérables Interdisciplinarité Thésaurus multidisciplinaires et/ou multilingues ; microthésaurus Réalisés à l’initiative de plusieurs programmes européens : GEMET, EARTh (compatibles avec les thématiques de la directive INSPIRE); EnvThes (conçu dans le cadre ILTER/LTER-Europe) GEMET et EARTh sont consultables simultanément avec AGROVOC (FAO) dans le cadre d’un programme conjoint eENVplus: LusTRE (Linked Thesaurus fRamework for Environment) : mais interrogation uniquement en anglais. AGROVOC: Organisation des Nations Unies pour l’alimentation et l’agriculture (FAO) GEMET: General Multilingual Environmental Thesaurus (Agence européenne de l’environnement / Eionet European environment information and observation network) EARTh: Environmental Application Reference Thesaurus eENVplus: eEnvironmental services for advanced applications within INSPIRE EnvThes: Environmental Thesaurus (EnvEurope) Interopérabilité Conformité avec les standards et formats du web de données (W3C, format SKOS, triplets RDF, identifiants uniques/concepts URI) Respect de la norme ISO Part 1 (2011) – Part 2 (2013); en correspondance avec SKOS ou SKOS-XL le tout permettant leur présence dans le Linked Open Data (LOD cloud) (SKOS: Simple Knowledge Organization System; RDF: Resource Description Framework; URI: Uniform Resource Identifier) Alignements Réalisés en skos:exactMatch (propriété transitive) ou closeMatch et affichés de manière réciproque ou non pour chaque concept au sein du LOD. Ressources téléchargeables sous licence libre (CC BY) en SKOS/RDF Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

18 Les thésaurus sur l’Environnement dans le web sémantique
CC BY NC ND LOD EARTh * (eENVplus) EnvThes * (EnvEurope-Life+) LOD DBpedia LOD LOV ILTER LTER-EUROPE INSPIRE exactMatch Thésaurus de la Biodiversité closeMatch exactMatch CC BY NC SA exactMatch AGROVOC (FAO) LOD EUROVOC (UE) exactMatch exactMatch exactMatch LOD CC BY LOD GEMET * (EIONET/EEA) Légende du schéma 1 Flèche épaisse : alignement réciproque Flèche fine : alignement unidirectionnel Flèche en pointillés : alignement en projet LOD : Linked Open Data LOV : Linked Open Vocabularies CC BY : Licence Creative Commons Rectangle : thésaurus Ellipse : infrastructure utilisatrice Trapèze : autre ressource terminologique Taille des rectangles : proportionnelle au nombre total de concepts Taille des caractères : proportionnelle au nombre de concepts en Environnement Astérisque : thésaurus spécialisé en Environnement owl: sameAs skos: exactMatch skos: closeMatch skos: relatedMatch exactMatch LOD exactMatch Rameau BNF INSPIRE exactMatch LOD NALT (USDA) SKOS/RDF exactMatch Biocomplexity Thesaurus * (USGS) closeMatch closeMatch LOD LCSH LOD Atelier 4 –I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

19 Etapes de constitution d’un thésaurus de la Biodiversité
Comparaison de la richesse et de la cohérence sémantique des thésaurus existants, de leurs équivalences intra- (skos:altLabel) et inter-linguistiques (multilinguisme) et de leur interopérabilité : points forts / points faibles Sélection de thésaurus-pivots pour réaliser des alignements avec nos propres référentiels (skos:exactMatch, propriété d’alignement transitive ) : Agrovoc, GEMET, EARTh Sélection de termes issus des référentiels terminologiques INIST en Ecologie, Environnement, Agronomie : richesse en synonymes et formes variantes, bilinguisme.  Hiérarchisation des concepts; conversion en SKOS Comparaison de la richesse et de la cohérence sémantique des thésaurus existants, des équivalences intra-linguistiques (synonymes skos:altLabel) et inter-linguistiques (multilinguisme), de leur interopérabilité et de leur reconnaissance internationale Agrovoc: multilingue, riche en synonymes, nombreux alignements, licence libre. GEMET: multilingue, définitions, groupes thématiques, absence de synonymes, licence libre. EARTh: richesse conceptuelle, définitions, absence de français, non téléchargeable. EnvThes: définitions, monolingue anglais, ni synonymes, ni termes associés, non téléchargeable. Sélection de thésaurus-pivots en vue de réaliser des alignements avec nos propres référentiels (skos:exactMatch propriété transitive) : sont retenus prioritairement Agrovoc, GEMET et EARTh - le thésaurus international Agrovoc (FAO) : pionnier du LOD (avec 12 alignements; outlinks; 3000 inlinks) - le thésaurus européen GEMET (Agence européenne de l’environnement) : plus restreint mais spécialisé en Environnement - le thésaurus européen EARTh (Environmental Applications Reference Thesaurus) qui n’est pas multilingue, mais se veut plus ambitieux que GEMET (nombre de concepts) tous 2 étant compatibles avec la directive INSPIRE. Ces thésaurus vont pouvoir jouer le rôle de passerelle entre les concepts identifiés par leurs URI. Sélection de termes issus de différents référentiels terminologiques INIST en Ecologie, Environnement, Agronomie Richesse en synonymes et formes variantes (skos:hiddenLabel), bilinguisme Lien avec notice Inist « Biodiversité » On procède à la catégorisation, la structuration et la hiérarchisation des concepts. Conversion en format SKOS pour les rendre interopérables et réaliser des alignements (directement ou transitivement) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

20 Référentiel terminologique Inist : concept Biodiversité
Une trentaine de termes d’accès du langage naturel (titres, résumés) pour chaque langue (anglais, français) Spécifiques: agrobiodiversité; diversité écosystémique Synonymes: diversité biologique Variantes orthographiques: ecodiversity Atelier 4 –I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

21 Etapes de constitution d’un thésaurus de la Biodiversité
Combinaison de deux approches complémentaires : Approche par le haut (top-down) : termes/concepts génériques à partir desquels débutera la hiérarchie du thésaurus, issus des référentiels INIST et de leurs alignements Approche par le bas (bottom-up) : apport de vocabulaires plus spécialisés (termes pré-coordonnés) et concepts plus spécifiques issus des bases de données de la recherche Thesauform-Traits : diversité fonctionnelle des plantes Indicateurs de la biodiversité (CBD, EEA, ONB) Lien avec Schéma 2 Combinaison de deux approches complémentaires Approche par le haut (top-down): termes/concepts génériques à partir desquels débutera la hiérarchie du thésaurus, issus des référentiels INIST et de leurs alignements après conversion en SKOS. Approche par le bas (bottom-up): apport de vocabulaires plus spécialisés (termes pré-coordonnés) et concepts plus spécifiques issus des bases de données de la recherche - Thesauform-traits (CEFE) : diversité fonctionnelle des plantes - Indicateurs de la biodiversité (Convention sur la Diversité Biologique; European Environment Agency; Observatoire National de la Biodiversité)  Rem. On ne traitera que des concepts thématiques (pas de taxonomie ou de géographie pour lesquels il existe des référentiels d’autorité) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

22 Constitution d’un thésaurus de la Biodiversité
Ressources terminologiques INIST-CNRS L u s T R E - eENVplus INSPIRE Vocabulaires de AnaEE France, SOERE, LTER GEMET Vocabulaires des bases de données INEE-BBEES-Thesauform-traits… AGROVOC Thésaurus de la Biodiversité Essential Biodiversity Variables (EBV) GEO BON EARTh LTER-France : Long-Term Ecological Research network (sous-partie du réseau LTER-Europe auquel participe le CNRS avec les Zones Ateliers) SOERE : Systèmes d’observation et d’expérimentation au long terme pour la recherche en environnement Bases de données INEE (Institut Ecologie et Environnement - CNRS) : inventaire de l’UMS BBEES (Bases de données Biodiversité, Ecologie, Environnements Sociétés) GEO BON : Group on Earth Observations - Biodiversity Observation Network (GBIF, ILTER, IUCN, USGS…) EU BON : European Biodiversity Observation Network (auquel participent le CNRS et l’IMBE) CBD : Convention sur la Diversité Biologique Indicateurs de la biodiversité -CBD 2020 -European biodiversity indicators (European Environment Agency) -Indicateurs de l’ONB (Observatoire National de la Biodiversité)  Atelier 4 –I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

23 Perspectives Recherche simultanée avec plusieurs vocabulaires alignés : passerelle sémantique pour le moissonnage des entrepôts de données et les moteurs de recherche sémantique (LusTRE) Visibilité de ressources terminologiques francophones dans le Web Sémantique et le LOD Evolution des thésaurus vers des ontologies Fouille de texte et de données (text & data mining) avec des formes variantes du langage naturel (skos:hiddenLabel) Recherche simultanée avec plusieurs vocabulaires alignés : passerelle sémantique pour le moissonnage des entrepôts de données et les moteurs de recherche sémantique (programme eENVplus: LusTRE) Visibilité de nos ressources terminologiques bilingues et francophones dans le Web Sémantique et le LOD Evolution des thésaurus vers des ontologies (ex. Agrovoc : « Agrontologie »): la relation « est associé à » (skos:related) est subdivisée en sous-propriétés « a pour composant / est un produit de / a pour thème / est membre de / est influencé par / dépend de … » Fouille textuelle et fouille de données (text and data mining) avec des formes variantes du langage naturel (skos:hiddenLabel) Les chercheurs en sciences de l’environnement et de la biodiversité sont fortement impliqués dans les réseaux et groupes de travail sur l’intégration des données de la recherche et l’annotation sémantique : - RDA (Research Data Alliance) : Biodiversity Data Integration Interest Group (LifeWatch, EU BON (European Biodiversity Observation Network), GBIF…) - 2nd EUDAT (European Data Infrastructure) Conference (2013): Semantic Annotation work group, auquel participent LTER et LifeWatch - Atelier Ingénierie des connaissances AnaEE-France (infrastructure européenne Analyses et Expérimentations sur les Ecosystèmes) - EnviroInfo 2014 Conference Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

24 Projet Termith http://www.atilf.fr/ressources/termith
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

25 Contexte Financement : ANR Durée 3 ans (2013 – 2015) Partenaires :
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

26 Objectifs Améliorer l’accès à l’information contenue dans les articles scientifiques en français dans le domaine des sciences humaines Via une indexation automatique des textes intégraux Traitement automatique de la langue : Extraction automatique de candidats termes Filtrage des termes contenus dans les textes Un exemple en sciences du langage : « le sujet de mon article est la syntaxe » « le verbe s’accorde avec le sujet en nombre et en genre » Disciplines traitées dans le projet : Sciences du langage, Archéologie, Psychologie, Sciences de l’information Chimie Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

27 Usage Scénarios d’utilisation des résultats Termith
Scénario 1 : Evaluation de la qualité des candidats termes extraits et filtrés pour l’enrichissement des ressources terminologiques Scénario 2 : Evaluation de la pertinence des mots clés pour l’indexation Scénario 3 : Evaluation de la qualité de l’analyse de contenu produite avec différentes indexations (Termith et Inist) Usage des terminologies dans le projet : Pour améliorer l’indexation automatique à partir du texte intégral Mise à jour et structuration de ces ressources Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

28 Terminologies Inist Quelles ressources terminologiques ?
Vocabulaires d’indexation des disciplines du projet Normes de représentation : ISO 16642:2003 : Applications informatiques en terminologie – Terminological Markup Framework (TMF) Modèle abstrait pour représenter des terminologies Utilisé pour passer d’une organisation lexicale à une organisation conceptuelle à l’occasion de la mise en place de TermSciences ISO 30042:2008 : Systèmes de gestion de la terminologie, de la connaissance et du contenu – TermBase eXchange (TBX) Sérialisation XML de TMF (plus précise) pour échanger des données terminologiques Utilisé comme format terminologique pivot dans Termith Norme ISO Comité TC37/SC3 Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

29 Méta-modèle Section Composant de Terme
Collection de données terminologiques Informations globales Entrée terminologique Section Langue Section Terme Section Composant de Terme Informations complémentaires Source : L. Romary Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

30 Principes et avantages
Organisation par concept Toutes les informations terminologiques appartenant à un concept, c-à-d tous les termes (qui désignent ce concept) dans toutes les langues et toutes les données descriptives et administratives, sont traitées comme une unité terminologique Autonomie du terme Tous les termes appartenant à un concept sont considérés (dans une entrée terminologique) comme des blocs autonomes (et répétables) de catégories de données ≠ thésaurus Sémantique fine Richesse dans les possibilités de description des termes et des concepts par des catégories de données ISO 704:2009 Travail terminologique -- Principes et méthodes Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

31 TBX : Principales catégories de données
Obligatoire Fortement recommandé Terme, langue du terme Grammaticales : partie du discours, genre, type de terme Textuelles : définition, contexte, note Catégorisations : domaine, projet, utilisateur Administratives : dates, noms, sources de données Usage : géographique, statut d’usage, localisation Référence à d’autres termes et à des informations externes Graphiques Type de terme : forme pleine, forme abrégée, variante Source : L. Romary Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

32 Exemple Termith Exemple en linguistique avec concept générique / termes synonymes en français / terme en anglais + toujours un terme préférentiel (« preferredTerm ») (Exemple à mettre en forme)

33 Exemples d’enrichissements
Propositions de nouveaux termes issus des évaluations faites dans le Scénario 1 Propositions d’enrichissements par post-doc Atilf (sur le domaine des Sciences du langage) : Distinction entre les différentes couches lexicales : Terminologie des sciences du langage Lexique scientifique transdisciplinaire (« étude théorique ») Langue générale (« enfant », « adulte », « âge périscolaire ») Introduction de facettes permettant de catégoriser les concepts (en lien avec Scénario 3) : Concept grammatical Concept rhétorique Noms de langues Introduction de définitions Facettes pour scénario 3 : on souhaite classer les résultats d'une requête en fonction des différentes facettes pour filtrer le corpus en fonction de différents angles On trouve aussi : nom de linguiste, nom d’école de pensée, relation linguistique, propriété linguistique (comme sous-parties de concept grammatical) Définitions : elles seront conçues suivant un formalisme en cours d'identification et tiendront compte des besoins des indexeurs/documentalistes novices en SdL, outre que d'une exploitation automatique. Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

34 En conclusion Choix SKOS/TBX ? Stratégie optimale :
TBX comme format riche SKOS comme format de « livraison » Mapping possible dans les 2 sens : SKOS --> TBX (pour initialiser une base terminologique à partir de ressources SKOS) TBX --> SKOS (avec perte d’informations) pour SKOS=>TBX : signaler que cela correspondrait à l’initialisation d’une base terminologiques à partir de ressources SKOS (ex.: un traducteur qui prépare un travail dans un domaine donné et qui veut construire sa termino) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

35 Mise à disposition des Terminologies INIST
Astronomie SKOS Transfusion sanguine SKOS Nutrition artificielle SKOS Optique SKOS Géographie Amérique du Nord SKOS Psychologie de la mémoire SKOS Pathologies SKOS Sciences du langage TBX Archéologie TBX Sciences de l’information TBX Chimie TBX Psychologie TBX EN COURS community.temis.com/fr/market-place EN COURS A VENIR Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

36 Merci de votre attention
Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

37 Notions de base en SKOS Concepts (skos:concept)
Identifiés à l’aide d’URI Désignés par des expressions en langue naturelle skos:prefLabel, skos:altLabel, skos:hiddenLabel Documentés par différents types de notes skos:note, skos:definition, skos:example Reliés sémantiquement les uns aux autres par des hiérarchies informelles et des réseaux d’association skos:broader, skos:narrower, skos:related Intégrés à un schéma conceptuel skos:inScheme, skos:hasTopConcept, skos:topConceptOf Reliés à d’autres concepts de thésaurus différents skos:exactMatch, skos:closeMatch Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014


Télécharger ppt "Représentation et usage de terminologies et de vocabulaires d’indexation Sabine Barreaux Nourdine Combo Françoise Drouard Isabelle Gomez Dominique Vachez."

Présentations similaires


Annonces Google