Représentation et usage de terminologies et de vocabulaires d’indexation Sabine Barreaux Nourdine Combo Françoise Drouard Isabelle Gomez Dominique Vachez.

Slides:



Advertisements
Présentations similaires
VIDEO ACTIVE Faciliter l´accès au patrimoine audiovisuel européen Eric Loze – RTBF Archives Radio & TV.
Advertisements

Les portails culturels - le rôle de Michael
Rosa María Gómez de Regil Educatice, 25 novembre 2010
UR1, CRI, Thierry Bédouin, le 21 Mai 2007 Journée Couperin du 21 Mai 2007 Thierry Bédouin, directeur du CRI de Rennes 1 Les publications scientifiques,
1 COMMISSION AFRICAINE DES STATISTIQUES AGRICOLES (AFCAS) Accra, Ghana, 28 – 31 Octobre 2009 Paul NGOMA-KIMBATSA Statisticien Division de la Statistique.
Projet ORI-OAI Réseau de portails OAI Printemps dUNIT 24 mai 2007.
Projet ORI-OAI Réseau de portails OAI 27/03/2007.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Thème 3 : plate-forme de modélisation et de gestion de référentiels XML étapes modélisation des structures (UML) gestion du référentiel de modélisation.
1/32 Forum des utilisateurs du SISMER – Novembre 2005 Le portail NAUTILUS accès en ligne aux données et nouveau site WEB du SISMER Michèle FICHAUT Mickael.
Dalila CHIADMIIFISI TIC et le développement de la recherche scientifique Revue scientifique : le modèle du libre accès Dalila Chiadmi.
Documentation numérique sur l’Internet
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Métadonnées pour les thèses numériques françaises
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Communication Scientifique
Control des objectifs des technologies de l’information COBIT
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
le profil UML en temps réel MARTE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Centre National pour la numérisation de sources visuelles
Projet Master 2 Nouvelles Technologies et Handicap
COPIL SINP 28/03/2014 PRÉSENTATION DES APPLICATIONS OGAM (WEB ET NOMADE)
Le portail des MSH
Recommandations et procédure d’attribution de DOI
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
Cairn.info Chercher : Repérer : Progresser 13/01/ { } Revues et diffusion des savoirs scientifiques : retour d’expérience de Cairn.info
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Ecaterina Giacomini Pacurar
Web sémantique : Web de demain
Catalogage de données Notions, enjeux et initiatives actuelles.
Présentation de larchive ouverte « ArchiveTématice » Colloque Technologies pour lapprentissage et léducation, Paris,
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Bases de données phénotypique et ontologie
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Web Sémantique et Interopérabilité des Vocabulaires Conceptuels
Biologie – Biochimie - Chimie
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
1 Outils bibliographiques Plume 20 mars- Lyon Yannick Maignien.
Application de gestion de candidatures
1 Lionel Bargeot, ENESAD,13 Décembre 2006 IGCS et l'interopérabilité Colloque du 13 décembre 2006 Lionel Bargeot responsable régional du programme IGCS.
P. 1 Ingénierie des connaissances le projet de l’Inist pour la communauté ESR Nancy, Carrefour IST mardi 25 novembre 2014.
Ressources Internet liées à la CIB
VocabNomen Description des ressources pédagogiques en ligne Marie-Christine Milot DGESCO A3-4
Séminaire 10 Juin 2008 Pervasive Learning Network : P-LearNet Institut TELECOM.
Département fédéral de l’intérieur DFI Office fédéral de la statistique OFS Rapport sur le développement durable 2012 – Le système d’indicateurs MONET.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
Thésaurus et accès à l’information Sylvie Dalbin Assistance & Techniques Documentaires Conseil en ingénierie documentaire,
Supports de formation au SQ Unifié
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Vers un guide de bonnes pratiques pour le tutorat à distance Un partenariat SOFAD - CS Mélanie Bergeron, chargée de projet Marcelle Parr, conseillère R&D.
Direction Régionale de l’Environnement DIRECTION REGIONALE DE L’ENVIRONNEMENT FRANCHE-COMTE Présentation du SINP Projet de plateforme du patrimoine naturel.
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
Réunion des directeurs d’unités ST2I 30 octobre 2007 Réseau Doc-ST2I Missions et perspectives (MI2S)
Avancement des équipes de rédaction INSPIRE CNIG - Groupe de liaison INSPIRE 8 septembre 2009 Marie-Louise ZAMBON - IGN.
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Le Traitement Automatique des Langues (TAL)
Publier ses métadonnées dans ECOSCOPE
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Transcription de la présentation:

Représentation et usage de terminologies et de vocabulaires d’indexation Sabine Barreaux Nourdine Combo Françoise Drouard Isabelle Gomez Dominique Vachez INIST-CNRS 25/11/2014

Terminologies à l’Inist : de l’indexation vers de nouveaux services Françoise Drouard La terminologie au service des données de la recherche : méthodologie de constitution d’un thésaurus de la biodiversité Isabelle Gomez & Dominique Vachez Représentation des terminologies Inist pour le projet Termith Sabine Barreaux & Nourdine Combo Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Terminologies à l’Inist Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Au commencement… Lexiques Documentaliste Indexation manuelle Création et gestion de lexiques thématiques au fil des indexations Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Production terminologique Lexiques « papier » PASCAL & FRANCIS Propriétaires - payants - Ensemble de descripteurs utilisés pour représenter un document - Langue de spécialité SHS/STM - Multilingues Anglais Espagnol Allemand Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Informatisation du poste de l’ingénieur documentaliste 1990 Dématérialisation des données Partage de données Automatisation des process Indexation automatique Ouverture des données Exposition & mutualisation Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Partage des données Travail collaboratif facilité Base vocabulaire Travail collaboratif facilité Enrichissement sémantique des vocabulaires Synonymie, termes associés, termes génériques, catégorisation sémantique… Uniformisation selon des normes spécifiques ISO 2788-1986 (thésaurus unilingues) ISO 5964-1985 (thésaurus multilingues) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Exposition & mutualisation 2005 http://www.termsciences.fr/ Portail terminologique développé par l’Inist-CNRS en association avec le LORIA et l’ATILF - valoriser et mutualiser les ressources terminologiques des organismes publics de recherche et d’enseignement supérieur - constituer un référentiel terminologique commun Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Termsciences Terme Concept Utilisation de la norme TMF ISO 16 642 (Terminological Mark-up Framework), standard international pour la représentation des bases de données terminologiques en XML. Introduction des deux notions : Interopérabilité des données Open Data (données ouvertes) Terme Concept Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Avènement du web sémantique Passage au SKOS Modèle de représentation standard des systèmes d'organisation du savoir (thésaurus, classifications ou autre vocabulaire contrôlé et structuré) Recommandation du W3C depuis 2009 Construction sur la base de RDF Contribution à la constitution d'une structure de concepts mis en commun et exploités à l'aide de langages d'ontologies (OWL) Il permet : d’ échanger, relier et publier ces systèmes d'organisation de connaissances dans le contexte du web sémantique. de rendre les systèmes d’organisation des connaissances lisibles par un ordinateur Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Exposition & mutualisation Projet collaboratif Temis Construction et exposition de « Cartouches de connaissance » reposant sur des terminologies Inist-CNRS Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Evolution des technologies révolution des métiers Ingénieur documentaliste Informatisation Partage des données Ingénieur de l’information Web sémantique Réseaux sociaux Big data Ingénieur de la donnée ? Accès BIBLIOSHS : http://www.cairn.info.gate3.inist.fr/revue-documentaliste-sciences-de-l-information-2013-3.htm Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

La terminologie au service des données de la recherche : méthodologie de constitution d’un thésaurus de la Biodiversité Inist-CNRS Logos des partenaires : rBDD, CEFE, CESAB, FRB, IMBE, INRA, AnaEE-France Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Besoins des chercheurs Des chercheurs du CEFE et du CESAB CEFE (Centre d’Ecologie Fonctionnelle et Evolutive ) UMR CNRS-Univ. Montpellier CESAB (CEntre de Synthèse et d’Analyse sur la Biodiversité / Aix-en Provence) programme-phare de la FRB–Fondation pour la Recherche sur la Biodiversité produisent différentes bases de données sur la Biodiversité et souhaitent les rendre interopérables sémantiquement Enrichissement terminologique des métadonnées : meilleure description des données de la recherche en Biodiversité  Découverte, partage et réutilisabilité Utilisation d’un vocabulaire contrôlé  Harmonisation et intégration des données de Biodiversité (BdD CEFE, TRY database) Besoins des chercheurs Des chercheurs du CEFE et du CESAB CEFE (Centre d’Ecologie Fonctionnelle et Evolutive ) UMR 5175 CNRS-Univ.Montpellier CESAB (CEntre de Synthèse et d’Analyse sur la Biodiversité / Aix-en Provence) : programme-phare de la FRB–Fondation pour la Recherche sur la Biodiversité. Lien vers les Fiches projets de la FRB Par enrichissement terminologique des métadonnées, on obtient une meilleure description des données de la recherche en Biodiversité  facilite la découverte, le partage et la réutilisabilité de ces données Avec l’utilisation d’un vocabulaire contrôlé  Harmonisation/homogénéisation et intégration des données/métadonnées environnementales (bases de données produites par le CEFE; TRY Plant Trait database : base de données internationale sur les traits fonctionnels des plantes …) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

« Vers un thésaurus de la biodiversité » Contexte Organisation du projet Création d’un groupe de travail rassemblant : - des écologues, informaticiens du CEFE et du CESAB - d’autres acteurs de la Biodiversité (AnaEE-France, IMBE, INRA) et - des documentalistes (Cellule Terminologie INIST) sous l’égide du rBDD (réseau Bases de Données) – volet «Interopérabilité» (Mission pour l’Interdisciplinarité du CNRS) Atelier conjoint en juin 2014 (CESAB) : « Vers un thésaurus de la biodiversité » Création d’un groupe de travail rassemblant des écologues et informaticiens du CEFE et du CESAB, d’autres acteurs de la Biodiversité (AnaEE-France, IMBE, INRA) et des documentalistes (Cellule Terminologie INIST), sous l’égide du rBDD (réseau Bases de Données) - volet «Interopérabilité» (dans le cadre de la Mission pour l’Interdisciplinarité du CNRS) - AnaEE-France (Analyses et Expérimentations sur les Ecosystèmes): infrastructure européenne - IMBE (Institut Méditerranéen de Biodiversité et d’Ecologie marine et continentale) UMR CNRS-Univ. Aix-Marseille - INRA (Institut National de la Recherche Agronomique) Organisation d’un atelier conjoint au CESAB le 18 juin 2014 : « Vers un thésaurus de la biodiversité » (lien vers le site rBDD) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Contexte Cadre du projet Des données environnementales interdisciplinaires, hétérogènes, disséminées dans de multiples jeux de données et réparties dans de nombreuses bases (BBEES-INEE) Des standards de métadonnées spécifiques à l’Environnement : EML Ecological Metadata Language (GBIF, ILTER, KNB) ISO 19115 pour les données géoréférencées conformes à la Directive européenne INSPIRE Des thésaurus dédiés à l’Environnement utilisant les formats et standards du web sémantique, mais non spécialisés sur la thématique « biodiversité » Données environnementales Elles sont issues de recherches interdisciplinaires, donc sémantiquement hétérogènes, disséminées dans de multiples jeux de données, sans concertation sur la qualité des métadonnées associées, et réparties dans de nombreuses bases Bases recensées par l’UMS BBEES (Bases de données Biodiversité, Ecologie, Environnements Sociétés – MNHN/CNRS INEE Institut écologie et environnement) http://www.bdd-inee.cnrs.fr/ Annuaire de la Recherche sur la Biodiversité (FRB) http://www.portailfrb.fr/portailFRB/faces/recherche_avancee_projet.jsp Des standards de métadonnées spécifiques au domaine Environnement : Standard de métadonnées EML Ecological Metadata Language Ex. d’utilisateurs : Système mondial d'information sur la biodiversité GBIF (Global Biodiversity Information Facility) metadata profile; réseau international ILTER (International Long-Term Ecological Research); Entrepôt de données KNB (Knowledge Network for Biocomplexity); futur Portail national ECOSCOPE (réseau des observatoires de recherche sur la biodiversité) Le projet ECOSCOPE est un Système d’Observation et d’Expérimentation sur le long terme pour la Recherche en Environnement (SOERE) et une Infrastructure de Recherche (IR) financé par le ministère de la recherche, via AllEnvi depuis 2011. - Norme ISO 19115 pour les données géoréférencées conformes aux exigences de la Directive européenne INSPIRE (Infrastructure for Spatial Information in the European Community) (2007, transposée en 2010) Des thésaurus et ontologies dédiés à l’Environnement utilisant les formats et standards du web sémantique, mais non spécialisés sur la thématique « biodiversité » Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Les thésaurus sur l’Environnement dans le web sémantique Phase préliminaire Inventaire des thésaurus du domaine Environnement sémantiquement interopérables Interdisciplinarité Thésaurus multidisciplinaires ; Initiatives européennes : GEMET et EARTh (compatibles thématiques INSPIRE) interrogeables simultanément avec AGROVOC (LusTRE); EnvThes (ILTER) Interopérabilité Conformité avec les standards et formats du web de données (W3C, SKOS, RDF, concept URI) et la norme ISO 25964 ; Disponibilité dans le Linked Open Data (LOD cloud) Alignements Réalisés en skos:exactMatch ou closeMatch et affichés réciproquement ou non pour chaque concept au sein du LOD. Ressources téléchargeables sous licence libre Phase préliminaire Inventaire (lien avec schéma 1) des thésaurus existants dans le domaine Environnement et sémantiquement interopérables Interdisciplinarité Thésaurus multidisciplinaires et/ou multilingues ; microthésaurus Réalisés à l’initiative de plusieurs programmes européens : GEMET, EARTh (compatibles avec les thématiques de la directive INSPIRE); EnvThes (conçu dans le cadre ILTER/LTER-Europe) GEMET et EARTh sont consultables simultanément avec AGROVOC (FAO) dans le cadre d’un programme conjoint eENVplus: LusTRE (Linked Thesaurus fRamework for Environment) : mais interrogation uniquement en anglais. AGROVOC: Organisation des Nations Unies pour l’alimentation et l’agriculture (FAO) GEMET: General Multilingual Environmental Thesaurus (Agence européenne de l’environnement / Eionet European environment information and observation network) EARTh: Environmental Application Reference Thesaurus eENVplus: eEnvironmental services for advanced applications within INSPIRE EnvThes: Environmental Thesaurus (EnvEurope) Interopérabilité Conformité avec les standards et formats du web de données (W3C, format SKOS, triplets RDF, identifiants uniques/concepts URI) Respect de la norme ISO 25964 Part 1 (2011) – Part 2 (2013); en correspondance avec SKOS ou SKOS-XL le tout permettant leur présence dans le Linked Open Data (LOD cloud) (SKOS: Simple Knowledge Organization System; RDF: Resource Description Framework; URI: Uniform Resource Identifier) Alignements Réalisés en skos:exactMatch (propriété transitive) ou closeMatch et affichés de manière réciproque ou non pour chaque concept au sein du LOD. Ressources téléchargeables sous licence libre (CC BY) en SKOS/RDF Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Les thésaurus sur l’Environnement dans le web sémantique CC BY NC ND LOD EARTh * (eENVplus) EnvThes * (EnvEurope-Life+) LOD DBpedia LOD LOV ILTER LTER-EUROPE INSPIRE exactMatch Thésaurus de la Biodiversité closeMatch exactMatch CC BY NC SA exactMatch AGROVOC (FAO) LOD EUROVOC (UE) exactMatch exactMatch exactMatch LOD CC BY LOD GEMET * (EIONET/EEA) Légende du schéma 1 Flèche épaisse : alignement réciproque Flèche fine : alignement unidirectionnel Flèche en pointillés : alignement en projet LOD : Linked Open Data LOV : Linked Open Vocabularies CC BY : Licence Creative Commons Rectangle : thésaurus Ellipse : infrastructure utilisatrice Trapèze : autre ressource terminologique Taille des rectangles : proportionnelle au nombre total de concepts Taille des caractères : proportionnelle au nombre de concepts en Environnement Astérisque : thésaurus spécialisé en Environnement owl: sameAs skos: exactMatch skos: closeMatch skos: relatedMatch exactMatch LOD exactMatch Rameau BNF INSPIRE exactMatch LOD NALT (USDA) SKOS/RDF exactMatch Biocomplexity Thesaurus * (USGS) closeMatch closeMatch LOD LCSH LOD Atelier 4 –I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Etapes de constitution d’un thésaurus de la Biodiversité Comparaison de la richesse et de la cohérence sémantique des thésaurus existants, de leurs équivalences intra- (skos:altLabel) et inter-linguistiques (multilinguisme) et de leur interopérabilité : points forts / points faibles Sélection de thésaurus-pivots pour réaliser des alignements avec nos propres référentiels (skos:exactMatch, propriété d’alignement transitive ) : Agrovoc, GEMET, EARTh Sélection de termes issus des référentiels terminologiques INIST en Ecologie, Environnement, Agronomie : richesse en synonymes et formes variantes, bilinguisme.  Hiérarchisation des concepts; conversion en SKOS Comparaison de la richesse et de la cohérence sémantique des thésaurus existants, des équivalences intra-linguistiques (synonymes skos:altLabel) et inter-linguistiques (multilinguisme), de leur interopérabilité et de leur reconnaissance internationale Agrovoc: multilingue, riche en synonymes, nombreux alignements, licence libre. GEMET: multilingue, définitions, groupes thématiques, absence de synonymes, licence libre. EARTh: richesse conceptuelle, définitions, absence de français, non téléchargeable. EnvThes: définitions, monolingue anglais, ni synonymes, ni termes associés, non téléchargeable. 2. Sélection de thésaurus-pivots en vue de réaliser des alignements avec nos propres référentiels (skos:exactMatch propriété transitive) : sont retenus prioritairement Agrovoc, GEMET et EARTh - le thésaurus international Agrovoc (FAO) : pionnier du LOD (avec 12 alignements; 21300 outlinks; 3000 inlinks) - le thésaurus européen GEMET (Agence européenne de l’environnement) : plus restreint mais spécialisé en Environnement - le thésaurus européen EARTh (Environmental Applications Reference Thesaurus) qui n’est pas multilingue, mais se veut plus ambitieux que GEMET (nombre de concepts) tous 2 étant compatibles avec la directive INSPIRE. Ces thésaurus vont pouvoir jouer le rôle de passerelle entre les concepts identifiés par leurs URI. 3. Sélection de termes issus de différents référentiels terminologiques INIST en Ecologie, Environnement, Agronomie Richesse en synonymes et formes variantes (skos:hiddenLabel), bilinguisme Lien avec notice Inist « Biodiversité » On procède à la catégorisation, la structuration et la hiérarchisation des concepts. Conversion en format SKOS pour les rendre interopérables et réaliser des alignements (directement ou transitivement) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Référentiel terminologique Inist : concept Biodiversité Une trentaine de termes d’accès du langage naturel (titres, résumés) pour chaque langue (anglais, français) Spécifiques: agrobiodiversité; diversité écosystémique Synonymes: diversité biologique Variantes orthographiques: ecodiversity Atelier 4 –I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Etapes de constitution d’un thésaurus de la Biodiversité Combinaison de deux approches complémentaires : Approche par le haut (top-down) : termes/concepts génériques à partir desquels débutera la hiérarchie du thésaurus, issus des référentiels INIST et de leurs alignements Approche par le bas (bottom-up) : apport de vocabulaires plus spécialisés (termes pré-coordonnés) et concepts plus spécifiques issus des bases de données de la recherche Thesauform-Traits : diversité fonctionnelle des plantes Indicateurs de la biodiversité (CBD, EEA, ONB) Lien avec Schéma 2 Combinaison de deux approches complémentaires Approche par le haut (top-down): termes/concepts génériques à partir desquels débutera la hiérarchie du thésaurus, issus des référentiels INIST et de leurs alignements après conversion en SKOS. Approche par le bas (bottom-up): apport de vocabulaires plus spécialisés (termes pré-coordonnés) et concepts plus spécifiques issus des bases de données de la recherche - Thesauform-traits (CEFE) : diversité fonctionnelle des plantes - Indicateurs de la biodiversité (Convention sur la Diversité Biologique; European Environment Agency; Observatoire National de la Biodiversité)  Rem. On ne traitera que des concepts thématiques (pas de taxonomie ou de géographie pour lesquels il existe des référentiels d’autorité) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Constitution d’un thésaurus de la Biodiversité Ressources terminologiques INIST-CNRS L u s T R E - eENVplus INSPIRE Vocabulaires de AnaEE France, SOERE, LTER GEMET Vocabulaires des bases de données INEE-BBEES-Thesauform-traits… AGROVOC Thésaurus de la Biodiversité Essential Biodiversity Variables (EBV) GEO BON EARTh LTER-France : Long-Term Ecological Research network (sous-partie du réseau LTER-Europe auquel participe le CNRS avec les Zones Ateliers) SOERE : Systèmes d’observation et d’expérimentation au long terme pour la recherche en environnement Bases de données INEE (Institut Ecologie et Environnement - CNRS) : inventaire de l’UMS BBEES (Bases de données Biodiversité, Ecologie, Environnements Sociétés) GEO BON : Group on Earth Observations - Biodiversity Observation Network (GBIF, ILTER, IUCN, USGS…) EU BON : European Biodiversity Observation Network (auquel participent le CNRS et l’IMBE) CBD : Convention sur la Diversité Biologique Indicateurs de la biodiversité -CBD 2020 -European biodiversity indicators (European Environment Agency) -Indicateurs de l’ONB (Observatoire National de la Biodiversité)  Atelier 4 –I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Perspectives Recherche simultanée avec plusieurs vocabulaires alignés : passerelle sémantique pour le moissonnage des entrepôts de données et les moteurs de recherche sémantique (LusTRE) Visibilité de ressources terminologiques francophones dans le Web Sémantique et le LOD Evolution des thésaurus vers des ontologies Fouille de texte et de données (text & data mining) avec des formes variantes du langage naturel (skos:hiddenLabel) Recherche simultanée avec plusieurs vocabulaires alignés : passerelle sémantique pour le moissonnage des entrepôts de données et les moteurs de recherche sémantique (programme eENVplus: LusTRE) Visibilité de nos ressources terminologiques bilingues et francophones dans le Web Sémantique et le LOD Evolution des thésaurus vers des ontologies (ex. Agrovoc : « Agrontologie »): la relation « est associé à » (skos:related) est subdivisée en sous-propriétés « a pour composant / est un produit de / a pour thème / est membre de / est influencé par / dépend de … » Fouille textuelle et fouille de données (text and data mining) avec des formes variantes du langage naturel (skos:hiddenLabel) Les chercheurs en sciences de l’environnement et de la biodiversité sont fortement impliqués dans les réseaux et groupes de travail sur l’intégration des données de la recherche et l’annotation sémantique : - RDA (Research Data Alliance) : Biodiversity Data Integration Interest Group (LifeWatch, EU BON (European Biodiversity Observation Network), GBIF…) - 2nd EUDAT (European Data Infrastructure) Conference (2013): Semantic Annotation work group, auquel participent LTER et LifeWatch - Atelier Ingénierie des connaissances 2014 - AnaEE-France (infrastructure européenne Analyses et Expérimentations sur les Ecosystèmes) - EnviroInfo 2014 Conference Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Projet Termith http://www.atilf.fr/ressources/termith Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Contexte Financement : ANR Durée 3 ans (2013 – 2015) Partenaires : Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Objectifs Améliorer l’accès à l’information contenue dans les articles scientifiques en français dans le domaine des sciences humaines Via une indexation automatique des textes intégraux Traitement automatique de la langue : Extraction automatique de candidats termes Filtrage des termes contenus dans les textes Un exemple en sciences du langage : « le sujet de mon article est la syntaxe » « le verbe s’accorde avec le sujet en nombre et en genre » Disciplines traitées dans le projet : Sciences du langage, Archéologie, Psychologie, Sciences de l’information Chimie Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Usage Scénarios d’utilisation des résultats Termith Scénario 1 : Evaluation de la qualité des candidats termes extraits et filtrés pour l’enrichissement des ressources terminologiques Scénario 2 : Evaluation de la pertinence des mots clés pour l’indexation Scénario 3 : Evaluation de la qualité de l’analyse de contenu produite avec différentes indexations (Termith et Inist) Usage des terminologies dans le projet : Pour améliorer l’indexation automatique à partir du texte intégral Mise à jour et structuration de ces ressources Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Terminologies Inist Quelles ressources terminologiques ? Vocabulaires d’indexation des disciplines du projet Normes de représentation : ISO 16642:2003 : Applications informatiques en terminologie – Terminological Markup Framework (TMF) Modèle abstrait pour représenter des terminologies Utilisé pour passer d’une organisation lexicale à une organisation conceptuelle à l’occasion de la mise en place de TermSciences ISO 30042:2008 : Systèmes de gestion de la terminologie, de la connaissance et du contenu – TermBase eXchange (TBX) Sérialisation XML de TMF (plus précise) pour échanger des données terminologiques Utilisé comme format terminologique pivot dans Termith Norme ISO Comité TC37/SC3 Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Méta-modèle Section Composant de Terme Collection de données terminologiques Informations globales Entrée terminologique Section Langue Section Terme Section Composant de Terme Informations complémentaires Source : L. Romary Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Principes et avantages Organisation par concept Toutes les informations terminologiques appartenant à un concept, c-à-d tous les termes (qui désignent ce concept) dans toutes les langues et toutes les données descriptives et administratives, sont traitées comme une unité terminologique Autonomie du terme Tous les termes appartenant à un concept sont considérés (dans une entrée terminologique) comme des blocs autonomes (et répétables) de catégories de données ≠ thésaurus Sémantique fine Richesse dans les possibilités de description des termes et des concepts par des catégories de données ISO 704:2009 Travail terminologique -- Principes et méthodes Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

TBX : Principales catégories de données Obligatoire Fortement recommandé Terme, langue du terme Grammaticales : partie du discours, genre, type de terme Textuelles : définition, contexte, note Catégorisations : domaine, projet, utilisateur Administratives : dates, noms, sources de données Usage : géographique, statut d’usage, localisation Référence à d’autres termes et à des informations externes Graphiques Type de terme : forme pleine, forme abrégée, variante Source : L. Romary Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Exemple Termith Exemple en linguistique avec concept générique / termes synonymes en français / terme en anglais + toujours un terme préférentiel (« preferredTerm ») (Exemple à mettre en forme)

Exemples d’enrichissements Propositions de nouveaux termes issus des évaluations faites dans le Scénario 1 Propositions d’enrichissements par post-doc Atilf (sur le domaine des Sciences du langage) : Distinction entre les différentes couches lexicales : Terminologie des sciences du langage Lexique scientifique transdisciplinaire (« étude théorique ») Langue générale (« enfant », « adulte », « âge périscolaire ») Introduction de facettes permettant de catégoriser les concepts (en lien avec Scénario 3) : Concept grammatical Concept rhétorique Noms de langues Introduction de définitions Facettes pour scénario 3 : on souhaite classer les résultats d'une requête en fonction des différentes facettes pour filtrer le corpus en fonction de différents angles On trouve aussi : nom de linguiste, nom d’école de pensée, relation linguistique, propriété linguistique (comme sous-parties de concept grammatical) Définitions : elles seront conçues suivant un formalisme en cours d'identification et tiendront compte des besoins des indexeurs/documentalistes novices en SdL, outre que d'une exploitation automatique. Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

En conclusion Choix SKOS/TBX ? Stratégie optimale : TBX comme format riche SKOS comme format de « livraison » Mapping possible dans les 2 sens : SKOS --> TBX (pour initialiser une base terminologique à partir de ressources SKOS) TBX --> SKOS (avec perte d’informations) pour SKOS=>TBX : signaler que cela correspondrait à l’initialisation d’une base terminologiques à partir de ressources SKOS (ex.: un traducteur qui prépare un travail dans un domaine donné et qui veut construire sa termino) Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Mise à disposition des Terminologies INIST Astronomie SKOS Transfusion sanguine SKOS Nutrition artificielle SKOS Optique SKOS Géographie Amérique du Nord SKOS Psychologie de la mémoire SKOS Pathologies SKOS Sciences du langage TBX Archéologie TBX Sciences de l’information TBX Chimie TBX Psychologie TBX http://www.inist.fr/?Terminologie EN COURS community.temis.com/fr/market-place EN COURS http://www.ortolang.fr/ A VENIR Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Merci de votre attention Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014

Notions de base en SKOS Concepts (skos:concept) Identifiés à l’aide d’URI Désignés par des expressions en langue naturelle skos:prefLabel, skos:altLabel, skos:hiddenLabel Documentés par différents types de notes skos:note, skos:definition, skos:example Reliés sémantiquement les uns aux autres par des hiérarchies informelles et des réseaux d’association skos:broader, skos:narrower, skos:related Intégrés à un schéma conceptuel skos:inScheme, skos:hasTopConcept, skos:topConceptOf Reliés à d’autres concepts de thésaurus différents skos:exactMatch, skos:closeMatch Atelier 4 – S. Barreaux, N. Combo, F. Drouard, I. Gomez, D. Vachez Carrefour de l’IST 25/11/2014