Référentiels et interoperabilité (1)

Slides:



Advertisements
Présentations similaires
VIDEO ACTIVE Faciliter l´accès au patrimoine audiovisuel européen Eric Loze – RTBF Archives Radio & TV.
Advertisements

Les portails culturels - le rôle de Michael
Rosa María Gómez de Regil Educatice, 25 novembre 2010
CSIESR-Arles 16/05/06 -F. JANNIN- B. SOR inJAC ESUP et OAI-PMH Le CMS détablissement dESUP.
Atelier sur les Archives Ouvertes mai 2012, Monastir, Tunisie Les Archives ouvertes et les archives institutionnelles. NEREUS : portail européen.
Mai Le projet européen DRIVER Une infrastructure pour la recherche européenne
La diffusion des métadonnées de la thèse
Corese Moteur de recherche sémantique pour RDF
Documentation numérique sur l’Internet
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
Ontologie, Méta-données, Sémiotiques
Understanding, building and using ontologies. Understanding Ontologie : la définition des concepts utilisés dans un langage donné Première approche (Gruber)
De nouveaux modèles de données pour les catalogues de bibliothèques Médiathèque de la Cité de la musique, Paris - France Patrice Verrier, Coordinateur.
Métadonnées pour les thèses numériques françaises
Desafios regionais e nacionais da digitalização na Europa, Lisbonne, juillet Desafios europeus vistos pela Bibliothèque Nationale de France Lucien.
Nouvelles Pratiques des catalogues. Rendre les données plus utiles sur le web. Publier des pages HTML sur lesquelles les utilisateurs et les moteurs de.
Patrimoine numérique: les "média" et la médiation culturelle
European Schoolnet 1 Les initiatives de European Schoolnet dans le domaine dinteropérabilité European Schoolnet Lyon - Saint-Clément-Les-Places,
le profil UML en temps réel MARTE
Centre National pour la numérisation de sources visuelles
RDF(S)
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
W3C OWL Ontology Web Language
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Web sémantique : Web de demain
Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.
Patrons de conceptions de créations
Normalisation des échanges de données en terminologie
Bases de données phénotypique et ontologie
INRA DV-IST RPIST Nancy
ISICIL Mai 2010 Nicolas Delaforge Architecture serveur(s) et prototypes de social bookmarking/tagging dans ISICIL Avancement technique.
Sémantique et interopérabilité
Web Sémantique et Interopérabilité des Vocabulaires Conceptuels
Présentation du projet edot Revue intermédiaire - 29 Juin 2004.
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
1 Outils bibliographiques Plume 20 mars- Lyon Yannick Maignien.
Université M’Hamed Bougara de Boumerdes
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Content Management System CMS. Pourquoi ? Obligation de ressaisir des contenus publiés à plusieurs endroits Pas d’outils de gestion de qualité de l’information.
Présentation Date de la présentation Une approche collaborative au niveau provincial en matière d’apprentisssage par l’expérience.
1 Séminaire CERDP – Nicosia – Novembre ECPRD ICT working group meeting Document and Knowledge Management Chambre des Députés du Grand-Duché de.
Contenus riches et logique d'industrialisation Contenus riches et logique d'industrialisation Modélisation, production, génération, gestion Stéphane Crozat.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Europeana – Bibliothèque numérique européenne Catherine Lupovici Directeur des opérations Patrimoine, numérisation et accès au savoir, Bordeaux, 22 octobre.
Thésaurus et accès à l’information Sylvie Dalbin Assistance & Techniques Documentaires Conseil en ingénierie documentaire,
COMPTE-RENDU DE LA JOURNEE DU MERCREDI 24 NOVEMBRE 2010.
Portail régional de l’Administration électronique Marc Lepage Coordonnateur Régional Adjoint Information and Communication Technology for.
Les archives en ligne et l'histoire
Mise en œuvre d’un portail « OpenSocial » s’appuyant sur la gestion documentaire Nuxeo-DM JRES 2011 –
Bureau d’études Présentation du sujet Organisation des projets Version 1 8 octobre 2004.
Human Knowledge La nouvelle génération de moteurs sémantiques.
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
Mediadix – Novembre 2013 Marie-Line GUILLAUMEE (BIU Sorbonne)
Information Scientifique et Technique à l’IN2P3 LAL Orsay 25 janvier 2006 Dominique Jarroux-Déclais Responsable IST IN2P3.
Moteurs de recherche ontologiques
Web sémantique est pratique documentaire
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Cours sur le DOI COULET Alban GREMONT Baptiste GIDO2A Le 13/12/2007.
Michael IT Engineer GBIF France Buenos Aires (Argentina) 28 September 2011 Formation sur la publication des données de biodiversité.
Les principales approches d’organisation et D’accès aux ressources électroniques sur le Web Lalthoum Saàdani EBSI - Université de Montréal 32 è congrès.
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
La banque des vocabulaires éducatifs Mike Collett Vocabulary Management Group
Chapitre 1 introduction au web sémantique
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Formation GBIF France dans le cadre d’Ecoscope – Valoriser ses données d’observation sur la biodiversité : qualité, standards et publication Paris,
Introduction générale
OAI-PMH & LOM OAI Repository interoperability using LOM metadata format Interopérabilité des bases de ressources utilisant OAI-PMH et LOM Steve Giraud.
Préparé par : Marouane FELJA
Transcription de la présentation:

Référentiels et interoperabilité (1) Antoine Isaac Europeana & Vrije Universiteit Amsterdam Séminaire INRIA IST Carnac, 2 Octobre 2012

Avertissement ! Le web de données ne matérialise pas la notion de “référentiel” Tout comme le web “traditionel”: techniquement rien ne distingue un “site de référence” d’un autre Mais il y a quand même des ressources qui peuvent prétendre au statut de référence pour une ou plusieurs communautés

Catégories de référentiels possibles Inspiration: rapports du groupe d’incubation du W3C “Bibliothèques et web de données” Élements de métadonnées Vocabulaires de valeurs Jeux de données http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/

Des catégories pas forcément disjointes? “Ontologie” a pu être utilisé pour divers “référentiels sémantiques” [Smith 2001]

Des catégories pas forcément disjointes? Conceptuellement, elles expriment “de la sémantique” Parfois un artefact appartient à deux catégories Mais d’un point de vue technique (semantic web stack) il y a une vraie différence

Eléments de métadonnées A.k.a ontologies OWL, metadata element sets Fournissent les classes et propriétés qui servent de support à l’expression des descriptions Types d’ontologies selon la portée ontologie noyau vs. ontologie de domaine vs. ontologie d’application

“Briques de construction” des graphes RDF myMES:Article rdf:type http://example.org/article1 myMES:suject myVV:Amsterdam

Ontologies par “popularité” sur le Linked Data Cloud http://www4.wiwiss.fu-berlin.de/lodcloud/state/#terms

Dans l’inventaire Library Linked Data http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/#Metadata_Element_Sets

Dublin Core DCMI Metadata Terms A l’origine, 15 éléments généraux pour tous types de documents dc:title, dc:creator, dc:coverage, dc:subject Spécialisés en éléments plus spécifiques, avec par ex. domaines et ranges dcterms:spatial, dcterms:creator dcterms:Agent Utilisable pour relier des resources, pas seulement des descriptions “à plat” Effort communautaire dublincore.org/

FOAF Friend of a Friend Décrire des personnes – réseaux sociaux, pages personnelles… Porté par deux personnes, retour d’expérience des utilisateurs Approche très pragmatique www.foaf-project.org/

OAI-ORE Open Archives Initiative - Object Reuse and Exchange www.openarchives.org/ore/ Open Archives Initiative - Object Reuse and Exchange Décrire des aggrégations de resources qui composent des ressources numériques complexes Eléments clefs Aggrégation Ressource aggrégée “Proxy” “Resource map” Communauté OAI cf. OAI-PMH

Bibo Bibliographic Ontology Ontologie pour les ressources bibliographiques Categorisation de documents (AcademicArticle) Structure des documents (chapter…) Citation (citedBy) Créée par deux personnes bibliontology.com/

FRBR Modèle conceptuel développé par l’IFLA Il existe plusieurs ontologies (FRBRer, FRBRcore, FRBRoo)

Schema.org Représenter dans les pages web des informations de base sur les objets qu’elle représentent Videos, Volcans, Sex shops… Moteurs de recherche (Bing, Google, Yahoo!) Approche top-down, mais très pragmatique

Et bien d’autres… CIDOC-CRM W3C Media Ontology Music Ontology …

Où les trouver ? Rapports Library Linked Data www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/ sindice.com watson.kmi.open.ac.uk/ lov.okfn.org/dataset/lov/ metadataregistry.org Rapports Library Linked Data Moteurs de recherche Sindice Watson Répertoires Linked Open Vocabularies Open Metadata Registry

Linked Open Vocabularies

Etude de cas : la création du Europeana Data Model http://pro.europeana.eu/edm-documentation

?

Europeana Service qui donne accès aux objets numérisés du domaine patrimonial européen Portail liés aux portails des institutions et projets partenaires Services de données: API Linked Data europeana.eu pro.europeana.eu/api data.europeana.eu 21

Qui envoie des données à Europeana? Horizontal Aggregators Vertical Aggregators National Aggregators Archives Culture Grid APEnet Libraries GLAMs The European Library Regional Aggregators “Dark” Aggregators Flanders museums ATHENA ELocal Film archives European Film Gateway Mn;kl;k;klj;lkj;lkj;jh;lkj;klj;klj;klj;klj GLAMs Museums GLAMs

Qu’est-ce qui est envoyé à Europeana? 3. Links to digital objects online 2. Metadata 1. Thumbnails

Résoudre un problème d’intégration de données Construire un service d’accès utilisant les métadonnées est difficile Chaque domaine utilise ses propres modèles et formats LIDO, EAD… Solution actuelle: les partenaires fournissent des métadonnées au format Europeana Semantic Elements (ESE) Plus grand commun dénominateur pour les métadonnées Données “à plat” Ne respectent pas le “one-to-one principle” Perte de la richesse des metadonnées orginelles 24

Plus de “sémantique” pour l’accès aux objets Construire une “couche sémantique” au-dessus des objets

Services assistés par la sémantique Exploitation de relations comme: “localisé à”, “a pour sujet”, “concept plus générique”, correspondences entre langues, domaines Reformulation de requêtes Regroupement et personnalisation de résultats Échanger des données plus riches Les données plus riches sont souvent déjà là ! Thesauri, classifications… Éléments de données complexes (EAD, MARC) Dans le domaine patrimonial ou ailleurs

EDM design requirements Données plus fines Distinction entre l’"objet fourni (tableau, livre…) et ses représentations numériques Distinction entre l’objet et ses descriptions Permettre plusieurs descriptions pour un objet Contenant éventuellement des assertions contradictoires Représentation d’objets complexes Ressources contextuelles, y compris concepts

EDM design requirements Données plus interopérables Permettre la co-existence de plusieurs grains de données Autoriser des profils spécifiques à un domaine Réutiliser et étendre des éléments de standards existants

EDM : les bases OAI ORE pour l’organisation des metadonnées et des représentations numériques des objets Dublin Core pour une partie des metadonnées descriptives CIDOC-CRM comme inspiration pour la structure des événements et des relations entre objets SKOS et d’autres référentiels pour les ressources contextuelles

Exemple - 1

Exemple - 2

Aggregations OAI ORE organiser la “contribution” d’un partenaire provenance metadata digital representation aggregation object

Proxys OAI ORE Représenter une “vue” sur les objets object metadata

Plusieurs fournisseurs = plusieurs aggregations DMF proxy DMF title The “real” painting Louvre Proxy Louvre title

Europeana comme un “simple” fournisseur de metadonnées normalisées et enrichies aggregation “enriched” metadata

Entités contextuelles Récupér et exploiter des données “orginelles” ou enrichies réclame plus que des descriptions centrées objet Evénements, lieux, agents, concepts

Objets et événements

EDM est un effort collaboratif Europeana v1.0 WP3: 60 participants Développement semi-ouvert, “en aquarium” Transversal Experts des bibliothèques, archives et musées Avec EDM, Europeana devient plus compatible avec les besoins de communautés spécifiques. Il est aussi possible de créer des “profils” d’EDM pour ces communautés

Bénéfices de l’approche web de données pour la conception d’EDM Vocabulaires à réutiliser Approche flexible de la conception et la ré-utilisation de standards Ontologies spécifiques co-existant avec les ontologies standards Pas de contrainte sur le grain du modèle de données Facilité technique de la connection et la publication des données Vision qui appuie les stratégies Open Data

Retour aux éléments de métadonnées – ou presque

EDM Elément de (méta)données Concept d’un vocabulaire d’autorité

SKOS Simple Knowledge Organization System Portée: knowledge organization systems (KOS) comme les thesauri, systèmes de classification, autorités matières… SKOS permet de représenter et d’échanger les KOS en RDF de manière simple

Représenter la sémantique La manière formalisée: OWL Semantic Web ontology language Ontologies avec une sémantique exploitable par la machine Mère est une classe C’est l’intersection des classes Femme et Parent Parent est la classe des ressources de type Personne qui sont liés à au moins une autre ressource de type Personne en utilisant la propriété estParentDe …

SKOS n’est pas pour des ontologies formelles Il est possible de produire des ontologies à partir de KOS, mais les KOS Se concentrent souvent sur les données lexicales Enfant UtiliséPour Progéniture Ont une sémantique plus “molle” Parent TermeLié Enfant Sont parfois gigantesques et donc difficiles à “nettoyer” Et pourtant en tant que tels les KOS peuvent être utiles à de nombreuses applications! Recherche sémantique, annotation…

SKOS – les bases Pour satisfaire la majorité des besoins Concepts Propriétés lexicales Liens sémantiques Notes Sémantique et interopérabilité

Un thesaurus fictif Animals cats UF (used for) domestic cats RT (related term) wildcats BT (broader term) animals SN (scope note) used only for domestic cats domestic cats USE cats wildcats

Concepts et libellés cats UF (used for) domestic cats skos: = http://www.w3.org/2004/02/skos/core# rdf: = http://www.w3.org/1999/02/22-rdf-syntax-ns# ex: = http://example.org/

Libellés multilingues

Relations sémantiques cats RT (related term) wildcats BT (broader term) animals

Un graphe SKOS animals cats UF domestic cats RT wildcats BT animals SN used only for domestic cats domestic cats USE cats wildcats

Changement par rapport aux approches traditionelles Approche orientée concepts Plus de frontière “dure” entre vocabulaires Extension & alignement sont facilités à travers différents contextes L’utilisation de plusieurs vocabulaires dans une application est facilitée Transition vers une interoperabilité plus grande avec tous types de jeux de données

Extensions de SKOS MADS/RDF ISO25964 (en cours) Autorités-matières (LCSH) France –– Histoire –– XXeme siècle ISO25964 (en cours) Thesaurus « classiques » Coumpound equivalences: Charbonnages USE Charbon + Mines Arrays: Chaises <Chaises par forme> Fauteuils …

SKOS vs. OWL – rappel Il y a vraiment une différence entre les deux approches Les ressources SKOS (les concepts) sont des instances de classes au sens de OWL (instances de skos:Concept). Elles-mêmes ne sont pas des classes par défaut. Des ontologies comme SKOS existent pour porter et exploiter sur le web de données des données sémantiques “traditionelles” sans avoir à la convertir (et les nettoyer) en ontologies OWL

Vocabulaires de valeurs Terminologie du groupe LLD Regroupe vocabulaires contrôlés, vocabulaires d’autorités, mais aussi potentiellement des folksonomies… SKOS est une ontologie qui permet de publier un semble de ressources d’autorité, référentiels provenant des bibliothèques ou bien d’autres domaines

http://www.w3.org/2001/sw/wiki/SKOS/Datasets

http://thedatahub.org/dataset?q=format-skos

http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/#Value_vocabularies

DBpedia, Freebase? Le web de données efface la fontière technique entre vocabulaire d’autorité et « simples » jeux de données Des ressources SKOS peuvent être liées à des ressources différentes Par ex. une personne et le « concept d’une personne » dans un fichier d’autorité Un jeu de données peut devenir un référentiel

Linked Library Data http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/

Jeux de données Dans le domaine bibliographique Catalogues de bibliothèques nationales Services documentaires spécialisés

Jeux de données a réutiliser et lier Ressources d’intérêt bibliographique sur le Data Hub thedatahub.org/group/lld Linked Open Data Cloud sur le Data Hub thedatahub.org/group/lod Moteurs de recherche sur le Linked Data Cloud Sindice.com

Merci ! aisaac@few.vu.nl Remerciements particuliers: Equipe et partenaires Europeana Membres du groupe Library Linked Data

W3C Library LD Incubator http://www.w3.org/2005/Incubator/lld 1-year group OCLC, LC, VU Amsterdam, DNB, etc. help increase global interoperability of library data on the Web bringing together people involved in Linked Data—in the library community and beyond building on existing initiatives and collaboration tracks for the future

Some steps in production services

First steps for providing semantics enabled services 66

First steps for providing semantics enabled services Enrichment of the data with selected vocabularies and datasets: DBpedia Geonames GEMET Enrichment process based on a selection of Dublin Core elements Note: Europeana needs to have access to open resources 67

Advanced modeling in EDM Relations between provided objects Part-whole links for complex (hierarchical) objects Derivation and versioning relations Relations between provided objects, for instance artistic derivation between works; ens:isRepresentationOf ens:isNextInSequence