Référentiels et interoperabilité (2) Antoine Isaac Europeana & Vrije Universiteit Amsterdam Séminaire INRIA IST Carnac, 2 Octobre 2012.

Slides:



Advertisements
Présentations similaires
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Advertisements

Corese Moteur de recherche sémantique pour RDF
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Ateliers d'écriture Capturer les expériences du projet Ateliers d'écriture Capturer les expériences du projet.
Les espaces de nommage XML par Philippe Poulard 1
Ontologie, Méta-données, Sémiotiques
Understanding, building and using ontologies. Understanding Ontologie : la définition des concepts utilisés dans un langage donné Première approche (Gruber)
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
Métadonnées pour les thèses numériques françaises
Logiciels de Modélisation par Objets Typés
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
Intégrer IdRef dans les applications documentaires de votre université. Pourquoi ? Comment ? Atelier JABES2011.
XML-Family Web Services Description Language W.S.D.L.
Les autorités Sudoc au-delà du Sudoc JABES Stratégie ABES Connecter des notices bibliographiques aux autorités Sudoc » Notamment les Personnes Quelles.
Web Sémantique: Le Relief Actuel
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Introduction à la conception de Bases de Données Relationnelles
Interfaces et Scénarisation (COM2571) 29 octobre 2013 Grégory Petit
Le portail des MSH
SÉMINAIRE DE LANCEMENT DES COURS EN LIGNE
RDF(S)
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Colloque IC-2012– Montréal 6-7 juin 2012
W3C OWL Ontology Web Language
Web sémantique : Web de demain
Jonathan Montois Cyrille Kriegel
Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011.
Normalisation des échanges de données en terminologie
Découverte de correspondances entre ontologies distribuées
Intégration des TIC et nouveaux outils
Bases de données phénotypique et ontologie
La veille numérique : un outil pour s'informer intelligemment &
LA COMMUNAUTÉ DE PRATIQUE DES INTERVENANTS EN DÉCROCHAGE SCOLAIRE EN MAURICIE.
ISICIL Mai 2010 Nicolas Delaforge Architecture serveur(s) et prototypes de social bookmarking/tagging dans ISICIL Avancement technique.
Sémantique et interopérabilité
Web Sémantique et Interopérabilité des Vocabulaires Conceptuels
Référentiels et interoperabilité (1)
METISSE Méthodes Et Théories pour une Ingénierie des Systèmes Socio- Environnementaux.
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Littérature scientifique
Jour 4: Management & Information System (MIS). Objectives de la session Introduire le thème MIS: définition, les différents éléments, construire le système.
Université M’Hamed Bougara de Boumerdes
Content Management System CMS. Pourquoi ? Obligation de ressaisir des contenus publiés à plusieurs endroits Pas d’outils de gestion de qualité de l’information.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Négociation et adaptation à base de profil utilisateur
Chapter 8A Semantic Web Primer 1 Chapitre 8 - Conclusions et perspectives Grigoris Antoniou Frank van Harmelen.
Ontologies et description du contenu de documents AV : Une expérimentation dans le domaine médical Mardi 31 mai 2005 Raphaël Troncy 1 & Antoine Isaac 2.
1 Le monde a changé Le web aussi … Datalift une plateforme Linked Data, Retour d'expériences Gabriel KEPEKLIAN Directeur R&D Atos SI.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
E-Technology lab Plateformes, Technologies et Architectures pour les systèmes eGouvernement Par: Dr Mamadou Koné Université Laval, Québec, Canada et Houda.
28/05/20021 DOE : une mise en œuvre d’une méthode de structuration différentielle pour les ontologies Raphaël TroncyAntoine Isaac
GNU Free Documentation License
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Web sémantique Par Lydia Carine Mampais KI Bamba SISSOKO
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Web sémantique est pratique documentaire
Comment aborder la tâche?
Présentation du framework JSF (Java Server Faces) dans le modèle événementiel MVCII
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
Gallica 2 : Les pratiques collaboratives dans l’environnement d’une bibliothèque numérique et les développements web 2.0 de la BNF Rencontres 2008 des.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Présentation de la taxonomie XBRL BE-fr-pfs-ci Bruxelles, le 25 janvier 2006 Camille Dümm Pascal Rodrique Centrale des bilans.
La banque des vocabulaires éducatifs Mike Collett Vocabulary Management Group
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T ProdInra en Web sémantique Esther Dzalé Y. Kaboré Sophie Aubin Hugues Leiser.
VERS UN CERCLE VERTUEUX Session parallèle 1 Comment les établissements Sudoc, les éditeurs et l’ABES collaborent pour proposer des données de signalement.
Transcription de la présentation:

Référentiels et interoperabilité (2) Antoine Isaac Europeana & Vrije Universiteit Amsterdam Séminaire INRIA IST Carnac, 2 Octobre 2012

Interopérabilité des éléments de données Objectif: passer de données exprimées avec un jeu d’éléments de données à un autre jeu Typiquement, relier classes et propriétés de deux ontologies – owl:equivalentClass, owl:equivalentProperty – rdfs:subClassOf, rdfs:subPropertyOf – Axiomes « ad hoc » edm:Agent rdfs:subClassOf [ rdf:type owl:Restriction ; owl:maxCardinality "1"^^xsd:nonNegativeInteger ; owl:onProperty rdaGr2:dateOfBirth ].

Idéalement: réutiliser un maximum de référentiels Exemple: EDM

Idéalement: réutiliser un maximum de référentiels Delacroix en EDM rdf:type edm:Agent ; foaf:name "Eugène Delacroix" ; skos:altLabel " Ferdinand Victor Eugène Delacroix" ; rdaGr2:dataOfBirth "26 avril 1798".

Application Profiles Dublin Core Singapore Framework

Leçons pour la réutilisation d’éléments de données Points cruciaux : Accessibilité technique (Linked Data) Documentation Le support institutionnel est crucial Bonne interconnection - Eviter la duplication Réponse à des besoins spécifiques (requirements), pas seulement des problèmes philosophiques Nécessité de “cartographier” l’offre disponible Cf. Linked Open vocabularies:

En pratique: alignement post hoc Souvent la roue a déjà été inventée, quelque part Mais elle n’était peut-être pas belle… Et/ou pas vraiment adaptée à votre besoin Cas des ontologies applicatives ou de sous-domaines Privilégier une élément d’un jeu particulier peut être contre-productif Malheureusement beaucoup sont encore réticents à assembler leur jeux d’éléments en recyclant directement des vocabulaires existants

Correspondance entre éléments “locaux” utilisés par les fournisseurs et EDM Scenario Europeana EDM property - “Original” property -

Comment ? En général les fournisseurs voudront créer le mapping eux mêmes – Travail ardu, mais la précision est cruciale – Beaucoup ont déjà l’expérience Pas d’instruction sur comment le réaliser Plus tard: inférence en utilisant des axiomes OWL, matérialisation par requête SPARQL CONSTRUCT Pour l’instant: n’importe quelle feuille de style XSLT ou script XML- >EDM/XML

Outillage MINT:

Outillage Autres projets liés à Europeana PrestoPrime prestoprime.joanneum.at EuropeanaConnect semanticweb.cs.vu.nl/xmlrdf Context plus général R2R www4.wiwiss.fu-berlin.de/bizer/r2r Datalift datalift.org …

Intéropérabilité des vocabulaires de valeurs 12 Provient d’un jeu d’éléments de données / ontologie Provient d’un vocabulaire contrôlé

Intéropérabilité des vocabulaires de valeurs Requiert l’alignement des éléments de données utilisés pour chacun des vocabulaires, ou la conversion vers un jeu d’élément pivots (par ex. SKOS) Requiert la détection d’équivalences « sémantiques » entre concepts

Créer un réseau d’équivalences

Demo Concepts equivalents American LCSH French RAMEAU German SWD STW DBPedia

SKOS mappings KOS 1: animals cats wildcats KOS 2: animal human object

Un problème difficile L’alignement manuel de vocabulaires demande beaucoup de travail LCSH, RAMEAU et SWD alignés dans le projet MACS SWD et Dewey alignés dans le projet CRISS-CROSS Problème: taille, langue, différence d’approches Le crowdsourcing n’a pas encore été expérimenté pour des vocabulaires experts

Sémantique et interopérabilité Techniques d’alignement automatiques Lexicales Structurelles Structure des vocabulaires Connaissances de contexte Extensionnelles

Web Sémantique et Interopérabilité des Vocabulaires Conceptuels Alignement lexical Utilise les libellés des concepts, définitions… avancée à la perchebarque Barque broaderMatch chat exactMatch chat chats exactMatch chat cat exactMatch

Référentiel de contexte Connaissances de contexte Exploitation des liens d’une référence partagée Thesaurus 1 Thesaurus 2 “Calendar” “Publication”

Extensionnelles Néerlandais Litérature néerlandaise Thesaurus 1 Thesaurus 2 Utilisant les ressources décrites avec les vocabulaires de valeurs

Combiner des techniques: AMALGAME Do not try to make the tool smart – use simple atomic matching components – fast, scalable, with predictable and understandable results Empower domain experts by interactive iteration loop – try most promising component(s) – analyze the results – decide on next step: discard results from last attempt refine current results to improve precision look for more results to improve recall 22

Amsterdam Museum case,

Alignement: pas de solution triviale Ces techniques permettent d’obtenir des résultats STW, AGROVOC… Mais seules, elles ne suffisent pas Combinaison avec travail manuel (vérification, complétion) L’alignement est un problème de recherche difficile La R&D s’est surtout concentrée sur les ontologies Le Web de données change la donne Des outils pour jeux de données sont dévoloppés, e.g., SILK www4.wiwiss.fu-berlin.de/bizer/silk/

Un problème général d’alignement

Un problème général d’alignement Les vocabulaires de valeurs sont des jeux de données, d’un point de vue technique Ils sont plus « réguliers » que les jeux de données généraux Une sous-famille utilisant SKOS comme ontologie Des techniques similaires sont appliquées aux ontologies, valeurs de vocabulaires et autres jeux de données, même si les caractéristiques des référentiels et les besoins en relations sont différents

Des challenges de haut niveau

[Cyganiak, Jentzsch] Sparse linkage: the LD cloud

[Guéret, 2010] Sparse of linkage: another view

Stratégies d’alignement ?

Stratégie pivot vs. alignement par paire Backbone, hub-and-spoke [BS8723]

Guidage par la communauté ?

Guidage par la communauté ? Liens entre ressources spécifiques aux bibliothèques VIAF, LCSH, Dewey, UDC, Worldcat, PND… Liens de/vers des ressources plus générales – Musées, archives – Coommunauté scientifique: données de recherche – Editeurs – Europeana et autres aggrégateurs

Critères de sélection Exemple: EuropeanaConnect Pertinence institutionnelle, par rapport aux collections Adequation du type de ressources (lieux, sujets, personnes…) à l’application “Qualité” – Grain conceptuel et couverture – Couverture lexicale – langues – Couverture et précision des liens sémantiques Licenses

Flexibiliser l’approche pivot ? Aligner des ressources petites et spécialisées à des ressources plus grandes et générales, multi-lingues et/ou largement adoptées Des ressources plus spécialisées pourraient être retenues comme points d’ancrage, en fonction des domaines et des alignement existants Plusieurs ressources complémentaires, d’importance comparable, pourraient ensemble jouer le rôle de pivot – La combinaison LCSH-RAMEAU-SWD-etc. peut jouer pour les sujets un rôle similaire à VIAF – Il est possible d’aligner des vocabulaires spécifiques à l’un ou l’autre

Flexibiliser l’approche pivot ? Les outils d’alignment doivent supporter des stratégies flexibles, avec essais et erreurs

Quels types de liens ? Beaucoup d’ontologies proposent des liens d’équivalence sémantique pour des instances de classes owl:sameAs skos:exactMatch, skos:closeMatch skos:broadMatch, narrowMatch & relatedMatch umbel:isLike ore:isSimilarTo foaf:focus …

Problèmes d’application des liens : owl:sameAs En principe, deux URIs liées par owl:sameAs partagent automatiquement ex:a name “Antoine Isaac”. ex:b owl:sameAs ex:a. implique ex:b name “Antoine Isaac”. En pratique, owl:sameAs est appliqué entre des ressources qui ne sont que “très similaires” Une même ressource, mais dans differents contextes

Problèmes d’application des liens : owl:sameAs Par ex., première version de data.nytimes.com dcterms:rightsHolder The New York Times Company. owl:sameAs Quelles conséquences? On peut se contenter de ne pas “appliquer” la sémantique de owl:sameAs

Bonnes pratiques (1) Regarder ce qui est aligné Concepts ou autorités vs. documents vs. entités “du monde réel” (personnes, lieux…) Tenir compte de comment ça a été aligné Co-reference exacte obtenue par reconnaissance d’identifiants uniques vs. similarité (incl. équivalence) dérivée de libellés ou relations sémantiques Représenter les données sur l’alignment et/ou la correspondance individuelle est une option

Au-delà des liens simples Pour des besoins spécifiques, on peut représenter des alignments et leur provenance de façon très fine

Bonnes pratiques (2) Minimiser l’engagement sémantique des liens utilisés skos:exactMatch est transitive: les concepts liés peuvent être échangés en toute généralité, par ex. pour des applications de recherche d’information skos:closeMatch n’est pas transitive, pour représenter un lien qui ne se “propage” pas dans les cas où plus de deux vocabulaires sont alignés de manière approximative Tenir compte de l’application de l’alignement SKOS implique un “contexte d’application” des alignements La qualité d’un alignement dépend aussi du type d’application qui l’emploie !

Evaluation spécifique à une application Campagne Ontology alignment Evaluation Initiative outils évalués suivant deux scénarios: “fusion de thesaurus” et “ré-indexation de livres”

Evaluation spécifique à une application Cas: 2 thesauri à la bibliothèque nationale des Pays-Bas: GTT and Brinkman Pour la fusion de thesaurus, gtt:excavation doit être aligné avec brinkman:excavation Pour la ré-indexation, gtt:excavation doit être aligné avec brinkman:archeology_netherlands

Applications d’alignements Par exemple: Recherche à base de concepts Ré-indexation de livres Fusion de thesaurus Integration d’un thesaurus dans un autre Recherche plein texte Navigation Suggère l’utilisation des correspondences et l’information qu’elles devraient fournir

Prédiction de sujets à la KB Point de départ 2 collections Chacune indexée par son propre thesaurus

Prédiction de sujets à la KB Ré-indexation But: avoir les livres d’une collection décrits avec le thesaurus de la seconde Par ex: si un thesaurus est abandonné, les livres doivent être indexés avec l’autre

Ré-indexation de livres Convertir index source en un système d’indexation cible

STITCH final event Prototype Dans le projet STITCH Etant donnés des index NND/Biblion, prédire un index Brinkman Mix de techniques – Lexicales – Statistiques, utilisant livres communs, très spécifique au scénario Integration dans le logiciel de catalogage Etude utilisateurs (catalogueurs)

Règles de prédiction de sujets Source combination → target concept Confidence level Correct books / Total DGP:Jeugd fictie; vanaf 13 jaar' + KAR:Stripverhaal → BTR:stripverhalen /182 LTR:Reisgidsen + LTR:Spanje → BTR:Spanje ; reisgidsen /50 LTR:Liefde + AUT:Jeanette Winterson → romans en novellen ; vertaald /1 LTR:Bouwkunde → BTR:leermiddelen ; bouwtechniek /123 Les techniques d’alignment extensionnelles prennent en compte les variation d’usage et peuvent être très utiles pour des applications spécifiques

Conclusions Des solutions techniques qui permettent de résoudre des problèmes, mais mettent en valeur là où la difficulté se pose vraiment – Interopérabilité et contexte – Applications et requirements Il semble qu’il y ait besoin de professionnels de l’information ! – Sélection de ressources – Alignement manuel et semi-automatique – Relation aux application Focus de cette présentation : pas les outils, mais un contexte pour juger les outils

Merci ! EuropeanaConnect VU Amsterdam Jacco van Ossenbruggen, Victor de Boer, Jan Wielemaker, Guus Schreiber Equipe projet STITCH: Lourens van der Meij, Shenghui Wang, Stefan Schlobach, Frank van Harmelen, Henk Matthezing, Claus Zinn

First Demo pointers American LCSH French RAMEAU: German SWD: Agrovoc: STW: DBPedia:

[Cyganiak, Jentzsch] Sparse linkage: the LD cloud

[Guéret, 2010] Sparse of linkage: another view

Datacloud in the making