Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Vers le Web de données ApplicationLancementFormat RDFDonnées à jourRichesse des liens Calames2008RDFaOui+ theses.fr2010RDFa + RDF/XML 2011 Oui+ IdRef2010RDF/XML + RDFa 2011 Oui++ Sudoc2011RDF/XML 2011 Oui+++
Il faut participer au Web de données [Acquis]
Objectifs de latelier Faire un bilan détape Montrer les données Justifier certains choix Expliquer comment ça marche Manipuler quelques outils simples Esquisser la suite du travail à mener – Nous – Vous
Partons du connu
Sagit-il de données RDF ou dune simple notice Dublin Core ?
RDF nu
about En RDF, il faut expliciter de quoi on parle en lidentifiant par une URL : est lidentifiant du document décrit est décrit à cette page-là
triplets En RDF, tout est décomposé en triplets Chaque triplet est indépendant Chaque triplet pourrait être stocké séparément Pas de notice finie Une autre source peut la compléter, si elle parle de la même chose : Interopérabilité. Extensibilité.
Identifier la langue avec le référentiel Lexvo
Mettre en relation un document et une langue La langue nest pas un code (fre) La langue est une entité à part entière – Avec son propre identifiant – et ses propres propriétés La propriété dcterms:language met en relation deux entités
décrite en HTML
décrite en RDF
De fil en aiguille La description de la langue poursuit la description du document Sudoc Où sarrêter ? Cest sans fin Cest le Web de données
Identifier les personnes avec IdRef
IdRef, fournisseur didentifiants et de référentiels = application Web ouverte – Ouverte sur le Web de données – Ouverte à dautres applications IST (France) Par son Web Service de recherche Par ses fonctions dintégration (Javascript) Différents moyens/services pour récupérer et exploiter les identifiants et les données des autorités Sudoc ABES.
IDREF Autorités Sudoc Sudoc et IdRef Sudoc
Autorités Sudoc Les autorités Sudoc, pivot du Linked data ABES theses.fr Calames Sudoc Thèses soutenues et Thèses en cours (2011)
RDFa de Calames Pas de page RDF/XML Le RDF est caché dans le HTML de Pour révéler le RDF caché, utiliser un outil comme
RDFa de Calames
RDFa de theses.fr Pas encore de page RDF/XML Le RDF est caché dans le HTML de Pour révéler le RDF caché, utiliser un outil comme
Les thèses portant sur les correspondants de Goethe PREFIX foaf: PREFIX dc: PREFIX ead: PREFIX tef: SELECT ?these { ?ms dc:creator. ?ms ead:destinataire ?destinataire. ?these a tef:Thesis. ?these dc:subject ?destinataire } La requête exploite les données Calames et STAR
Lier les données à IdRef, au-delà de lABES
Autorités Sudoc Linked data IST.fr ? theses.fr Calames Sudoc Thèses soutenues et Thèses en cours ( 2011) HAL ? revues. org ? revues. org ? Persée ? Presses univ. de Y ? Plateforme pédagogiq. ? ? ?
IdRef comme nœud régional Positionnement dIdRef : IST français En complémentarité avec dautres fournisseurs didentifiants et de référentiels : – Local : identifiants propres à une application, à un annuaire – Régional : BnF, auteurs HAL, CERL, DAI (NL)CERLDAI – Global : VIAF, DBpedia
Autorités Sudoc theses.fr Calames Sudoc HAL ? revues. org ? revues. org ? Persée ? Presses univ. de Y ? Plateforme pédagogiq. ? Autorités BnF DBpedia VIAF
Lier les données de lIST entre elles, au-delà dIdRef
Autorités Sudoc Linked data IST.fr ? Les labos ! theses.fr Calames Sudoc HAL revues. org revues. org Persée Presses univ. de Y Plateforme pédagogiqu e X ? ? Référentiel des laboratoires
Autorités Sudoc Linked data IST.fr ? Les affiliations theses.fr Calames Sudoc HAL revues. org revues. org Persée Presses univ.s de Y Plateforme pédagogiqu e X PRISMES (AMUE) locaux Référentiel des laboratoires
On parle de la même chose owl:sameAs
Identifier et nommer les personnes avec IdRef
Identifier les concepts avec IdRef et RAMEAU
IdRef et Rameau Identifiants IdRef pour Rameau A lier aux identifiants canoniques, ceux du centre national Rameau (BnF) quand ils seront officiellement publiés. MeSH Dewey
Préciser le rôle des agents avec les MARC Relators
Lembarras du choix ? dcterms:creator dcterms:contributor marcrel:aut rda:authorWork tef:auteur ?
Qui utilise explicitement marcrel:aut utilise implicitement dc:contributor
Raisonnement Le Sudoc dit : marcrel:aut /id La Bibliothèque du Congrès dit (ici) :ici Marcrel:aut rdfs:subPropertyOf dc:contributor Un outil de raisonnement pourra en déduire que : dc:contributor /id
Qui utilise marcrel:aut peut également tef:auteur, malgré la redondance apparente
tef:auteur Ne semble rien dire de plus que marcrel:aut Mais possède une propriété intéressante : Cest une propriété fonctionnelle = Une thèse ne peut avoir quun auteur = si une thèse a deux auteurs, cest deux fois le même !
Raisonnement Quelquun dit : tef:auteur Quelquun dautre dit : tef:auteur Une ontologie TEF dit : rdf:type owl:ObjectProperty owl:FunctionalProperty (une thèse ne peut avoir qu1 auteur, au sens de tef:auteur) (mais elle peut avoir 2 dc:creator) Un outil de raisonnement pourra en déduire que : owl:sameAs
DÉMO Fichier (fusion des triplets RDF) : Outils de raisonnement :
Raisonnement RDF, cest de la logique Travaux en cours avec le LIRMM pour ADONIS sur les données Persée Oblige à qualité des données et rigueur de la modélisation Sinon : on génère nimporte quoi ! Usages : – Enrichir les données – Expliciter les données – Mettre au jour des incohérences
Page RDF complète
Une pincée de RDA et de FRBR
CONCLUSION
Convertir en RDF Aussi indéterminé que « convertir en Excel » ! Quelle modélisation ? Quels vocabulaires réutiliser ? Forger son propre vocabulaire ? Nos données historiques sont-elles éligibles à ces nouvelles modélisations ? » cf. notre dc:format et notre dc:publisher
Trois lièvres à la fois PrioritéObjectifVocabulaires Parler à la cantonadeInteropérabilité généraledc, foaf Modéliser de manière exhaustive nos données métier Se passer de MARCrda, isbd, frbr Faire raisonner les donnéesTirer le maximum des données Contrôler leur qualité Aide au catalogage ad hoc si nécessaire
La suite Enrichir encore les conversions en RDF Multiplier si nécessaire les vocabulaires employés, sans craindre les redondances Ajouter des liens internes et externes (IST française, BnF, OCLC, Dbpedia, Freebase, etc.) Encourager les partenaires à diffuser leurs données en RDF, en sappuyant sur des référentiels communs (IdRef) Continuer à exploiter ces données en RDF avec le LIRMM et dautres