II. Participer au Web de données … en utilisant les technologies du Web sémantique
Architecture du Web (1) World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes) Architecture du Web : infrastructure technologique définie par des standards Standardisation de l’architecture du Web assurée par un organisme, le W3C (World Wide Web Consortium) : accessibilité pour les logiciels et machines et accessibilité universelle aux contenus
Architecture du Web (2) Repose sur 3 technologies : Un protocole : HTTP (Hypertext Transfer Protocol) Un langage : HTML (Hypertext Markup Language) Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur Des identifiants Web : URI (Uniform Resource Identifier) Une ressource : tout objet Ressource identifiée de manière univoque par un URI : chaîne de caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)
Les URI 2 déclinaisons : URN (Uniform Resource Name) URI d’identification d’une ressource par son nom unique Utilisé pour identifier une ressource sans s’occuper de son emplacement ou de la manière de la référencer Exemple : urn : isbn:978-2-10-057294-6 = URI de référence à une publication URL (Uniform Resource Locator) URI spécifiant l'adresse physique de localisation d'une ressource sur Internet et la méthode permettant d'y accéder = URI donnant accès à la ressource 4
Évolutions du web Web 1.0 Web de documents permet aux usagers de naviguer facilement sur Internet en utilisant des liens hypertextes une page = un document format : HTML (HyperText Markup Language) ne permet que la mise en forme Web 2.0 Web collaboratif évolution du Web du point de vue des technologies employées et des usages Internet n’est plus simplement un media mais une plate-forme de services et d'applications en ligne Permet aux internautes d'interagir sur le contenu des pages et de dialoguer entre eux Web 3.0 Web de données ou Web sémantique : permet aux machines de trouver et d’exploiter les données contenues dans les documents : format RDF (Resource Description Framework) qui permet de décrire et de relier des ressources
La recette du Web
Le Web de documents Documents Données Base de données Hyperlien Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Limites du Web de documents HTML : langage textuel d’échange de documents semi-structurés Les données sont cachées sous les pages HTML (« web profond ») Seules les pages HTML sont liées entre elles Les pages HTML sont faites pour les humains Ce que veulent les machines : des données structurées = utilisable directement par un ordinateur pour effectuer un calcul car elles se complètent les unes les autres car les liens permettent de naviguer et de découvrir avec des liens qualifiés, signifiants au-delà du « voir aussi » des hyperliens
Le Web de données Un Web constitué de données accessibles, structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement (Définition de Tim Berners-Lee dès 1999) Extension du Web permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes, et de les rendre exploitables par des machines Repose sur les mêmes technologies de base HTTP : transfert des données URI : nommage des ressources Utilisation d’un autre langage : il ne s’agit plus d’échanger des documents destinés à être immédiatement visualisés, mais des données structurées : XML (eXtensible Markup Language) : RDF = langage du Web de données liées
Le Web de données liées Documents Données Base de données Liens entre les bases de données Hyperlien Base de données Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Le web de données ? Web de données ou Linked Data ou Web of Data Mise sur le Web de données : Mouvement de l’Open Data Mise à disposition de données publiques ouvertes librement accessibles sans restriction de copyright, licence payante, brevet, … Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. http://www.opendefinition.org/okd/) Mise en relation des données pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web
Le Web de données aujourd’hui Liens entre les données et transformation du Web en une gigantesque base de connaissances distribuée
Le Web de données aujourd’hui
Pile des standards du Web sémantique
RDF = Resource Description Framework Nouveau modèle généraliste et standardisé pour encoder, échanger et réutiliser des métadonnées structurées Proposé en 1999 par le W3C Permet de décrire, représenter et relier simplement toute ressource (= donnée) du Web : page Web, image, vidéo, personne, objet, évènement, produit, service, … tout ce qui peut être identifié par un URI peut être considéré comme une ressource Objectif : partager les métadonnées pour des ressources identiques par l’utilisation d’une syntaxe commune (RDF/XML)
RDF : un modèle conceptuel Principe de base : toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément déclaration RDF Exemple : Charles Darwin a écrit « L’origine des espèces » Sujet : Charles Darwin Verbe : a écrit Complément : L’origine des espèces
RDF : la notion de triplet Un document RDF est un ensemble de triplets Un triplet est composé de 3 éléments L’ensemble forme une déclaration Triplet {sujet , prédicat , objet} sujet : représente la ressource à décrire, c’est toujours un URI prédicat : représente un type de propriété applicable à la ressource, c’est toujours un URI objet : représente une ressource liée (URI) ou une caractéristique exprimée par une chaîne de caractères (= littéral) : c’est la valeur de la propriété Exemple : Sujet (Ressource) : Charles Darwin Prédicat (Propriété) : a écrit Objet (Valeur) : L’origine des espèces
RDF : la représentation par graphe La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien SUJET OBJET PREDICAT Objet : L’origine des espèces Sujet : Charles Darwin Prédicat : A écrit
RDF : modèle de graphe (2) L’objet d’un triplet peut être : Soit une ressource qui peut être le sujet ou l’objet d’autres déclarations Soit un littéral = chaîne de caractères, nombre, date Sujet : Charles Darwin Objet : The origin of species Prédicat : A écrit Sujet : The origin of species Prédicat : Et né Prédicat : Comprend «1809» Objet : An introduction on the origin of species
Formalisme RDF Modèle permettant d’encoder toute donnée ou métadonnée Permet de décrire les relations entre les ressources Utilise le mécanisme des URI pour identifier les ressources décrites et représenter explicitement toute relation entre 2 ressources Permet de réaliser le Web de données : Éclatement de l’information Des données et pas des « documents » Plus de souplesse pour manipuler, sélectionner…
RDF : souplesse Cadre conceptuel de description des ressources applicable à n’importe quel domaine Permet de mélanger les vocabulaires Un modèle abstrait à représenter avec un langage concret Peut être exprimé en utilisant diverses syntaxes RDF/XML (eXtensible Markup Language) : seule syntaxe qui fait l’objet actuellement d’une recommandation du W3C RDFa : syntaxe pour injecter du RDF dans une page Web… RDF rend les données extensibles : Plus besoin de tout dire sur une ressource, une personne, etc. Possibilité d’ajouter une nouvelle déclaration sur une ressource déjà publiée pour compléter l’information
Un Web de données … Modèle de données : RDF Modèle universel de représentation, d’échanges et d’interconnexion de métadonnées Langage d’interrogation : SPARQL Simple Protocol And RDF Query Language Langage de requête sur les graphes RDF permettant de spécifier le type de données recherchées Format XML pour représenter les résultats d’une requête SPARQL permet d’interroger les données telles qu’on les a modélisées Première phase du déploiement du web sémantique
… et un Web sémantique Objectif : s’assurer de l’interprétation et de l’utilisation des données Publier avec les données leurs schémas ou vocabulaires Schéma (ou ontologie) Document formel expliquant les catégories de ressources, leurs relations, avec leur sens, la structure et les contraintes associées Exemples : Foaf pour la description d’un profil utilisateur Dublin Core pour la description (simple) d’une ressource ISBD pour la description bibliographique RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence
Web de données et Web sémantique Web de données : possibilité de relier et d’échanger des données au moyen d’URI Web sémantique : possibilité d’échanger les schémas de données et la sémantique associée Objectif : permettre aux machines de comprendre la sémantique, la signification de l’information sur le Web
Et pour les bibliothèques : Que peut apporter le Web de données ? Relier les catalogues des bibliothèques avec d’autres données existantes Ouverture à d’autres communautés (libraires, éditeurs, …) Plus de visibilité par les moteurs de recherche Navigation par les utilisateurs sans avoir à connaître les formats des bases de données et les langages de requête spécifiques Tirer parti des données structurées des catalogues et des référentiels Interopérabilité Souplesse pour la réutilisation des données
Web de données et bibliothèques : Comment y arriver ? Des données structurées Des vocabulaires normalisés éléments de métadonnées (title, creator…) listes de valeurs (codes pays, langues…) Des identifiants pérennes : URI pour désigner les ressources pour exprimer les relations entre les données Une syntaxe normalisée : RDF (Resource Description Framework)
Des données structurées 003http://catalogue.bnf.fr/ark:/12148/cb42226398b 010 $a978-2-603-01444-8$brel. 100 $a20100624d2005 m y0frey50 ba 1011 $afre 102 $aFR 105 $a||||z 00||| 106 $ar 2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005 215 $a1 vol. (311 p.)$cill.$d20 cm 2252 $aˆLes ‰guides du naturaliste 300 $aBibliogr. p. 301-303 410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005 454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe 606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau 676 $a595.781 39$v22 700 1$312013664$aCarter$bDavid$f1943-....$4070 702 1$312367696$aHargreaves$bBrian$4440 801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc http://catalogue.bnf.fr/ark:/12148/cb34235813n http://catalogue.bnf.fr/ark:/12148/cb120136648 http://catalogue.bnf.fr/ark:/12148/cb12367696d
Des vocabulaires normalisés Pour exprimer les relations entre les données 2001 $aGuide des chenilles d'Europe 700 1$312013664$aCarter$bDavid$f1943-.... $4070 200 $a Titre propre DC : Title ISBD : Title proper RDA : Title proper 700 $4070 Auteur du texte DC : Creator RDA : Creator RDA : Author
Des URI pour désigner les ressources http://catalogue.bnf.fr/ark:/12148/cb42226398b Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves . - Paris : Delachaux et Niestlé, DL 2005 http://catalogue.bnf.fr/ark:/12148/cb34235813n Les Guides du naturaliste Carter, David (1943-....) http://catalogue.bnf.fr/ark:/12148/cb120136648 Hargreaves, Brian http://catalogue.bnf.fr/ark:/12148/cb12367696d
Des URI pour exprimer les relations (1) DC : Title http://purl.org/dc/elements/1.1/title ISBD : has title proper http://iflastandards.info/ns/isbd/elements/P1004 RDA : Title proper http://rdvocab.info/Elements/titleProper DC : Creator http://purl.org/dc/elements/1.1/creator RDA : Author http://rdvocab.info/roles/author
Des URI pour exprimer les relations (2)
Une syntaxe normalisée Le sujet est toujours un URI Le prédicat est toujours un URI L’objet peut être un texte (« littéral ») ou un URI 2001 $aGuide des chenilles d'Europe Cet ouvrage RDF sujet sujet a pour titre propre verbe prédicat complément d’objet "Guide des chenilles d'Europe" objet Identifiant de la notice + caractère de contrôle URI pour désigner la ressource Cet ouvrage a pour titre propre "Guide des chenilles d’Europe" URI pour exprimer les relations
Un réseau de relations entre des données "Guide des chenilles d’Europe" http://iflastandards.info/ns/isbd/elements/P1004 A pour titre propre "Carter" http://xmlns.com/foaf/0.1/familyName A pour patronyme http://rdvocab.info/roles/author A pour auteur "David" http://catalogue.bnf.fr/ark:/12148/cb42226398b http://xmlns.com/foaf/0.1/givenName A pour prénom http://catalogue.bnf.fr/ark:/12148/cb120136648 http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation Appartient à http://rdvocab.info/ElementsGr2/dateOfBirth A pour date de naissance 1943 http://data.bnf.fr/what-happened/date-1943 http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé http://catalogue.bnf.fr/ark:/12148/cb34235813n "Les Guides du naturaliste"
Les bibliothèques dans le Web de données aujourd’hui 35
Des exemples…
Data.bnf.fr Exemple d’une page « auteur » Ce qu’on peut déjà offrir : une seule réponse par oeuvre Tri par fonctions
Data.bnf.fr Exemple d’une page « œuvre »
Y aller … avec les bons outils Pour utiliser la boîte à outils du Web sémantique, il faut Identifier les données Construire un réseau de relations entre ces données De quel outil disposons-nous pour analyser les relations entre les données au sein des catalogues de bibliothèques ? 39
III. Modèles FRBR et FRAD ou : Comment représenter tout un catalogue dans un seul schéma ?
L’activité de catalogage Que fait-on, quand on catalogue ? On commence par examiner un objet matériel… … On extrapole les caractéristiques de la publication à laquelle il appartient… Publication Publication Publication Publication Bien expliquer qu’on va déjà naturellement d’un document à un type de document
L’activité de catalogage … On cherche si le contenu intellectuel de cet objet est en relation directe avec le contenu intellectuel d’autres objets Exemple : traduction / texte original Si c’est le cas, on explicite cette relation Exemple : titre original suivi du nom de la langue de traduction Famille de contenus Contenu Contenu Publication Publication
Les FRBR qu’est-ce que c’est ? Functional Requirements for Bibliographic Records = Fonctionnalités requises des notices bibliographiques / rapport de l’IFLA, 1998 Un modèle conceptuel des notices bibliographiques (pas une norme) : il s’agit de définir les entités pertinentes pour les utilisateurs de notices bibliographiques, les attributs de chacune de ces entités, et les types de relations qu’elles entretiennent entre elles. Développé selon une méthode entité / relation Centré sur les besoins des utilisateurs Destiné à permettre l’amélioration des OPAC : regroupement par Œuvre structure hiérarchisée de la recherche Interopérable avec les données produites par d’autres communautés Ouvert vers les applications du web sémantique
FRBR : une "vieille nouveauté" ? Bibliothèque nationale, Catalogue général des imprimés : Principe : regrouper les publications des œuvres d’un même auteur Auteurs « prolifiques » : regroupement des notices par œuvre classement des Expressions par langue et des Manifestations par date… 44
Les FRBR : 3 groupes d’entités Groupe 1 : comprend les produits d’une activité intellectuelle ou artistique qui sont nommés ou décrits dans les notices bibliographiques Œuvre (création intellectuelle ou artistique déterminée) Expression (réalisation intellectuelle ou artistique d’une œuvre) Manifestation (matérialisation de l’une des expressions d’une œuvre) Document (exemplaire isolé d’une manifestation) Groupe 2 : comprend les entités à qui revient la responsabilité du contenu intellectuel ou artistique, de la production matérielle et de la distribution, ou de la gestion juridique de ces produits : Personne Collectivité Groupe 3 : comprend un autre ensemble d’entités constituant le sujet de l’activité intellectuelle ou artistique : Concept (notion ou idée abstraite) Objet (une réalité matérielle) Événement (une action ou un fait) Lieu (des données topographiques) 45
FRBR : 3 groupes d'entités un qui correspond à la notice catalographique (ISBD + données d'exemplaire) deux qui correspondent aux points d’accès Groupe 1 Groupe 2 Groupe 3
Les entités du Groupe 1 Item Manifestation Expression Œuvre Ce livre est en usuel en salle de lecture Ce livre a été publié par Flammarion en 1992 Ce livre est accessible à un public francophone Ce livre a révolutionné notre vision du vivant un objet matériel Manifestation un produit défini par des caractéristiques communes en termes de contenu, d’aspect physique et de circonstances de production Expression un contenu textuel spécifique Œuvre un contenu conceptuel accessible via divers contenus textuels
Les entités du Groupe 1 Origin… (français). Flammarion 1992. 570.903 092 DARWo Œuvre Expression Manifestation Item
les attributs des entités du Groupe 1 Attributs = caractéristiques des instances de chaque entité Manifestation titre propre mention de responsabilité édition lieu de publication éditeur commercial date de publication présentation matérielle etc. Œuvre titre de l’Œuvre date de l’Œuvre forme de l’Œuvre etc. Expression titre de l’Expression date de l’Expression forme de l’Expression langue de l’Expression etc. Item Localisation Provenance état matériel etc.
Les entités du Groupe 2 Origin… (français). Flammarion 1992. 570.903 092 DARWo a conçu a réalisé a produit possède Charles Darwin D. Becquemont E. Barbier Flammarion BnF. Département Sciences et techniques Personne Collectivité
Les entités du Groupe 3 C’est à quel sujet ? Groupe 1 Groupe 2 Œuvre Lieu Concept Groupe 1 Ex. : chenilles Ex. : Europe (œuvre, expression, manifestation, item) Événement Groupe 2 Objet (personne, collectivité) Ex. : Guerre de 14 Ex. : sonde Curiosity
FRBR : les relations entre les groupes 1, 2 et 3 A pour sujet Groupe 1 Groupe 2 les agents A pour sujet ŒUVRE est créée par est réalisé à travers Personne Expression est réalisée par Collectivité est incarné dans est produite par Manifestation Famille est exemplarisée dans est fabriqué par/ est possédé par Item A pour sujet Concept Objet Évènement Lieu Groupe 3
FRBR : les relations Œuvre Expression Manif. Item relié intellectuellement à fait partie de Ave Maria (Schubert) 7 mélodies tirées de la Dame du lac, op. 52 (Schubert) La Dame du lac (Walter Scott) Œuvre met en musique met en musique Expression Texte anglais Traduction allemande (Adam Storck) Notation de l'édition princeps de 1826 reproduit présentation alternative Édition brochée Édition reliée Édition de 1826 Num. par l'Université de Harvard Manif. reproduit reproduit Exemplaire coté 8/49d Microforme Exemplaire coté Merritt Mus 800.1.711.15 PHI Item
Relations Œuvre / Expression Relation intellectuelle Tout / Partie Œuvre Œuvre Œuvre Tout / Partie Expression Expression Expression Relations intellectuelles
FRBR : tableau de partage de B. Tillett
Wikincat : grille à remplir
Œuvre Manifestation Expression
L' Œuvre Les Expressions Manifestation Catalogue de l’Université catholique de Louvain L' Œuvre Les Expressions Manifestation Exemplaire, item, document
Le Rapport final sur les Fonctionnalités requises des notices bibliographiques (1) Objectifs : Définir les fonctions des notices bibliographiques en prenant en compte les différents types de documents et de supports les différentes utilisations les différents besoins des utilisateurs Formuler des recommandations sur le niveau minimal d’une notice bibliographique nationale pour réduire les coûts de catalogage tout en répondant aux besoins essentiels des utilisateurs
Le Rapport final sur les Fonctionnalités requises des notices bibliographiques (2) Moyens : Définir quatre « tâches utilisateur » (user tasks) correspondant à ce que l’on est présumé vouloir faire quand on consulte un catalogue de bibliothèque (trouver, identifier, sélectionner, se procurer) Évaluer la pertinence par rapport à ces « tâches utilisateur » : de chaque attribut défini pour chaque entité les plus pertinents doivent figurer dans les notices produites par les agences bibliographiques nationales les autres peuvent être rendus optionnels et de chaque relation
Après le modèle FRBR 1999 : création d’un autre groupe de travail pour étendre le modèle FRBR aux données d'autorité 2009 : publication du Rapport final sur les fonc-tionnalités requises des données d’autorité (FRAD, Functional requirements for authority data) le modèle FRAD n’en est qu’une partie
Le Rapport final FRAD (1) Objectifs : Définir les fonctionnalités requises des données indispensables au contrôle d’autorité gestion des points d’accès dans un catalogue identification des entités représentées par ces points d’accès pour permettre de répondre aux besoins des utilisateurs des données d’autorité de partager et de réutiliser les données d’autorité Le modèle met l’accent sur les données, non sur leur organisation dans des notices
Le Rapport final FRAD (2) Moyens : Définir quatre « tâches utilisateur » (user tasks) correspondant à ce que l’on est présumé vouloir faire quand on consulte des données d’autorité mais aussi quand on en crée Évaluer la pertinence par rapport à ces « tâches utilisateur » : de chaque attribut défini pour chaque entité et de chaque relation les plus pertinents doivent figurer dans un fichier d’autorité national les autres peuvent être rendus optionnels
FRAD Ajoute une 3e entité au groupe 2 de FRBR : Famille Ajoute 1 groupe d’entités : Groupe des Noms et des Identifiants Ajoute 3 autres entités : Point d’accès contrôlé Règles [de catalogage] Agence [de catalogage]
Point d’accès contrôlé FRAD : les entités « Entités bibliographiques » Groupe 1 Groupe 2 Groupe 3 Nom Identifiant a pour appellation se voit attribuer Point d’accès contrôlé sert de base à Règles est régi par Agence crée/modifie applique
FRAD : les relations A] Au sein des « Entités bibliographiques » alias (pseudonymes / entrée en religion, etc.) fausses attributions ("Pseudo-Sénèque") pseudonymes collectifs collaborateurs / parents, etc. souche / descendance membre Personne Famille membre fondateur propriétaire Œuvre Collectivité dérivation description inclusion accompagnement succession hiérarchie succession
FRAD : les relations B] Entre différents types de Noms succession (notamment : nom d’alliance) variante linguistique autres variantes variante linguistique Nom de Personne Nom de Famille Nom d’Œuvre Nom de Collectivité acronyme / forme développée variante linguistique autres variantes forme conventionnelle variante linguistique autres variantes
Notices d’autorité Évolution du rôle des notices d’autorité de simple outil de gestion des points d’accès vers celui de notice informative à part entière description de l’entité : ses attributs (type, statut, source…) et ses relations avec d’autres entités (liens entre notices) 68
Un catalogage FRBRisé ? Rôle croissant des notices d’autorité, dès la période de transition (SIGB existants) notices bibliographiques pour les manifestations notices d’exemplaires pour les exemplaires notices d’autorité pour les œuvres personnes collectivités familles concepts objets événements lieux pour les expressions nouveau ! établir systématiquement des notices d’autorité pour les œuvres si nécessaire de distinguer différentes expressions 69
FRBR et UNIMARC Pour FRBRiser les catalogues qui sont actuellement en UNIMARC, le CFU (Comité français UNIMARC) travaille à la création de nouvelles zones en UNIMARC(A) et en UNIMARC(B) : Œuvre : notice en UNIMARC(A)uthority Expression : notice en UNIMARC(A) Manifestation : notice en UNIMARC(B)ibliographic Item : notice en UNIMARC(H)olding 70
Attributs de l’Expression 71
72
73
FRBR et RDA RDA est entièrement construit sur une interprétation du modèle FRBR dans sa structure dans sa terminologie dans la détermination des éléments d’information indispensables pour que le catalogue rende aux utilisateurs les services souhaités Il est utile de connaître FRBR pour appliquer RDA… 74