Web de données et RDA
Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes) Architecture du Web = les standards définissant l’infrastructure technologique Rôle du W3C (World Wide Web Consortium) : s’occupe de la standardisation de l’architecture du Web 2
Les objectifs du W3C Accessibilité pour les logiciels et machines Interopérabilité et portabilité Production de contenu Web facilitée Réduction du volume des pages Meilleure visibilité et indexation par les moteurs de recherche Compatibilité Pérennité des documents Validation des pages par des services de validation pour garantir la cohérence et la qualité du code Accessibilité universelle aux contenus 3 3
Architecture du Web (2) Repose sur 3 technologies : Un protocole : HTTP (Hypertext Transfer Protocol) Un langage : HTML (Hypertext Markup Language) Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur Des identifiants : URI (Uniform Resource Identifier) Une ressource : tout objet Ressource identifiées de manière univoque par une URI : chaîne de caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …) On distingue 2 types de ressources : les ressources informationnelles : ressources dont on peut obtenir une représentation via HTTP, comme une page web ou une image les ressources non-informationnelles : ressources dont on ne peut pas obtenir de représentation via HTTP mais sur lesquels on va diffuser des informations (ex. : un monument, un lieu, un concept)
Les URI 2 déclinaisons : URN (Uniform Resource Name) URI d’identification d’une ressource par son nom unique dans un espace de noms Utilisé pour identifier une ressource sans s’occuper de son emplacement ou de la manière de la référencer Exemple : urn:isbn:978-2-10-057294-6 = URI de référence à une publication URL (Uniform Resource Locator) URI spécifiant l'adresse physique de localisation d'une ressource sur Internet et la méthode permettant d'y accéder = URI donnant accès à la ressource Ce sont surtout les URL qui sont utilisés sur le réseau Internet. Exemples d’autres applications de la notion d’URI dans le « monde réel » ISBN, code barre 5
Évolutions du web Web 1.0 web de documents permet aux usagers de naviguer facilement sur Internet en utilisant des liens hypertexte une page = un document format : HTML (HyperText Markup Language) ne permet que la mise en forme Web 2.0 web collaboratif évolution du Web du point de vue des technologies employées et des usages Internet n’est plus simplement un media mais une plate-forme de services et d'applications en ligne Permet aux internautes d'interagir sur le contenu des pages et de dialoguer entre eux Web 2.0 : Le développement d’interfaces plus riches et assistées L’offre d’outils accessibles en ligne : : suites bureautiques en ligne (Google Docs, Zoho, …), d’outils de gestion de projet (Basecamp , …), de calendrier partagé (Google Calendar, …) Des plates-formes éditoriales avec le développement des CMS Des plates-formes collaboratives : Wikis, agendas collaboratifs La syndication de contenus avec les flux RSS Les communautés de partage : systèmes de publication d’objets numériques dans un espace personnel (ex. :Youtube, Flickr, Picasa, …) Les réseaux sociaux : construction de réseaux d’affinité pour créer un profil en ligne, échanger avec son réseau de contacts, promouvoir son activité (Facebook, Linkedin, Viadeo, …)
Le Web de documents Documents Données Base de données Hyperlien Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Limites du Web de documents HTML : langage textuel d’échange de documents semi-structurés Les données sont cachées sous les pages HTML (« web profond ») Seules les pages HTML sont liées entre elles Les pages HTML sont faites pour les humains Ce que veulent les machines : des données structurées = utilisable directement par un ordinateur pour effectuer un calcul car elles se complètent les unes les autres car les liens permettent de naviguer et de découvrir avec des liens qualifiés, signifiants au-delà du « voir aussi » des hyperliens
Le Web de données ? Web de données ou Linked Data ou Web of Data Mise sur le Web de données : Mouvement de l’Open Data Mise à disposition de données publiques ouvertes (etalab, creative comm.) librement accessibles sans restriction de copyright, licence payante, brevet, … Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. http://www.opendefinition.org/okd/) + Mise en relation des données pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web
Le Web de données ? Un Web constitué de données accessibles, structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement (Définition de Tim Berners-Lee dès 1999) Objectif : Mettre à disposition des données en utilisant des techniques standardisées qui garantissent l’interopérabilité : Web documentaire : relations par des liens entre des pages HTML Web de données : extension du Web permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes et de les rendre interprétables par les machines Repose sur le standard URI = relations entre URI qui désignent tout objet décrit Volonté de relier des données isolées dans des « silos »
Le Web de données liées Documents Données Base de données Liens entre les bases de données Hyperlien Base de données Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Voilà ce à quoi rêvent nos machines… - Standard URI pour nomme ce que l’on décrit - Standard RDF pour décrire les URI - Liens RDF vers d’autres URI pour fournir des données liées - Utilisation d’ontologies pour permettre l’interconnexion des différentes sources de données
RDF RDF = Resource Description Framework Standard permettant de décrire les ressources Web et métadonnées qui y sont associées Proposé en 1999 par le W3C Permet de décrire, représenter et relier simplement toute ressource du Web : page Web, image, video, personne, objet, évènement, produit, service, … tout ce qui peut être identifié par un URI peut être considéré comme une ressource Objectif : partager les métadonnées pour des ressources identiques par l’utilisation d’une syntaxe commune RDF fournit une structure de données standard et un modèle pour encoder des données et des métadonnées sur n’importe quel sujet sur le Web. Ces sujets sont appelés des ressources et sont identifiés par des URI
RDF ?? C’est aussi simple que ça : SUJET OBJET PREDICAT Objet : The origin of species Sujet : Charles Darwin Prédicat : A écrit = Creator Sujet = ressource sur laquelle porte la déclaration, et c'est toujours un indicateur de ressource uniforme (URI) Prédicat = nom d'une propriété de la ressource et c'est toujours une adresse URI Objet = valeur de cette propriété qui peut être une adresse URI ou un littéral (texte, nombre, date, etc.) En utilisant ce standard, les ressources Werb sont plus facilement accessibles pour les moteures de recherche.
RDF : un modèle conceptuel Principe de base : toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément = déclaration RDF Exemple : Honoré de Balzac a écrit "La Comédie humaine" Sujet : Honoré de Balzac Ressource Verbe : a écrit Predicat Complément : La Comédie humaine Objet 15 15
RDF : la notion de triplet Une déclaration est composée de 3 éléments = triplet Triplet {ressource – propriété – valeur} sujet = ressource predicat = propriété : nature de la relation objet = valeur : caractéristique ou ressource liée Exemple : Sujet (Ressource) : Honoré de Balzac Predicat (Propriété) : Creator Objet (Valeur) : La Comédie humaine 16 16
RDF : Graphe La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien OBJET SUJET PREDICAT 17 17
RDF : modèle de graphe Chaque membre du triplet est une ressource qui peut être le sujet ou l’objet d’autres déclarations On construit ainsi un modèle de graphe 18 18
RDF : modèle de graphe (2) L’objet d’un triplet peut aussi être : un littéral = chaîne de caractères, nombre, date Sujet : Charles Darwin Objet : The origin of species Prédicat : A écrit Sujet : The origin of species Prédicat : Est né Prédicat : Comprend «1809» Objet : An introduction on the origin of species
RDF : un langage extensible Cadre conceptuel de description des ressources applicable à n’importe quel domaine d’application Peut être exprimé en utilisant la syntaxe RDF/XML (eXtensible Markup Language) : seule syntaxe qui fait l’objet actuellement d’une recommandation du W3C 20 20
000 cam 22 3 450 001FRBNF42226398000000X 003http://catalogue. bnf 000 cam 22 3 450 001FRBNF42226398000000X 003http://catalogue.bnf.fr/ark:/12148/cb42226398b 010 $a978-2-603-01444-8$brel. 100 $a20100624d2005 m y0frey50 ba 1011 $afre 102 $aFR 105 $a||||z 00||| 106 $ar 2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005 215 $a1 vol. (311 p.)$cill.$d20 cm 2252 $aˆLes ‰guides du naturaliste 300 $aBibliogr. p. 301-303 410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005 454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe 606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau 676 $a595.781 39$v22 700 1$312013664$aCarter$bDavid$f1943-....$4070 702 1$312367696$aHargreaves$bBrian$4440 801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc http://catalogue.bnf.fr/ark:/12148/cb34235813n http://catalogue.bnf.fr/ark:/12148/cb120136648 http://catalogue.bnf.fr/ark:/12148/cb12367696d
Des URI pour désigner les ressources http://catalogue.bnf.fr/ark:/12148/cb42226398b Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves . - Paris : Delachaux et Niestlé, DL 2005 http://catalogue.bnf.fr/ark:/12148/cb34235813n Les Guides du naturaliste Carter, David (1943-....) http://catalogue.bnf.fr/ark:/12148/cb120136648 Hargreaves, Brian http://catalogue.bnf.fr/ark:/12148/cb12367696d
Des vocabulaires normalisés pour exprimer les relations entre les données 2001 $aGuide des chenilles d'Europe 700 1$312013664$aCarter$bDavid$f1943-.... $4070 200 $a Titre propre DC : Title ISBD : Title proper RDA : Title proper 700 $4070 Auteur du texte DC : Creator RDA : Creator RDA : Author
Des URI pour exprimer les relations
Des URI pour exprimer les relations DC : Title http://purl.org/dc/elements/1.1/title ISBD : has title proper http://iflastandards.info/ns/isbd/elements/P1004 RDA : Title proper http://rdvocab.info/Elements/titleProper DC : Creator http://purl.org/dc/elements/1.1/creator RDA : Author http://rdvocab.info/roles/author
Une syntaxe normalisée Le sujet est toujours une URI Le prédicat est toujours une URI L’objet peut être un texte (« littéral ») ou une URI 2001 $aGuide des chenilles d'Europe Cet ouvrage RDF sujet sujet a pour titre propre prédicat verbe complément d’objet "Guide des chenilles d'Europe" objet http://catalogue.bnf.fr/ark:/12148/cb42226398b http://iflastandards.info/ns/isbd/elements/P1004 "Guide des chenilles d’Europe"
Un réseau de relations entre des données "Guide des chenilles d’Europe" http://iflastandards.info/ns/isbd/elements/P1004 A pour titre propre http://xmlns.com/foaf/0.1/familyName A pour patronyme "Carter" http://rdvocab.info/roles/author A pour auteur http://catalogue.bnf.fr/ark:/12148/cb42226398b "David" http://xmlns.com/foaf/0.1/givenName A pour prénom http://catalogue.bnf.fr/ark:/12148/cb120136648 http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation Appartient à http://rdvocab.info/ElementsGr2/dateOfBirth A pour date de naissance 1943 http://data.bnf.fr/what-happened/date-1943 http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé http://catalogue.bnf.fr/ark:/12148/cb34235813n "Les Guides du naturaliste"
Pour aller vers le Web de données Constitué d’éléments de données liés les uns aux autres Vers le web de données Vers le web sémantique Les données portent en elles leur identification et leur fonction (leur « sens »), selon une syntaxe lisible par les « machines du web » À condition d’utiliser les standards du web 3 avril 2012 -- Bordeaux -- Urfist/Médiaquitaine Philippe Le Pape -- ABES
C’est très bien tout ça mais… Quel rapport avec la bibliothèque, le catalogue, le catalogage ? Zoom sur Le lecteur 29 29
Les bibliothèques dans le Web de données aujourd’hui Occupons l’espace !! 30
Que peut nous apporter le Web de données ? Relier les catalogues des bibliothèques avec d’autres données existantes Ouverture à d’autres communautés (libraires, éditeurs, …) Navigation par les utilisateurs sans avoir à connaître les formats des bases de données et les langages de requête spécifiques Plus de visibilité par les moteurs de recherche Tirer parti des données structurées des catalogue et des référentiels Interopérabilité = Souplesse pour la réutilisation des données
Des exemples Isidore : http://www.rechercheisidore.fr Plateforme de recherche permettant l’accès aux données numériques des sciences humaines et sociales Données en accès libre (open access) Moissonnage ciblé des métadonnées et données scientifiques structurées Enrichissement des métadonnées selon les principes du Web de données
Des exemples Data.bnf.fr : http://data.bnf.fr Fiches descriptives des auteurs et des oeuvres Possibilité de télécharger le RDF associé à la fiche descriptive VIAF (Virtual International Authority File) http://viaf.org/ Valoriser les fichiers d'autorité des bibliothèques (visibilité et liens entre les données) Rationnaliser la gestion des fichiers d’autorités 33
Y aller … avec les bons outils Pour utiliser la boîte à outils du Web sémantique, il faut, nous l’avons vu : Identifier les données Construire un réseau de relations entre ces données Pour savoir si vous avez suivi : « De quel outil disposons-nous pour analyser les relations entre les données au sein des catalogues de bibliothèques ? » 34
Tous les chemins mènent à… Normes de catalogage AACR Afnor REICAT Etc… R D A ? Web de données ! Organisation de l’information bibliographique : ISBD F R B R Web de données ! Formats d’encodage MARC Format compatible RDF (BIBFRAME ?) Web de données !