La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

II. Participer au Web de données

Présentations similaires


Présentation au sujet: "II. Participer au Web de données"— Transcription de la présentation:

1 II. Participer au Web de données
… en utilisant les technologies du Web sémantique

2 Architecture du Web (1) World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes) Architecture du Web : infrastructure technologique définie par des standards Standardisation de l’architecture du Web assurée par un organisme, le W3C (World Wide Web Consortium) : accessibilité pour les logiciels et machines et accessibilité universelle aux contenus

3 Architecture du Web (2) Repose sur 3 technologies :
Un protocole : HTTP (Hypertext Transfer Protocol) Un langage : HTML (Hypertext Markup Language) Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur Des identifiants Web : URI (Uniform Resource Identifier) Une ressource : tout objet Ressource identifiée de manière univoque par un URI : chaîne de caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)

4 Les URI 2 déclinaisons : URN (Uniform Resource Name)
URI d’identification d’une ressource par son nom unique Utilisé pour identifier une ressource sans s’occuper de son emplacement ou de la manière de la référencer Exemple : urn : isbn: = URI de référence à une publication URL (Uniform Resource Locator) URI spécifiant l'adresse physique de localisation d'une ressource sur Internet et la méthode permettant d'y accéder = URI donnant accès à la ressource 4

5 Évolutions du web Web 1.0  Web de documents
permet aux usagers de naviguer facilement sur Internet en utilisant des liens hypertextes une page = un document format : HTML (HyperText Markup Language) ne permet que la mise en forme Web 2.0  Web collaboratif évolution du Web du point de vue des technologies employées et des usages Internet n’est plus simplement un media mais une plate-forme de services et d'applications en ligne Permet aux internautes d'interagir sur le contenu des pages et de dialoguer entre eux Web 3.0  Web de données ou Web sémantique : permet aux machines de trouver et d’exploiter les données contenues dans les documents : format RDF (Resource Description Framework) qui permet de décrire et de relier des ressources

6 La recette du Web

7 Le Web de documents Documents Données Base de données Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

8 Limites du Web de documents
HTML : langage textuel d’échange de documents semi-structurés Les données sont cachées sous les pages HTML (« web profond ») Seules les pages HTML sont liées entre elles Les pages HTML sont faites pour les humains Ce que veulent les machines : des données structurées = utilisable directement par un ordinateur pour effectuer un calcul car elles se complètent les unes les autres car les liens permettent de naviguer et de découvrir avec des liens qualifiés, signifiants au-delà du « voir aussi » des hyperliens

9 Le Web de données Un Web constitué de données accessibles, structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement (Définition de Tim Berners-Lee dès 1999) Extension du Web permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes, et de les rendre exploitables par des machines Repose sur les mêmes technologies de base HTTP : transfert des données URI : nommage des ressources Utilisation d’un autre langage : il ne s’agit plus d’échanger des documents destinés à être immédiatement visualisés, mais des données structurées : XML (eXtensible Markup Language) : RDF = langage du Web de données liées

10 Le Web de données liées Documents Données Base de données
Liens entre les bases de données Hyperlien Base de données Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

11 Le web de données ? Web de données ou Linked Data ou Web of Data
Mise sur le Web de données : Mouvement de l’Open Data Mise à disposition de données publiques ouvertes librement accessibles sans restriction de copyright, licence payante, brevet, … Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. Mise en relation des données pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web

12 Le Web de données aujourd’hui
Liens entre les données et transformation du Web en une gigantesque base de connaissances distribuée

13 Le Web de données aujourd’hui

14 Pile des standards du Web sémantique

15 RDF = Resource Description Framework
Nouveau modèle généraliste et standardisé pour encoder, échanger et réutiliser des métadonnées structurées Proposé en 1999 par le W3C Permet de décrire, représenter et relier simplement toute ressource (= donnée) du Web : page Web, image, vidéo, personne, objet, évènement, produit, service, … tout ce qui peut être identifié par un URI peut être considéré comme une ressource Objectif : partager les métadonnées pour des ressources identiques par l’utilisation d’une syntaxe commune (RDF/XML)

16 RDF : un modèle conceptuel
Principe de base : toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément  déclaration RDF Exemple : Charles Darwin a écrit « L’origine des espèces » Sujet : Charles Darwin Verbe : a écrit Complément : L’origine des espèces

17 RDF : la notion de triplet
Un document RDF est un ensemble de triplets Un triplet est composé de 3 éléments L’ensemble forme une déclaration Triplet {sujet , prédicat , objet} sujet : représente la ressource à décrire, c’est toujours un URI prédicat : représente un type de propriété applicable à la ressource, c’est toujours un URI objet : représente une ressource liée (URI) ou une caractéristique exprimée par une chaîne de caractères (= littéral) : c’est la valeur de la propriété Exemple : Sujet (Ressource) : Charles Darwin Prédicat (Propriété) : a écrit Objet (Valeur) : L’origine des espèces

18 RDF : la représentation par graphe
La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien SUJET OBJET PREDICAT Objet : L’origine des espèces Sujet : Charles Darwin Prédicat : A écrit

19 RDF : modèle de graphe (2)
L’objet d’un triplet peut être : Soit une ressource qui peut être le sujet ou l’objet d’autres déclarations Soit un littéral = chaîne de caractères, nombre, date Sujet : Charles Darwin Objet : The origin of species Prédicat : A écrit Sujet : The origin of species Prédicat : Et né Prédicat : Comprend «1809» Objet : An introduction on the origin of species

20 Formalisme RDF Modèle permettant d’encoder toute donnée ou métadonnée
Permet de décrire les relations entre les ressources Utilise le mécanisme des URI pour identifier les ressources décrites et représenter explicitement toute relation entre 2 ressources Permet de réaliser le Web de données : Éclatement de l’information Des données et pas des « documents » Plus de souplesse pour manipuler, sélectionner…

21 RDF : souplesse Cadre conceptuel de description des ressources applicable à n’importe quel domaine Permet de mélanger les vocabulaires Un modèle abstrait à représenter avec un langage concret Peut être exprimé en utilisant diverses syntaxes RDF/XML (eXtensible Markup Language) : seule syntaxe qui fait l’objet actuellement d’une recommandation du W3C RDFa : syntaxe pour injecter du RDF dans une page Web… RDF rend les données extensibles : Plus besoin de tout dire sur une ressource, une personne, etc. Possibilité d’ajouter une nouvelle déclaration sur une ressource déjà publiée pour compléter l’information

22 Un Web de données … Modèle de données : RDF
Modèle universel de représentation, d’échanges et d’interconnexion de métadonnées Langage d’interrogation : SPARQL Simple Protocol And RDF Query Language Langage de requête sur les graphes RDF permettant de spécifier le type de données recherchées Format XML pour représenter les résultats d’une requête SPARQL permet d’interroger les données telles qu’on les a modélisées Première phase du déploiement du web sémantique

23 … et un Web sémantique Objectif : s’assurer de l’interprétation et de l’utilisation des données Publier avec les données leurs schémas ou vocabulaires Schéma (ou ontologie) Document formel expliquant les catégories de ressources, leurs relations, avec leur sens, la structure et les contraintes associées Exemples : Foaf pour la description d’un profil utilisateur Dublin Core pour la description (simple) d’une ressource ISBD pour la description bibliographique RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence

24 Web de données et Web sémantique
Web de données : possibilité de relier et d’échanger des données au moyen d’URI Web sémantique : possibilité d’échanger les schémas de données et la sémantique associée Objectif : permettre aux machines de comprendre la sémantique, la signification de l’information sur le Web

25 Et pour les bibliothèques : Que peut apporter le Web de données ?
Relier les catalogues des bibliothèques avec d’autres données existantes Ouverture à d’autres communautés (libraires, éditeurs, …) Plus de visibilité par les moteurs de recherche Navigation par les utilisateurs sans avoir à connaître les formats des bases de données et les langages de requête spécifiques Tirer parti des données structurées des catalogues et des référentiels Interopérabilité  Souplesse pour la réutilisation des données

26 Web de données et bibliothèques : Comment y arriver ?
Des données structurées Des vocabulaires normalisés éléments de métadonnées (title, creator…) listes de valeurs (codes pays, langues…) Des identifiants pérennes : URI pour désigner les ressources pour exprimer les relations entre les données Une syntaxe normalisée : RDF (Resource Description Framework)

27 Des données structurées
003http://catalogue.bnf.fr/ark:/12148/cb b 010 $a $brel $a d2005 m y0frey50 ba 1011 $afre $aFR $a||||z 00||| $ar 2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves $aParis$cDelachaux et Niestlé$dDL $a1 vol. (311 p.)$cill.$d20 cm $aˆLes ‰guides du naturaliste $aBibliogr. p $ $tˆLes ‰Guides du naturaliste$x $d $tField guide to caterpillars of butterflies and moths in Britain and Europe $ $aChenilles$ $yEurope$ $xGuides pratiques et mémentos$2rameau $a $v $ $aCarter$bDavid$f $ $ $aHargreaves$bBrian$ $aFR$bFR $c $gAFNOR$2intermrc

28 Des vocabulaires normalisés
Pour exprimer les relations entre les données 2001 $aGuide des chenilles d'Europe 700 1$ $aCarter$bDavid$f $4070 200 $a Titre propre DC : Title ISBD : Title proper RDA : Title proper 700 $4070 Auteur du texte DC : Creator RDA : Creator RDA : Author

29 Des URI pour désigner les ressources
Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves . - Paris : Delachaux et Niestlé, DL 2005 Les Guides du naturaliste Carter, David ( ) Hargreaves, Brian

30 Des URI pour exprimer les relations (1)
DC : Title ISBD : has title proper RDA : Title proper DC : Creator RDA : Author  

31 Des URI pour exprimer les relations (2)

32

33 Une syntaxe normalisée
Le sujet est toujours un URI Le prédicat est toujours un URI L’objet peut être un texte (« littéral ») ou un URI 2001 $aGuide des chenilles d'Europe Cet ouvrage RDF sujet sujet a pour titre propre verbe prédicat complément d’objet "Guide des chenilles d'Europe" objet Identifiant de la notice + caractère de contrôle URI pour désigner la ressource Cet ouvrage a pour titre propre "Guide des chenilles d’Europe" URI pour exprimer les relations

34 Un réseau de relations entre des données
"Guide des chenilles d’Europe" A pour titre propre "Carter" A pour patronyme   A pour auteur "David" A pour prénom Appartient à A pour date de naissance 1943 A pour titre clé "Les Guides du naturaliste"

35 Les bibliothèques dans le Web de données aujourd’hui
35

36 Des exemples…

37 Data.bnf.fr Exemple d’une page « auteur »
Ce qu’on peut déjà offrir : une seule réponse par oeuvre Tri par fonctions

38 Data.bnf.fr Exemple d’une page « œuvre »

39 Y aller … avec les bons outils
Pour utiliser la boîte à outils du Web sémantique, il faut Identifier les données Construire un réseau de relations entre ces données De quel outil disposons-nous pour analyser les relations entre les données au sein des catalogues de bibliothèques ? 39

40 III. Modèles FRBR et FRAD
ou : Comment représenter tout un catalogue dans un seul schéma ?

41 L’activité de catalogage
Que fait-on, quand on catalogue ? On commence par examiner un objet matériel… … On extrapole les caractéristiques de la publication à laquelle il appartient… Publication Publication Publication Publication Bien expliquer qu’on va déjà naturellement d’un document à un type de document

42 L’activité de catalogage
… On cherche si le contenu intellectuel de cet objet est en relation directe avec le contenu intellectuel d’autres objets Exemple : traduction / texte original Si c’est le cas, on explicite cette relation Exemple : titre original suivi du nom de la langue de traduction Famille de contenus Contenu Contenu Publication Publication

43 Les FRBR qu’est-ce que c’est ?
Functional Requirements for Bibliographic Records = Fonctionnalités requises des notices bibliographiques / rapport de l’IFLA, 1998 Un modèle conceptuel des notices bibliographiques (pas une norme) : il s’agit de définir les entités pertinentes pour les utilisateurs de notices bibliographiques, les attributs de chacune de ces entités, et les types de relations qu’elles entretiennent entre elles. Développé selon une méthode entité / relation Centré sur les besoins des utilisateurs Destiné à permettre l’amélioration des OPAC : regroupement par Œuvre structure hiérarchisée de la recherche Interopérable avec les données produites par d’autres communautés Ouvert vers les applications du web sémantique

44 FRBR : une "vieille nouveauté" ?
Bibliothèque nationale, Catalogue général des imprimés : Principe : regrouper les publications des œuvres d’un même auteur Auteurs « prolifiques » : regroupement des notices par œuvre classement des Expressions par langue et des Manifestations par date… 44

45 Les FRBR : 3 groupes d’entités
Groupe 1 : comprend les produits d’une activité intellectuelle ou artistique qui sont nommés ou décrits dans les notices bibliographiques Œuvre (création intellectuelle ou artistique déterminée) Expression (réalisation intellectuelle ou artistique d’une œuvre) Manifestation (matérialisation de l’une des expressions d’une œuvre) Document (exemplaire isolé d’une manifestation) Groupe 2 : comprend les entités à qui revient la responsabilité du contenu intellectuel ou artistique, de la production matérielle et de la distribution, ou de la gestion juridique de ces produits : Personne Collectivité Groupe 3 : comprend un autre ensemble d’entités constituant le sujet de l’activité intellectuelle ou artistique : Concept (notion ou idée abstraite) Objet (une réalité matérielle) Événement (une action ou un fait) Lieu (des données topographiques) 45

46 FRBR : 3 groupes d'entités
un qui correspond à la notice catalographique (ISBD + données d'exemplaire) deux qui correspondent aux points d’accès Groupe 1 Groupe 2 Groupe 3

47 Les entités du Groupe 1 Item Manifestation Expression Œuvre
Ce livre est en usuel en salle de lecture Ce livre a été publié par Flammarion en 1992 Ce livre est accessible à un public francophone Ce livre a révolutionné notre vision du vivant un objet matériel Manifestation un produit défini par des caractéristiques communes en termes de contenu, d’aspect physique et de circonstances de production Expression un contenu textuel spécifique Œuvre un contenu conceptuel accessible via divers contenus textuels

48 Les entités du Groupe 1 Origin… (français). Flammarion DARWo Œuvre Expression Manifestation Item

49 les attributs des entités du Groupe 1
Attributs = caractéristiques des instances de chaque entité Manifestation titre propre mention de responsabilité édition lieu de publication éditeur commercial date de publication présentation matérielle etc. Œuvre titre de l’Œuvre date de l’Œuvre forme de l’Œuvre etc. Expression titre de l’Expression date de l’Expression forme de l’Expression langue de l’Expression etc. Item Localisation Provenance état matériel etc.

50 Les entités du Groupe 2 Origin… (français). Flammarion DARWo a conçu a réalisé a produit possède Charles Darwin D. Becquemont E. Barbier Flammarion BnF. Département Sciences et techniques Personne Collectivité

51 Les entités du Groupe 3 C’est à quel sujet ? Groupe 1 Groupe 2 Œuvre
Lieu Concept Groupe 1 Ex. : chenilles Ex. : Europe (œuvre, expression, manifestation, item) Événement Groupe 2 Objet (personne, collectivité) Ex. : Guerre de 14 Ex. : sonde Curiosity

52 FRBR : les relations entre les groupes 1, 2 et 3
A pour sujet Groupe 1 Groupe 2 les agents A pour sujet ŒUVRE est créée par est réalisé à travers Personne Expression est réalisée par Collectivité est incarné dans est produite par Manifestation Famille est exemplarisée dans est fabriqué par/ est possédé par Item A pour sujet Concept Objet Évènement Lieu Groupe 3

53 FRBR : les relations Œuvre Expression Manif. Item
relié intellectuellement à fait partie de Ave Maria (Schubert) 7 mélodies tirées de la Dame du lac, op. 52 (Schubert) La Dame du lac (Walter Scott) Œuvre met en musique met en musique Expression Texte anglais Traduction allemande (Adam Storck) Notation de l'édition princeps de 1826 reproduit présentation alternative Édition brochée Édition reliée Édition de 1826 Num. par l'Université de Harvard Manif. reproduit reproduit Exemplaire coté 8/49d Microforme Exemplaire coté Merritt Mus PHI Item

54 Relations Œuvre / Expression
Relation intellectuelle Tout / Partie Œuvre Œuvre Œuvre Tout / Partie Expression Expression Expression Relations intellectuelles

55 FRBR : tableau de partage de B. Tillett

56 Wikincat : grille à remplir

57 Œuvre Manifestation Expression

58 L' Œuvre Les Expressions Manifestation
Catalogue de l’Université catholique de Louvain L' Œuvre Les Expressions Manifestation Exemplaire, item, document

59 Le Rapport final sur les Fonctionnalités requises des notices bibliographiques (1)
Objectifs : Définir les fonctions des notices bibliographiques en prenant en compte les différents types de documents et de supports les différentes utilisations les différents besoins des utilisateurs Formuler des recommandations sur le niveau minimal d’une notice bibliographique nationale pour réduire les coûts de catalogage tout en répondant aux besoins essentiels des utilisateurs

60 Le Rapport final sur les Fonctionnalités requises des notices bibliographiques (2)
Moyens : Définir quatre « tâches utilisateur » (user tasks) correspondant à ce que l’on est présumé vouloir faire quand on consulte un catalogue de bibliothèque (trouver, identifier, sélectionner, se procurer) Évaluer la pertinence par rapport à ces « tâches utilisateur » : de chaque attribut défini pour chaque entité les plus pertinents doivent figurer dans les notices produites par les agences bibliographiques nationales les autres peuvent être rendus optionnels et de chaque relation

61 Après le modèle FRBR 1999 : création d’un autre groupe de travail pour étendre le modèle FRBR aux données d'autorité 2009 : publication du Rapport final sur les fonc-tionnalités requises des données d’autorité (FRAD, Functional requirements for authority data) le modèle FRAD n’en est qu’une partie

62 Le Rapport final FRAD (1)
Objectifs : Définir les fonctionnalités requises des données indispensables au contrôle d’autorité gestion des points d’accès dans un catalogue identification des entités représentées par ces points d’accès pour permettre de répondre aux besoins des utilisateurs des données d’autorité de partager et de réutiliser les données d’autorité Le modèle met l’accent sur les données, non sur leur organisation dans des notices

63 Le Rapport final FRAD (2)
Moyens : Définir quatre « tâches utilisateur » (user tasks) correspondant à ce que l’on est présumé vouloir faire quand on consulte des données d’autorité mais aussi quand on en crée Évaluer la pertinence par rapport à ces « tâches utilisateur » : de chaque attribut défini pour chaque entité et de chaque relation les plus pertinents doivent figurer dans un fichier d’autorité national les autres peuvent être rendus optionnels

64 FRAD Ajoute une 3e entité au groupe 2 de FRBR : Famille
Ajoute 1 groupe d’entités : Groupe des Noms et des Identifiants Ajoute 3 autres entités : Point d’accès contrôlé Règles [de catalogage] Agence [de catalogage]

65 Point d’accès contrôlé
FRAD : les entités « Entités bibliographiques » Groupe 1 Groupe 2 Groupe 3 Nom Identifiant a pour appellation se voit attribuer Point d’accès contrôlé sert de base à Règles est régi par Agence crée/modifie applique

66 FRAD : les relations A] Au sein des « Entités bibliographiques »
alias (pseudonymes / entrée en religion, etc.) fausses attributions ("Pseudo-Sénèque") pseudonymes collectifs collaborateurs / parents, etc. souche / descendance membre Personne Famille membre fondateur propriétaire Œuvre Collectivité dérivation description inclusion accompagnement succession hiérarchie succession

67 FRAD : les relations B] Entre différents types de Noms
succession (notamment : nom d’alliance) variante linguistique autres variantes variante linguistique Nom de Personne Nom de Famille Nom d’Œuvre Nom de Collectivité acronyme / forme développée variante linguistique autres variantes forme conventionnelle variante linguistique autres variantes

68 Notices d’autorité Évolution du rôle des notices d’autorité
de simple outil de gestion des points d’accès vers celui de notice informative à part entière description de l’entité : ses attributs (type, statut, source…) et ses relations avec d’autres entités (liens entre notices) 68

69 Un catalogage FRBRisé ? Rôle croissant des notices d’autorité, dès la période de transition (SIGB existants) notices bibliographiques pour les manifestations notices d’exemplaires pour les exemplaires notices d’autorité pour les œuvres personnes collectivités familles concepts objets événements lieux pour les expressions nouveau ! établir systématiquement des notices d’autorité pour les œuvres si nécessaire de distinguer différentes expressions 69

70 FRBR et UNIMARC Pour FRBRiser les catalogues qui sont actuellement en UNIMARC, le CFU (Comité français UNIMARC) travaille à la création de nouvelles zones en UNIMARC(A) et en UNIMARC(B) : Œuvre : notice en UNIMARC(A)uthority Expression : notice en UNIMARC(A) Manifestation : notice en UNIMARC(B)ibliographic Item : notice en UNIMARC(H)olding 70

71 Attributs de l’Expression
71

72 72

73 73

74 FRBR et RDA RDA est entièrement construit sur une interprétation du modèle FRBR dans sa structure dans sa terminologie dans la détermination des éléments d’information indispensables pour que le catalogue rende aux utilisateurs les services souhaités  Il est utile de connaître FRBR pour appliquer RDA… 74


Télécharger ppt "II. Participer au Web de données"

Présentations similaires


Annonces Google