ENS Lyon 17 au 19 juin 2013 Thierry Clavel et Philippe Bourdenet

ENS Lyon 17 au 19 juin 2013 Thierry Clavel et Philippe Bourdenet
Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA ENS Lyon 17 au 19 juin 2013 Thierry Clavel et Philippe Bourdenet Cette journée rentre dans le cadre de la sensibilisation à FRBR RDA lancée au plan national en septembre 2012 Avec diaporama au contenu de base réalisé par le GT AFNOR RDA en France. Celui-ci s’en inspire fortement. Les catalogues au défi du Web : c’est un peu la question de la place des bibliothèques et de leurs catalogues dans l’environnement du Web, Objectif : s’adapter au Web pour tout simplement ne pas disparaitre. Pour atteindre cet objectif on a des outils dont je vais vous parler :FRBR (modèle conceptuel de l’info bibliogr.) RDA (nouveau code de catalogage) et le Web sémantique (ensemble de normes et technologies du Web) qui vise à construire un espace global d’info sur le Web qu’on appelle « web de données » ou linked open data (LOD)

Programme Introduction : le contexte
Problématique de l’interopérabilité des données en bibliothèque Paysage applicatif Exemple d’interopérabilité : le SCD du Maine Pourquoi changer ? : Enjeux du Web de données pour les bibliothèques Métadonnées : jeux et formats Expression des données en XML Dublin Core, MODS, ONIX, TEI, EAD METS, LOMFR Interopérabilité des systèmes Notion de modèle conceptuel Web sémantique et Web de données FRBR et FRAD RDA et le catalogage FRBerisé 2

Introduction : Le contexte

Bibliothèque scientifique numérique (BSN)
Une « très grande infrastructure de recherche » créée en 2009 Un projet qui fédère l’action des acteurs de l’enseignement supérieur et de la recherche basé sur la coopération 9 segments (axes) BSN 1 à BSN9 Le contexte institutionnel pour l’enseignement supérieur, c’est avant tout BSN : Projet de 2009 : une priorité nationale pour les 10 ans à venir. Très Grandes Infrastructures de Recherche (TGIR) portée par le Ministère de l'Enseignement Supérieur et de la Recherche (MESR qui vise à permettre à ce que tout enseignant-chercheur, chercheur et étudiant dispose d’une information scientifique pertinente et d’outils les plus performants possibles. BSN fédère l’action de nombreux acteurs de l’ens. Sup et de la recherche : l’ensemble des universités, grands établissements et organismes de recherche sont représentés dans les instances. La nature des problématiques a conduit à inviter le Ministère de la culture et de la communication et la Bibliothèque nationale de France. On y trouve notamment le CNRS, ABES… Autrement dit, BSN, c’est ce qui sous-tend l’action de nos établissements, de l’ABES, de la BnF ds une moindre mesure. 9 segments : BSN 1 : Acquisitions des revues (courant) et des archives (abes) BSN 2 : Dispositif d’accès et d’hébergement BSN 3 : Dispositifs de signalement (abes) BSN 4 : Archives ouvertes BSN 5 : Numérisation (bnf) BSN 6 : Archivage pérenne BSN 7 : Édition scientifique BSN 8 : Fourniture de documents, prêt BSN 9 : Formation, compétences et usages

Projet d’établissement de L’ABES 2012-2015
Le projet compte 8 axes dont : Missions de l’ABES : mutualisation « acquérir, signaler, diffuser » Signalement des ressources électroniques « priorité absolue » Projet SGBM Hub de métadonnées de la recherche Faire évoluer les catalogues Pour savoir ce qui sous-tend l’action de l’ABES, : il faut examiner le projet d’établissement qui fixe les orientations et leurs modalités. Que dit le projet d’ét de l’abes ? Le projet compte 8 axes dont : - Un Rappel des missions de l’ABES : la mutualisation pour acquérir, signaler et diffuser la documentation. On retrouve l’ABES dans 3 axes de BSN : BSN 1 : "licences nationales" avec Couperin, BSN 3 : signalement BSN 8 : prêt et fourniture à distance de documents avec l'INIST-CNRS - Signalement de la doc elec. Qui est la priorité absolue(dit comme ça ds le texte) - le SGBM

2012 : Lancement de 2 études en parallèle
Etude du cabinet pléiade sur les outils découverte Conclusions : La mutualisation devrait porter sur les données : base de connaissances nationale intégrée à GOKB Se doter d’un localisateur national Etude du groupe de travail SGBM 3 scénarios 2 études sont lancées en parallèle en 2012 Cabinet néerlandais Pléiade pour les outils découverte et l’étude du GT SGBM menée par J Bernon Pléiade conclusions La mutualisation devrait porter sur les données plus que sur les outils >> faire évoluer le hub de métadonnées de la recherche Avoir une base de connaissances nationale intégrée au projet international GOKB Se doter d’un localisateur national qui aurait un intérêt pour tous même ceux qui disposent déjà d’un résolveur de liens (le resolveur national devient une cible du résolveur local ou bien le resolveur local exploite ds sa propre kb les données de la kb nationale.

Choix du CA de l’ABES du 31/5/2013
SGBM : Choix du scénario 2 Migration des établissements volontaires vers le SGBM Maintien de CBS pour le catalogage (transferts réguliers vers le SGBM) Étude complémentaire de 6 mois pour le remplacement de CBS Etude Pléiade Développement d’un localisateur national Pleiade : le développement du prototype d’un service national de localisation des ressources électroniques a été validé : il s’appuiera sur le code source de KB+ (du JISC) pour la base de connaissance et consistera à développer une version 0 d’un résolveur de lien national. Les données seront puisées dans GoKB. Le développement de ce prototype devra être considéré comme une étude qui permettra de préciser les points à traiter et de cerner les priorités. Couperin a présenté son point de vue sur l’étude Pleiade et proposé d’approfondir l’étude, notamment sur la question de l’index central et l’interface de découverte. Article sur KB+ et GOKB : « Knowledge Base+ est un nouveau service partagé qui émane de JISC Collections lancé à l'automne 2012 pour "aider les bibliothèques anglo-saxonnes à gérer plus efficacement leurs ressources électroniques". : données bibliographiques, infos sur les licences et les abonnements = résolveur de liens

Hub de métadonnées de la recherche
Partenariat ABES-CNRS Récupération des métadonnées commerciales ou institutionnelles sous n’importe quel format Dédoublonnage, Conversion et Redistribution des métadonnées « enrichies » vers les bibliothèques du réseau HUB : hub USB prise multiple plusieurs ports UCB en entrée tous reliés à l’ordi. = l’idée, c’est donc d’avoir n’importe quel jeu de métadonnées en entrée, et de le mettre à disposition des bibliothèques dans des formats normalisés en sortie sous licence Etalab : donc plutôt en RDF Extraits : « L’ABES et l’INIST-CNRS s’allieront pour constituer un hub des métadonnées de la recherche axé sur la valorisation et l’enrichissement de métadonnées dont le signalement au niveau national est jugé stratégique : Les métadonnées commerciales acquises sous forme de licence nationale et celles des abonnements courants.Les métadonnées issues de la production de la recherche française « Dans le cadre du hub de métadonnées, l’ABES offrira le service suivant à tous les établissements: redistribution dans n’importe quel format des métadonnées enrichies récupérées dans n’importe quel format auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases.

que dit le projet sur FRBR et RDA et les données ?
« L’ABES poursuivra dans la voie de l’ouverture et de l’interopérabilité de ses données sur le web. Elle expérimentera la mise en oeuvre du modèle FRBR en concertation avec la BnF dans la perspective de l’implémentation du code de catalogage RDA » Interopéralilité de ses données sur le Web : On pense à IDREF qui est d’ailleurs mentionné plus loin.et donc au Web de données, FRBR et RDA sont mentionnés.

Ouverture des données (open data) vers une interopérabilité technique et juridique
Mouvement international Plateforme française d'ouverture des données publiques data.gouv.fr Exposition des données en RDF ABES : licence ouverte (LO) recommandée par la mission ETALAB pour les données produites par le réseau BnF : idem pour : Catalogues Gallica Data.BnF.fr On assiste à une politique d’ouverture des données publiques françaises (et de nombreux pays) Du côté de l’ABES et de la BnF : même chose Le Conseil d’administration du 23 novembre 2012 a retenu la Licence Ouverte de la mission Etalab (France) pour les données produites par les réseaux ABES. Cette licence permet la réutilisation libre et gratuite des données. Elle autorise leur reproduction, leur redistribution, leur exploitation, y compris à titre commercial en les combinant ou en les incorporant avec d’autres informations ou produits. Elle impose simplement de mentionner la paternité de l’information (clause d’attribution). BnF :véritable stratégie d’exposition des données sur le linked open data (web de données) Pour exposer ses données et les mettre à disposition de tous sur le Web : on utilise le web de données (Web sémantique) : c’est pour ça qu’on a IDREF pour le sudoc et data.bnf pour la BnF

Le comité stratégique bibliographique (CSB)
Composition : ABES, BnF et leurs tutelles Nouvelles orientations du paysage bibliographique français : Exposer les métadonnées des catalogues nationaux sur le Web de données FRBRiser les catalogues (BnF et SUDOC) Permettre un catalogage FRBRisé en révisant les normes AFNOR (2015) Préparer l’adoption de RDA pour ne pas s’isoler du contexte international et européen rapport d'orientation du 13 novembre 2012 Ancien Comité "SU-SI-CCFr" a été renommé "Comité stratégique bibliographique" pour rendre les arbitrages stratégiques nécessaires sur le nouveau modèle d'organisation et de diffusion de l'information bibliographique en France à un horizon de dix ans.Ce Comité réunit la BnF, l'Agence bibliographique de l'enseignement supérieur (ABES) et leurs tutelles ministérielles respectives.

FIN de l’introduction

Open URL et les résolveurs de liens
OPEN URL : protocole de métadonnées permettant de faitre des liens contextuels Résolveur de liens : outil informatique implémentant la norme OpenURL et faisant le lien entre une citation bibliographique et le texte intégral, en fonction des abonnements de l'établissement. Voir article de E Cavalié : Et celui d’ E Bermès : L’objectif de l’OpenURL est de rendre la recherche plus intuitive (j’ai une référence — Hop ! je clique — et la bibliothèque m’indique si je peux avoir la notice en ligne ou en salle). Le principe de base est clair : en tant que chercheur, étudiant, lecteur, je rencontre sur Internet ou ailleurs des notices bibliographiques (articles, livres, vidéos, etc.). A chaque fois que j’en rencontre une, je veux qu’un lien apparaisse qui aille interroger directement le catalogue de MA bibliothèque ou des bases auxquelles je suis abonné, pour savoir si celle-ci peut me proposer le document. L’idée simple de l’OpenURL, c’est que toute ressource référençant des documents utiliserait le même vocabulaire. La norme OpenURL, c’est donc un standard qui définit que le champ "Nom de famille de l’auteur" ne s’appellera pas "auteur", "author", "creator" ou autre, mais "aulast" (pour last name). Toute base qui accepte l’OpenURL doit donc accepter que son champ Auteur s’appelle "aulast". De même, le titre de l’article sera, dans l’URL : "atitle" ; le titre de la revue : "title" ; l’ISSN : "issn", etc. Comme généralement le catalogue lui-même n’est pas nativement OpenURL, il faut installer un résolveur OpenURL (ou résolveur de liens, ou link resolver, ou link server) qui comprendra la requête OpenURL, la transmettra au catalogue (en Z39.50, par exemple) et récupèrera le résultat pour afficher la notice détaillée. De même que le catalogue a une URL d’accès, le résolveur a une URL spécifique. C’est l’URL racine à indiquer à OpenURL Referrer. Un résolveur de liens est un outil informatique implémentant la norme OpenURL et faisant le lien entre une citation bibliographique et le texte intégral, en fonction des abonnements de l'établissement

Discovery tools (outil découverte)
Logiciel avec fonctions de recherche et facettes Réservoir unique Rapidité des résultats Indexe texte intégral et métadonnées de différentes bases Base de connaissance Autres fonctions : fourniture de documents, résolveur de liens Problème récurrent : bruit et pertinence des résultats Logiciel qui permet des fonctions de recherche (champ de recherche unique à la google) Qui interroge un réservoir unique (différence avec le moteur de rech fédérée) qui indexe le texte intégral des ressources référencées les métadonnées de différentes sources (SIGB, bib num, bases d’éditeurs, agrégateurs, etc.) : les métadonnées sont donc converties dans le format du discovery tool Le réservoir peut être en local ou en cloud.L’accès au réservoir est régi par une base de connaissance dans laquelle chaque bibliothèque déclare les titres et bouquets auxquels elle donne accès (ainsi Que les droits + liens) Intérêt : rapidité dans l’affichage des résultats, l’OPAC devient inutile, Autres fonctions : fourniture de documents (delivery) : réservation, peb ou accès au texte intégral (en général couplage avec un resolveur de liens) Solutions commerciales : Primo central, serials solution (summons : filiale proquest), Discovery service (Ebsco), worldcat local Open source : trove, FINNA

Pourquoi changer nos catalogues ?
Les enjeux du Web de données pour les bibliothèques

Les catalogues de bibliothèques, monde merveilleux ?
On a déjà des normes de catalogage (ISBD, AFNOR…) des formats MARC pour saisir et récupérer des notices… Des SIGB qui fonctionnent… Des OPAC et des catalogues collectifs accessibles sur le Web… Alors, pourquoi vouloir changer ? En 2013 : on a des outils, pourquoi vouloir en changer, pourquoi on nous parle d’FRBR RDA etc ?

Mais d’abord, est ce que nos catalogues conviennent aux usagers?
1 – changer pour l’usager Mais d’abord, est ce que nos catalogues conviennent aux usagers? L’usager des bibs : est un internaute et l’internaute recherche avant tout dans google Or quel est le constat ?: les Catalogues de bibliothèques n’émergent pas en premier quand on fait une recherche : il faut y aller exprès ! Une recherche sur une œuvre a de fortes chances de donner en 1er Amazon ou wikipedia

Aurez-vous la patience d’aller jusqu’à la 62ème page
Une recherche simple « charles Darwin » dans le sudoc donne plus de 600 résultats. Combien d’usagers auront la patience d’aller jusqu’à la 62e page ? Aurez-vous la patience d’aller jusqu’à la 62ème page

Cette étude de l’organisme Icrossing de 2010 montre que 95% des internautes s’arrêtent à la 1ère page de résultats. Voir l’étude icrossing.com “The importance of page-one visibility” (site consulté le 3/12/2012) Source : Sylvain Machefert

Source : Sylvain Machefert
Ici nous avons le même type d’enquête mais sur un catalogue de BU américaine Il montre la même chose : un usager va consulter des notices apparaissant sur la 1ere page de résultats (44 % consultant même le 1er de la liste de résultats) Source : Sylvain Machefert

1 - changer pour L’usager
L’usager est avant tout un internaute : Il veut tout et tout de suite Il veut des contenus précis (un article, une chanson, etc.) Il recherche en priorité sur le Web (et pas spécialement dans des catalogues) Il consulte les catalogues en recherche simple à la « google » Il faut donc : Faire évoluer nos catalogues pour les adapter à l’usager Ils ramènent trop de réponses (bruit) sans les classer Il faut structurer les résultats de recherche pour afficher des réponses pertinentes Aller vers l’usager Pousser les contenus et les données des bibliothèques vers les usagers/internautes donc sur le Web L’usager est avant tout un internaute : ses modes de recherche ont évolué. Il veut tout tout de suite : donc il s’arrête à la 1ere page de résultats. D’autre part, Il ne recherche pas spécialement dans les catalogues Lorsqu’il le fait, Il consulte un catalogue à la google : recherche simple par mots clés. La recherche avancée n’est plus utilisée. Il veut des contenus précis : un article, un morceau de musique : cataloguer la revue ou l’album ne suffit plus. Sur le Web, L’usager ne va pas spécialement vers la bib. Il faut donc que la bib aille vers lui (pousser les contenus) Que faire pour se rapprocher des usagers ? : Les catalogues doivent évoluer pour ramener des réponses plus pertinentes, classées intelligemment (on a déjà les catalogues à facettes qui améliorent les choses mais ça reste insuffisant). mais les bibliothèques doivent aussi pousser leurs infos (les métadonnées, les contenus) vers l’usager. Pour exister sur le Web, les bibs doivent démontrer qu’elles ont des contenus et des données dont les usagers ont besoin.

Data.bnf.fr Voici un premier exemple qui associe modèle de regroupement par œuvres (FRBR) et technologies du Web sémantique. Développé par société Logilab avec un logiciel libre : Cubicweb Data.bnf regroupe sur une même page des informations issues de ses différents catalogues, organisé autour des autorités BnF, ainsi que de sa bibliothèque numérique Gallica et enrichies par d’autres ressources BnF ou extérieures (par exemple DBpedia pour les biographies (réutilisation de contenus d’autres institutions grace au web de données). Génération automatique de pages HTML à partir des données existantes. Page dataBNF : Les œuvres et les auteurs exposés dans data.bnf.fr correspondent à un corpus « classique » de ressources citées et étudiées. Le corpus initial de data.bnf.fr porte sur des œuvres et des auteurs majeurs pour lesquels il existe de nombreuses notices dans les différentes bases de la BnF. Il s’élargit progressivement à des œuvres (musicales, anonymes…) et des auteurs nouveaux (juristes, compositeurs…). Cette extension permet de mettre en valeur les auteurs et œuvres moins connus et moins présents sur le Web. Enfin, il contient l'ensemble des autorités sujet du référentiel RAMEAU. Data.Bnf est dans le web de données (LOD) Actuellement : 20 % des catalogues est sur data (objectif : 100%). Car FRBerisation progressive (traitements de masse pour les regroupements) ce n’est pas le remplacement du catalogue général qui continue d’exister. Recherche sur Darwin charles: on a d’abord une info box avec des éléments biographiques issus des autorités BnF et des liens vers les oeuvres les plus étudiées, ses activités liens sur Gallica vers les œuvres numérisées, etc. Les données des bibliothèques sont plus visibles : par exemple les codes de fonction sont exploités Le référencement est bien meilleur avec Data : par exemple sur les ressources assez rares (mémoire d’un médecin de A Dumas) : 1er résultat via Google.

On a une notice sur cette œuvre et Si on clique sur « vie et édition de l’œuvre », on a les différentes publications liées et oganisées selon le modèle FRBR.

Autre exemple catalogue collectif ciné-ressources

« Super » Notice d'autorité « nom de personne »
C'est pas merveilleux, Cette page de résultats ?! Recherche par auteur Jacques Demy Ici nous avons un affichage des résultats sur une page en 3 groupes: Documents dont Jacques Demy est l'auteur Documents dont il est le sujet Documents liés aux 28 films + accès à une super notice d’autorité de J Demy avec filmographie etc.

Expérimentation OPENCAT
Nouveau projet réalisé par la BnF en partenariat avec Logilab et la BM de Fresne : s’appuie sur les regroupement d’œuvres et alignements réalisés pour Data.BnF Principe : Se lier aux données de la bnF plutôt que de récupérer des notices MARC Ajout d’informations contextualisées La BM a importé ses données locales qui sont alignées sur les données BnF et extérieures : Canal U, Gallica, dbpedia, etc.

OPENCAT http://demo.cubicweb.org/opencatfresnes/
Chaque bibliothèque peut expérimenter en fournissant un lot d’ISBN par exemple. Reste à interfacer avec le SIGB Demo avec Dumas : frise chronologique,

2 – changer pour être sur le Web
Pourquoi Les catalogues de bibliothèques ne sont ils pas visibles sur le Web ? Le Web ne parle pas MARC Le Web a ses propres normes Et surtout … Le Web ne connait pas MARC, UNIMARC etc. Il a ses propres normes : HTML, etc

Les catalogues sont dans le Web profond
Les moteurs de rech n’indexent pas les catalogues de bib car ils sont dans des bases de données. Ils se heurtent à un mur : Les BDD souvent représentées comme des cylindres, sont des silos où les données sont « cachées » et isolées. C’est ce qu’on appelle le Web profond (ou invisible). « sortir les données des silos pour qu’elles puissent être plus facilement exploitées par des machines » était un des objectifs de départ du Web sémantique . Tim Berners Lee . Les catalogues de bibliothèques sont dans des bases de données (silos) qui ne sont pas indexées par les moteurs de recherche

2 - Changer pour être sur le Web
Pourquoi adopter les standards du Web sémantique ? pour sortir du Web profond et de notre « niche » technologique des formats MARC pour évoluer avec le Web pour que la maintenance de nos catalogues coûte moins cher But : dans un souci économique utiliser des outils qui ne soient pas spécifiquement développés pour les bibliothèques. L’utilisation des formats Marc ralentit l’évolution technologique de nos catalogues : un boulet qui nous empêche d’avancer Il faut utiliser des formats du Web pour l’interopérabilité Interopérabilité +++ 30

3 - Changer pour rationaliser et enrichir le travail de catalogage
Récupérer des données produites ailleurs Par exemple les biographies de Wikipedia pour les auteurs Ne pas avoir à répéter les mêmes informations Réutiliser les données du catalogue Par exemple : l’indexation matière

Indexation matière dans le SUDOC :
Une indexation-matière recréée pour chaque notice Dans cet exemple, la même oeuvre “l’origine des espèces” fait l’objet de 5 indexations différentes. On pourrait imaginer faire l’ indexation une seule fois à un niveau supérieur commun à ces 5 éditions (au niveau de l’oeuvre) = Gain de temps et meilleure cohérence des infos. Indexation matière dans le SUDOC :

4- Changer pour que nos données soient réutilisées
créer des « Données liées ouvertes » Eclater nos notices en données réutilisables pour que n’importe qui puisse réutiliser n’importe lesquelles de nos données de n’importe quelle manière Mettre les données des catalogues sur le Web de données et les lier à d’autre bases pour que chacun puisse les réutiliser librement Participer au Web de données : Eclater la notice traditionnelle en données élémentaires combinables à souhait par les utilisateurs.

Quels outils pour le changement ?
Des modèles conceptuels pour Structurer l’information bibliographique Un code de catalogage Des Technologies et normes garantissant l’Interopérabilité du Web de données Pour changer la structuration de l’information bibliographique (notices) rationaliser le travail de catalogage et répondre aux attentes des utilisateurs d’aujourd’hui : modèle FRBR et sa mise en œuvre RDA Pour sortir du Web profond : changer de formats = utiliser les technologies du Web sémantique qui permettent également d’aller vers une granularité plus fine de l’information bibliographique : des « notices » aux « données » : le Web sémantique un format « Bibframe » orienté web sémantique est en cours de création par la LC et remplacera le Marc21 avant 10 ans Pour Mettre les données à disposition des utilisateurs… … là où sont les utilisateurs (sur le Web) il faut utiliser un espace global d’information ouvert : le Web de données. Web de données Un espace global d’information, ouvert, qui permet de lier, exploiter, mettre à disposition, réutiliser les données sur le Web

Métadonnées : Tentative de définition
- données sur (à propos) d’autres données - Information structurée qui sert à décrire, trouver, localiser, gérer, ,,, des ressources Posez la question : qu’est ce que c’est ? À quoi ça sert ? Pourquoi structuré : pour être interprétable par des machines, existent (font toujours référence) toujours par rapport à autre chose : une ressource, un objet ,Ppt de référence : NISO Les métadonnées Définition wikipedia : Une métadonnée (mot composé du préfixe grec meta, indiquant l'auto-référence ; le mot signifie donc proprement « donnée de/à propos de donnée ») est une donnée servant à définir ou décrire une autre donnée quel que soit son support (papier ou électronique). Un exemple type est d'associer à toute donnée, la date à laquelle elle a été produite ou enregistrée, ou à une photo les coordonnées GPS du lieu où elle a été prise. Les métadonnées sont à la base des techniques du Web sémantique. Elles sont définies dans le cadre du modèle Resource Description Framework (RDF).

Types de Métadonnées Métadonnées descriptives
Titre, auteur, résumé, mots clés, etc, Métadonnées de structure Chapitres d’un livre, organisation d’un texte Métadonnées de gestion (administratives) gestion des droits (propriété intellectuelle) Archivage et conservation Techniques : format, type, accès aux ressources, etc, Posez la question : qu’est ce que c’est ? À quoi ça sert ? ,Ppt de référence : NISO Les mét adonnées : existent (font toujours référence) toujours par rapport à autre chose : une ressource, un objet On trouve 3 types de métadonnées : ce qui décrit un document, ce qui concerne la structure d’un document et ce qui concerne sa gestion Conservation archivage : exemple : traçabilité

Métadonnées ou notice ? S’agit il de métadonnées ou non ? Oui les notices de catalogage sont des métadonnées, simplement on utilisait pas le terme qui est apparu avec Internet. les bibs font d’ailleurs de belles métadonnées structurées, D’ailleurs aux US ils utilisent le terme metadata librarian depuis longtemps Métadonnées peuvent être internes (encapsulées dans le ressource : en html ou xml par exemple) ou externes : catalogue, BDD (elles sont alors reliées à la ressource par un identifiant, etc) Métadonnées internes ou externes à une ressource

Formats de Métadonnées
Métadonnées existent dans tous les secteurs d’activité Nombreux formats Problème d’interopérabilité

Dublin core : un exemple de métadonnées
Siège d’OCLC à Dublin Ohio : OCLC est à l’origine du DC

Dublin Core Jeu de métadonnées descriptives normalisées : devenu une norme ISO (15836) en 2003, maintenu par le DCMI (Dublin Core Metadata Initiative). Objectif d’origine: décrire les ressources électroniques sur Internet dans un contexte HTML pour faciliter la recherche , avoir des métadonnées communes à plusieurs communautés Caractéristiques du Dublin Core : Simplicité : 15 éléments seulement Souplesse d’utilisation : tous les éléments sont facultatifs et répétables Utilisable dans différents formats : HTML, XML, etc. Dublin core : jeu de métadonnées Format de métadonnées conçu en 1995 à Dublin (Ohio), siège d’OCLC par un groupe de travail international dans le but de définir un format de description minimale utilisable à la fois pour la création et la recherche de documents électroniques Maintenu par le DCMI Objectif d’origine: décrire les ressources électroniques sur Internet, faciliter la recherche face à la surabondance d’information (bruit). Avoir des Métadonnées communes à diverses communautés 15 éléments bien identifiables. Simplicité d’utilisation (utilisable par des non professionnels de l’information) Souplesse d’utilisation : tous les éléments sont facultatifs et répétables, extensibilité Multilinguisme

Les 15 éléments de base du Dublin Core
Title : titre de la ressource Subject : mots-clés ou language documentaire Description : présentation du contenu (résumé, table des matières, etc;) Source : référence à une ressource dont la ressource décrite est dérivée Language : langue utilisée dans la ressource Relation : référence à une ressource apparentée Coverage : couverture spatio-temporelle (périmètre ou domaine d’application de la ressource) Creator : auteur principal Contributor : responsabilité secondaire Publisher : éditeur (mise à disposition de la ressource) Rights : gestion des droits Date : date d’un événement dans le cycle de vie de la ressource Type : catégorie, fonction ou genre de la ressource (contenu sémantique) Format : format, taille de la ressource Identifier : identifiant (URL, ISSN etc.) Aux 15 éléments de base (norme ISO) se sont ajoutés d’autres éléments recommandés par le DCMI : Par exemple : audience

Dublin Core qualifié et non qualifié
Dublin Core non qualifié : utilisation des 15 éléments seulement Dublin Core qualifié : Utilisation d’un Référentiel plus complet : Dubin Core metadata terms Possibilité de choisir d’autres éléments et des schémas d’encodage. Exemples de DC qualifié: qualificatifs de raffinement (création de nouveaux éléments) <meta name="dc.identifier.URI" content=« schéma d’encodage (association d’un élément à un référentiel) <meta name="dc.subject" scheme = « DDC » content= « »> Exemple d’utilisation : Guide d’utilisation du Dublin Core non qualifié à la BnF. [en ligne] (consulté le 28 mars 2009) Dublin core metadata initiative (DCMI). [en ligne] (consulté le 28 mars 2009) TEASDALE Guy. Guide d'utilisation du Dublin Core [en ligne] Université Laval, (consulté le 28 mars 2009)

Exemple pour un site Web

Exemple de notice OAI (métadonnées Dublin Core)
<record> <identifier>oai: 2450</identifier> <dc:title> Accueillir, orienter informer </dc:title> <dc:creator> Bertrand Calenge</dc:creator> <dc:type>Monographie imprimée</dc:type> … </record>

DC Profil bibliothèques
Il existe un profil bibliothèques (ainsi que d’autres profils) en DC qualifié sur le site du DCMI Ce profil détaille les éléments en DC simple et qualifié qui sont autorisés: Voir la partie 3 du profil Introduit la notion d’élément obligatoire et obligatoire si applicable : on se rapproche de MODS et de MARC : fait pour avoir des tables de correspondance MARC/DC qui soient complètes Utilité du profil : Utiliser le Dublin Core comme format d’échange entre formats de métadonnées différents création simple de notices de catalogues dans une grande variété de systèmes Exposer à d’autres communautés des notices MARC (en les convertissant en DC sans trop les appauvrir) Collecter des métadonnées à partir de sources externes au domaine des bibliothèques

Avantages du Dublin core
Simplicité Reconnaissance internationale : norme ISO Utilisation grandissante grâce au protocole OAI PMH Seul jeu de métadonnées reconnu comme norme ISO OAI PMH : seule format de métadonnées obligatoire Format générique

Globalement encore peu utilisé à l’échelle du Web
Limites du Dublin Core Globalement encore peu utilisé à l’échelle du Web simplicité à double tranchant 15 éléments de base : insuffisant pour décrire des ressources complexes Sa simplicité ne permet pas de décrire toutes les ressources. Manque de granularité On lui préfère souvent MODS (plus complet) Souplesse d’utilisation : inconvénient pour l’interopérabilité sémantique car les utilisateurs peuvent créer des qualificatifs pour leurs propres besoins Initiatives utilisant le Dublin Core OAI: Open Archives Initiative –Protocol for metadata harvesting→diffusion et partage de métadonnées descriptives TEL: The EuropeanLibrary→portail des bibliothèques nationales européennes EULER→portail de publications dans le domaine des mathématiques, issu d’un projet européen ( ) MusicBrainz→description collaborative de morceaux de musique Biblink→projet européen ( ) visant à favoriser l’échange de données entre les éditeurs de publications électroniques et les agences bibliographiques nationales

Exercice Dublin Core Transposer en DC simple la notice MARC suivante

MODS Metadata Object Description Schema

MODS Schéma XML développé par la Bibliothèque du Congrès pour décrire tout type de ressource Métadonnées descriptives Adaptation simplifiée du MARC 21 Indépendant d’un code de catalogage Plus riche que le Dublin Core Mappings facilités vers différents jeux de métadonnées : MARC, DC, RDA, ONIX Version actuelle : 3.4 Schéma XML développé par la Bibliothèque du Congrès pour créer directement en XML des métadonnées descriptives Adaptation du MARC 21 mais certains éléments sont propres à MODS (aucun élément obligatoire) Format voisin pour les autorités : MADS Mapping RDA > MODS Extrait du site : Advantages of MODS MODS is intended to complement other metadata formats. For some applications, particularly those that have used MARC records, there will be advantages over other metadata schemes. Some advantages are: The element set is richer than Dublin Core The element set is more compatible with library data than ONIX The schema is more end user oriented than the full MARCXML schema The element set is simpler than the full MARC format 3. Features of MODS The elements generally inherit the semantics of MARC Some data has been repackaged; in some cases what is in several data elements in MARC may be brought together into one in MODS MODS does not assume the use of any specific cataloging code Several elements have an optional ID attribute to facilitate linking at the element level.

MODS Exemples : Vocabulaire MODS en RDF 4 exemples sont proposés : site web, livre numérisé, photo et article On remarque : plus d’étiquettes MARC mais des intitulés en clair à la place 20 éléments de haut niveau + des sous éléments <titleInfo> 􀁺<name> 􀁺<typeOfResource> 􀁺<genre> 􀁺<originInfo> 􀁺<language> 􀁺<physicalDescription> 􀁺<abstract> 􀁺<tableOfContents> 􀁺<targetAudience> <note> <subject> <classification> <relatedItem> <identifier> <location> <accessCondition> <part> <extension> <recordinfo> Un vocabulaire MODS en RDF en OWL :

MODS A quoi sert MODS ? Décrire des ressources
Échanger des métadonnées MARC avec d’autres jeux de métadonnées Compatibilité OAI PMH et SRU Qui utilise MODS en France ? DAPHNE (Données en Archéologie, Préhistoire et Histoire sur le NEt) Portail Musique contemporaine Échange : MODS est compatible MARC et autres jeux de métadonnées : sert de pivot pour échanger des métadonnées Intégrable facilement à METS Utilisable avec SRU En France : DAPHNE (Données en Archéologie, Préhistoire et Histoire sur le NEt) DAPHNE est un guichet unique d’accès gratuit à des bases de données bibliographiques thématiques. Son interface de recherche utilise le format MODS qui permet un accès partagé à trois bases de données qui conservent par ailleurs leur identité propre : Francis, Bulletin Analytique d'Histoire Romaine (BAHR), FRANTIQ Portail Musique contemporaine Ce portail moissonne les informations sous forme de métadonnées à partir des catalogues et des bases de données des partenaires en utilisant le protocole OAI-PMH. Les métadonnées utilisent le format MODS pour décrire les ressources selon un modèle élaboré en commun destiné à refléter les principaux champs d’information présents dans les bases des organismes, et à permettre d’y effectuer des recherches d’ordre général (personne, titre, support, forme, date…) et spécifique (instrumentation, genre). En Suisse : BN pour dépôt légal des publ. Électroniques, Aux USA, en Allemagne

ONIX Online Information eXchange
Format de métadonnées en XML de la chaîne éditoriale commerciale éditeurs, diffuseurs libraires 2 schémas ONIX for books ONIX for serials Fait pour l’échange ONIX : fait par les éditeurs pour échanger des notices entre ed, libraires, métiers du livre 2 schémas : onix for books et onix for serials ONIX =ONlineInformation eXchange création par The Association of AmericanPublishers maintenance par le groupe EDItEUR domaine d’activité: développement des normes pour le commerce électronique dans le domaine du livre et des publications en série site : Established in 1991, EDItEUR is a truly international organisation with over 100 members from 22 countries, including Australia, Canada, Japan, United States and most of the European countries.

ONIX for books Guide ONIX avec aperçu et éléments (version en français 2009) 200 éléments : En tête : expéditeur et destinataire 6 blocs : description du produit Enrichissement marketing Détail du contenu Conditions de publication Matériels liés (dont autres œuvres) Conditions d’approvisionnement « ONIX for books » est un format d’échange de métadonnées. Une nouvelle version, ONIX 3.0, a été traduite en français à l’initiative du Cercle de la librairie en avril 2009, auprès duquel elle est maintenant disponible pour l’ensemble des professionnels. Le SNE, ELECTRE et DILICOM recommandent l’usage de la norme ONIX comme un facteur important de l’interopérabilité des fichiers de métadonnées dans le monde du livre, tant physique que numérique. Guide ONIX 3.0 avec Aperçu et Eléments NB : Pour consulter les dernières mises à jour, vous pouvez vous reporter au site internet : EDItEUR (en anglais) Exemple ONIX extrait d’Electre (2004) :

ONIX Utilisation d’ONIX en France : Electre / cercle de la librairie
Produit ses données en ONIX ONIX, FRBR RDA et le Web sémantique Mapping RDA/ONIX framework Production de données FRBrisées en ONIX possible ONIX n’est pas disponible sur le Web de données (en juin 2013) ONIX en RDF : pas encore dans le metadata registry

ENS Lyon 17 au 19 juin 2013 Thierry Clavel et Philippe Bourdenet

Présentations similaires

Présentation au sujet: "ENS Lyon 17 au 19 juin 2013 Thierry Clavel et Philippe Bourdenet"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

ENS Lyon 17 au 19 juin 2013 Thierry Clavel et Philippe Bourdenet

Présentations similaires

Présentation au sujet: "ENS Lyon 17 au 19 juin 2013 Thierry Clavel et Philippe Bourdenet"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back