OAI-PMH et métadonnées Dublin Core et quelques autres

Slides:



Advertisements
Présentations similaires
Le rôle des Métadonnées
Advertisements

Rosa María Gómez de Regil Educatice, 25 novembre 2010
Koha - Greenstone Symposium Koha Miramas 28 mai 2010
Métadonnées des publications scientifiques Acclimater Eprints Application Profile (UK) Yann Nicolas, ABES Couperin AO, 21 mai 2007.
UR1, CRI, Thierry Bédouin, le 21 Mai 2007 Journée Couperin du 21 Mai 2007 Thierry Bédouin, directeur du CRI de Rennes 1 Les publications scientifiques,
Journée d’échange du 17 Novembre
CSIESR-Arles 16/05/06 -F. JANNIN- B. SOR inJAC ESUP et OAI-PMH Le CMS détablissement dESUP.
dispositif SIST et l’accès à l’information scientifique et technique
Réseau de portails de l’UNF3S
Mai Le projet européen DRIVER Une infrastructure pour la recherche européenne
La diffusion des métadonnées de la thèse
Les fonctionnalités de STAR : archivage, signalement et diffusion STAR 8ième cercle le 27 septembre 2013.
Avenir des descriptions de ressources pédagogiques en ligne
Documentation numérique sur l’Internet
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
Traduction française des formats UNIMARC
ENS Lyon 17 au 19 juin 2013 Thierry Clavel et Philippe Bourdenet
Octobre 2008Anne Pajard Bibliothèques numériques Formation mise en place par le CNFPT Martinique pour les personnels de bibliothèques territoriales.
TP 3-4 BD21.
Métadonnées pour les thèses numériques françaises
Plateforme de revues et d’articles en sciences humaines et sociales
Les pratiques documentaires de la Maison des Géosciences : Rapport denquête Emilie Gentilini Juin 2006.
Septembre Interconnexion entre HAL et dautres systèmes dinformation.
La valorisation de la Recherche
Etude des Technologies du Web services
XML-Family Web Services Description Language W.S.D.L.
European Schoolnet 1 Les initiatives de European Schoolnet dans le domaine dinteropérabilité European Schoolnet Lyon - Saint-Clément-Les-Places,
Mise en place d'archives ouvertes: mesures pratiques
Centre National pour la numérisation de sources visuelles
Février-Avril 2006 Licence Pro BDAN 1 4. Partager les métadonnées 2 méthodes pour partager: Le serveur Z39.50 Le serveur.
Lycée Louis Vincent Séance 1
OUVERTURE DES DONNÉES. Le projet d'établissement de l'ABES , p. 4.
Bases de données documentaires Faculté de Médecine PCEM2.
Le portail des MSH
Recommandations et procédure d’attribution de DOI
DT/SDTICE/Infrastructures et Services- Documentation 30 janvier Le profil français dapplication du LOM: présentation aux interlocuteurs académiques.
Normes et standards pour les plate-formes de e-learning
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Une chaîne éditoriale développée dans le cadre du CIRM François Dagorn Journées pédagogiques de lIFSIC.
Master EIAH E-learning De la production à la mutualisation Brigitte de La Passardière Université Pierre et Marie Curie LIP6.
NORMES ISO et format MARC utiles aux documentalistes
Introduction à la structuration des documents: les applications M2: Gestion des connaissances.
Thierry Bédouin, Université de Rennes 1, le 11 Juin 2008 Maîtriser son patrimoine numérique Un enjeu essentiel pour les établissements de lESR et plus.
Le cœur du projet : objectifs Lélaboration dune base de corpus (principalement oraux) regroupant des données de langues de différentes natures –Une approche.
Catalogage de données Notions, enjeux et initiatives actuelles.
Rosa María Gómez de Regil Paris, 25 janvier 2011
Implémentation OAI-PMH CNDP – Jérôme Martin
Le portail du patrimoine oral Un catalogue collectif d'archives sonores et audiovisuelles sur l'oralité Véronique Ginouvès Phonothèque.
1 Outils bibliographiques Plume 20 mars- Lyon Yannick Maignien.
VocabNomen Description des ressources pédagogiques en ligne Marie-Christine Milot DGESCO A3-4
Les archives en ligne et l'histoire
Réunion des directeurs d’unités ST2I 30 octobre 2007 Réseau Doc-ST2I Missions et perspectives (MI2S)
L’information scientifique : les impacts du libre accès
Information Scientifique et Technique à l’IN2P3 LAL Orsay 25 janvier 2006 Dominique Jarroux-Déclais Responsable IST IN2P3.
Web sémantique est pratique documentaire
Présentation générale de l’organisation des données et des possibilités de recherche ARL-PACA/ Marseille /Janvier.
S'initier au HTML et aux feuilles de style CSS Cours 5.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
LES ARCHIVES OUVERTES. L’accès à l’information scientifique : un enjeu majeur pour les chercheurs.
Module : Langage XML (21h)
Cours sur le DOI COULET Alban GREMONT Baptiste GIDO2A Le 13/12/2007.
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Bibliothèque(s) Virtuelle(s) Expériences en Provence-Alpes-Côte d’Azur Stéphane Ipert Directeur du Centre de Conservation du Livre, Arles.
Page 1 Analyse du sujet -1- éléments issus de la lecture du sujet Niveau Discipline paternaire Thème Sujet Production attendue But de la demande.
Analyse du sujet -1- Eléments issus de la lecture du sujet
Projet Métadonnées Dublin Core Licence Professionnelle Ressources Documentaires et Bases de Données option Image et Son IUT Michel de Montaigne - Bordeaux.
SUJET. Analyse du sujet -1- Eléments issus de la lecture du sujet Niveau : Discipline partenaire/ Collaboration : professeur Thème : Sujet : Production.
Formation GBIF France dans le cadre d’Ecoscope – Valoriser ses données d’observation sur la biodiversité : qualité, standards et publication Paris,
Introduction générale
OAI-PMH & LOM OAI Repository interoperability using LOM metadata format Interopérabilité des bases de ressources utilisant OAI-PMH et LOM Steve Giraud.
Transcription de la présentation:

OAI-PMH et métadonnées Dublin Core et quelques autres “Mutualiser les ressources documentaires en utilisant le protocole OAI-PMH”, Fréjus, 14-16 octobre 2009 Catherine Morel-Pair INIST-CNRS, Département Edition et Publications Numériques catherine.morel@inist.fr

Protocole OAI-PMH Fournisseurs de données Fournisseur de services ? ?

Protocole OAI-PMH et métadonnées Un entrepôt OAI-PMH répond en XML aux 6 verbes de requête du protocole “ListRecords” et ”GetRecord” rendent des “enregistrements” (records) de métadonnées décrivant les documents de l’archive Minimum obligatoire : enregistrement Dublin Core simple, “oai_dc” Autres possibles, en parallèle, selon objectifs MARC-XML, MODS METS , DIDL … tout jeu d’éléments en XML … http://gita.grainger.uiuc.edu/registry/ListSchemas.asp Item = ensemble d’enregistrements décrivant une ressource http://gita.grainger.uiuc.edu/registry/ListSchemas.asp : les entrepôts par format

4 Des métadonnées pourquoi ? Imaginez une boîte de conserve scellée sans étiquette. Cette boîte pourrait contenir de l'huile à moteur, des haricots rouges ou de la nourriture pour chats. Pour savoir ce qu'elle contient, et aussi si le contenu est encore bon, il faudrait l'ouvrir. Par contre, si elle comportait une étiquette, vous sauriez ce qu'elle contient sans l'ouvrir. De plus, si elle comportait une étiquette très renseignée, vous sauriez d'un coup d'oeil, tout ce que vous devez savoir : contenu générique de la boîte ; au-delà du contenu générique (haricots rouges, huile, sardines…) : composition en glucides, lipides, protide, vitamines, ou encore plus : additifs divers (anti-oxydants, conservateurs, colorants, exhausteurs de goût, produits allergisants ….) Vous pourriez ainsi prendre une décision informée quant à l'achat ou à l'ouverture dela boîte. Une étiquette typique d'une boîte de haricots rouges peut contenir les renseignements suivants: Titre : Haricots rouges Yummy Delicious Créateur : Hubert's, appartenant au groupe des légumes de la Division des aliments internationaux de la société BWG Ingrédients : haricots rouges, eau distillée, sel, acide ascorbique Date de fabrication : 14 juin 2002, date de péremption : 14 juin 2010 Code barre : identifiant unique L'étiquette pourrait contenir des renseignements supplémentaires, contextuels, allant d’alertes aux allergies à un numéro sans frais pour les consommateurs. Certains territoires, dont le Canada, exigent que les entreprises de transformation des produits alimentaires incluent certains renseignements obligatoires sur les étiquettes ou les emballages de leurs produits. De plus, selon les lois canadiennes, les renseignements doivent apparaître en français et en anglais. Les métadonnées jouent le même rôle qu'une étiquette. Ou plutôt , cette étiquette, c’est un ensemble de métadonnées. Dans notre cas, l'objet est plutôt une ressource électronique sur le World Wide Web ou ailleurs. L'information ainsi donnée facilite l'exploration des ressources de la même façon que les catalogues de bibliothèque indiquent les voies qui mènent à l'information requise. Les moteurs de recherche se servent des métadonnées afin de permettre une meilleure correspondance entre les requêtes des utilisateurs et les descriptions de ressources indexées par le moteur. Elle en facilite aussi la gestion, informatique et droits. Tout comme d'autres étiquettes, les métadonnées fournissent : de l'information au sujet du contenu d'un objet, mais aussi de l’informations sur les droits (créateur, diffuseur, responsabilité) et de l’information dite technique (poids, dates du cycle de vie…). Cf : Source : http://www.collectionscanada.gc.ca/obj/s37/f2/s37-4016.1-f.pdf Source : http://www.collectionscanada.gc.ca/obj/s37/f2/s37-4016.1-f.pdf, trouvaille du Comité de pilotage FRéDoc 4

Métadonnées en XML ? … Généraliste, Web, échanges Dublin Core Types de ressources Thèses : ETDMS, TEF Ressources pédagogiques, géospatiales, linguistiques … Formats de ressources Image : XMP, MIX Multimédia : MPEG 7, 21 Documents TEI … Généraliste, Web, échanges Dublin Core Containers METS MPEG 21 (DIDL) OAI-ORE Métiers Bib-doc : *MARC MODS BiblioML Chaîne du livre : ONIX Archivistique : EAD … Objectifs Droits : CC, ODRL Veille : RSS Préservation : PREMIS

Métadonnées et XML ? Un tiercé en 1 heure Dublin Core simple – généricité, universalité Socle d’interopérabilité de l’OAI-PMH (2400 entrepôts) Nombreux autres usages … MODS - description bibliographique OAI-PMH - 100 entrepôts Autres usages … METS - “container” , collections OAI-PMH - 130 entrepôts … En bonne place aussi dans l’OAI-PMH : MARC-XML* (580), RFC1807 (308), … ETDMS (117), DIDL (79) … DC qualifié (60)

1 - Dublin Core DCMI, Dublin Core Metadata Initiative, 1995 “Pallier les insuffisances des métadonnées HTML […] pour donner une sémantique au Web” […] et améliorer la “resource discovery” Par un standard généraliste pour le Web “description bibliographique simplifiée” … pour tout type de ressource http://dublincore.org

Dublin Core, des modules DC simple : généricité, universalité 15 éléments caractérisés par 10 propriétés norme ISO 15836-2003 Ex : title, relation DC qualifié : de la précision + “qualificatifs” plus spécifiques Ex: alternative, hasFormat … DC étendu : des compléments + éléments issus d’autres standards (Learning Object Metadata IEEE-LOM), ex : audience + éléments récents : provenance, accroissement de collections … “Encoding schemes” : homogénéiser les valeurs des éléments et qualificatifs Pour homogénéiser les valeurs des éléments ex. thésaurus, codes ISO langues et pays …

Dublin Core simple en une page Les éléments descriptifs du contenu de la ressource title, description, subject, coverage, type, language, relation Les éléments “administratifs” Des éléments descriptifs des droits creator, contributor, publisher, rights, source Des éléments techniques format, date, identifier Un élément de structure (parfois) : relation Des recommandations pour homogénéiser les contenus des valeurs Utiliser des ressources reconnues : thésaurus, codes langues, pays … et des modèles de valeur

Dublin Core qualifié exemple 1 Element Qualificatif title Nom donné à la ressource alternative : autre titre (traduction, abréviation…) description Description du contenu de la ressource abstract : résumé tableOfContent : liste des sous-unités du contenu de la ressource

Dublin Core qualifié exemple 2 Relation Référence à une ressource liée ... Il est recommandé d'utiliser une dénomination formelle des ressources (URI) Qualificatifs isFormatOf / hasFormat isVersionOf / hasVersion isReplacedBy / replaces isRequiredBy / requires isPartOf / hasPart isReferencedBy / references conformsTo

Dublin Core en XML Dublin Core simple Dublin Core qualifié Plus professionnel Description plus fine Attributs xml:lang, xsi:type plus fréquents Valeurs contrôlées plus souvent <dc:title>Métadonnées et XML</dc:title> <dc:relation>Ingénierie des systèmes d’information, 2005, no 2</dc:relation> <dc:type>Text</dc:type> … ex : enregistrement oai_dc <dcterms:alternative xml:lang=“en”>Metadata and XML </dcterms:alternative> <dcterms:isPartOf>Ingénierie des systèmes d’information, 2005, no 2</dcterms:isPartOf> Espace de nom : au départ organisme qui avait créé un schéma XML, aussi un « endroit » (URI) où se trouvait un schéma XML, maintenant, un « endroit » où se trouve un ensemble fermé d’éléments: jeu de métadonnées, vocabulaire, classement …

Moissonneurs et DC, exemple OAISTER

Dublin Core intérêt … et limites Consensus international et interprofessionnel Sémantique “commune” interdisciplinaire ; multilinguisme Simplicité – 2 niveaux d’usage Flexibilité Normalisation et évolutivité  largement adopté aujourd’hui Description généraliste pour la recherche d’informations Pour des ressources plutôt électroniques et “isolées” Métadonnées techniques et administratives limitées Implémentation peu contraignante  … dans des “profils d’application” … ou à côté d’autres descriptions

DC : “le pouvoir de la simplicité” … Profils d’applications Archives ouvertes et protocole OAI-PMH Bibliothèques numériques Annuaires et portails Z39.50, SRW OpenURL Thèses Electroniques Fr “Informations publiques” Corpus Recherche (OLAC …) EBooks : standard ePUB Bib num : collections de ressources raisonnées in situ ? Portail : GB : eprints scholar, BL ; info publique Canada : info publique XMP et images Web sémantique Web 2 Outils logiciels …

2008 : DCAM Dublin Core Abstract Model “Web sémantique” : d’un Web de “documents” à un Web de “données” interopérables compréhensibles par les machines Indépendantes du contexte applicatif, interconnectables … pour créer de nouvelles données / “raisonnement machine” Standards ! Ecriture structurée : triplets RDF Propriétés et valeurs issues d’espaces de noms et ontologies autant que possible : connaissances scientifiques, savoir-faire, personnes, objets (numériques ou non), droits … DC devient une “ontologie”, pour décrire des objets de l’activité intellectuelle et artistique Via une modélisation abstraite des entités Dublin Core et de leurs relations, sur le modèle RDF http://purl.org/dc/terms Utilisée avec d’autres ontologies Voir DBPedia, Libris … Sindice

LIBRIS, catalogue collectif suédois RDF, DC et autres … Source : http://blog.libris.kb.se/semweb/?p=7

MODS Metadata Object Description standard Sous-ensemble d’éléments MARC verbalisés, “suffisant pour créer un enregistrement bibliographique complet” Finesse supérieure à Dublin Core, + convivial que *MARC Né et stabilisé en 2003, Library of Congress http://www.loc.gov/standards/mods/ Descriptions de ressources très diverses Textes, images, audio-visuel, partitions, sites Web, bâtiments … implémentés avec des suites d’outils variés France : base de données DAPHNE, http://daphne.cnrs.fr 3 partenaires : BAHR, FRANCIS, Frantiq 100 entrepôts OAI-PMH

MODS et OAI-PMH Extrait … <name type="personal">   <namePart type="family"> Wheatley</namePart> <namePart type="given"> Phillis</namePart> … </name> "

MODS et moissonneurs “généralistes” Un début … Sept 2009 : portail expérimentail, 624 mille records, 20 producteurs

MODS, pivot de DAPHNE Transformation automatisée des notices de chaque base  MODS Interrogation par Lucene Des notices MODS D’entrepôts OAI extérieurs (revues.org) Utilisateur enregistré Panier de sauvegarde de requêtes et notices export MODS ou CVS

BiblioML versus MODS. (5 blocs, 224 éléments) http://90plan. ovh

MODS, Libr of Congress

3 - METS Metadata Encoding and Transmission Standard Né en 2001, projet MOA “Making of America” II Collections numériques sur l’histoire des Etats-Unis Créé et maintenu par la Library of Congress, http://www.loc.gov/standards/mets/ Pour décrire / créer, et partager / échanger des “objet numériques complexes” “Enveloppe” comprenant tous les types de métadonnées “bien rangés” dans des sections, avec liens explicites entre composants …

Creat. Com. METSRights PREMIS METS, structure Creat. Com. METSRights PREMIS MIX.. DC, MODS EAD ONIX … metsHdr Administration Juridiques Techniques Préservation * Description contenu pointeurs Section comportements Liens structure Voir http://www.lespetitescases.net/mets-et-tu-mets-tes-fichiers-dans-des-petites-cases Carte(s) de structure Section des fichiers

METS, fonctions Transferts de gros paquets de (méta)données organisés de manière standard et structurée Utilisation facile / implémentation plus complexe Pérennisation des collections et métadonnées Permet l’implémentation des “paquets de soumission” conformes à la norme OAIS Pré-organise les diffusions Prépare les interfaces de navigation dérivées (sections : carte de structure, comportement, administrative …)

METS aujourd’hui Des applications, des outils … … en France http://www.loc.gov/standards/mets/mets-registry.html FEDORA, Greenstone … DSpace 130 entrepôts OAI-PMH … en France Entrepôts OAI-PMH : Revues.org, Persée, Cairn Thèses électroniques françaises un seul fichiers METS encapsulant DC, MODS, ETDMS … pour chaque thèse et toutes ses versions http://www.abes.fr/abes/documents/tef/exemples.html Editions Electroniques de l’Ecole des Chartes (+ TEI) BNF : SPAR, archivage pérenne des collections numériques Archivage pérenne des archives visuelles du CN2SV entrepôt “OAIS”, Data Center … … ? - Exemple “ Le formulaire d’Odart Morchesne” Navigation HTML: http://elec.enc.sorbonne.fr Fichier XML METS

METS, Library of Congress

Conclusion : un exemple, la plateforme du CN2SV pour les fonds d’archives des sciences http:/www.arch.cn2sv.cnrs.fr/

La plateforme du CN2SV : XML et métadonnées standard à tous les étages Moteurs Annuaires Web Création fichier EAD extraction METS Ajout Métas IPTC embarquées (XMP) Data center Modèle OAIS Entrepôt OAI-PMH DC- XML Source : présentations de Stéphane Pouyllau …