Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parHélène Lavigne Modifié depuis plus de 11 années
1
OAI-PMH et métadonnées Dublin Core et quelques autres
“Mutualiser les ressources documentaires en utilisant le protocole OAI-PMH”, Fréjus, octobre 2009 Catherine Morel-Pair INIST-CNRS, Département Edition et Publications Numériques
2
Protocole OAI-PMH Fournisseurs de données Fournisseur de services ? ?
3
Protocole OAI-PMH et métadonnées
Un entrepôt OAI-PMH répond en XML aux 6 verbes de requête du protocole “ListRecords” et ”GetRecord” rendent des “enregistrements” (records) de métadonnées décrivant les documents de l’archive Minimum obligatoire : enregistrement Dublin Core simple, “oai_dc” Autres possibles, en parallèle, selon objectifs MARC-XML, MODS METS , DIDL … tout jeu d’éléments en XML … Item = ensemble d’enregistrements décrivant une ressource : les entrepôts par format
4
4 Des métadonnées pourquoi ?
Imaginez une boîte de conserve scellée sans étiquette. Cette boîte pourrait contenir de l'huile à moteur, des haricots rouges ou de la nourriture pour chats. Pour savoir ce qu'elle contient, et aussi si le contenu est encore bon, il faudrait l'ouvrir. Par contre, si elle comportait une étiquette, vous sauriez ce qu'elle contient sans l'ouvrir. De plus, si elle comportait une étiquette très renseignée, vous sauriez d'un coup d'oeil, tout ce que vous devez savoir : contenu générique de la boîte ; au-delà du contenu générique (haricots rouges, huile, sardines…) : composition en glucides, lipides, protide, vitamines, ou encore plus : additifs divers (anti-oxydants, conservateurs, colorants, exhausteurs de goût, produits allergisants ….) Vous pourriez ainsi prendre une décision informée quant à l'achat ou à l'ouverture dela boîte. Une étiquette typique d'une boîte de haricots rouges peut contenir les renseignements suivants: Titre : Haricots rouges Yummy Delicious Créateur : Hubert's, appartenant au groupe des légumes de la Division des aliments internationaux de la société BWG Ingrédients : haricots rouges, eau distillée, sel, acide ascorbique Date de fabrication : 14 juin 2002, date de péremption : 14 juin 2010 Code barre : identifiant unique L'étiquette pourrait contenir des renseignements supplémentaires, contextuels, allant d’alertes aux allergies à un numéro sans frais pour les consommateurs. Certains territoires, dont le Canada, exigent que les entreprises de transformation des produits alimentaires incluent certains renseignements obligatoires sur les étiquettes ou les emballages de leurs produits. De plus, selon les lois canadiennes, les renseignements doivent apparaître en français et en anglais. Les métadonnées jouent le même rôle qu'une étiquette. Ou plutôt , cette étiquette, c’est un ensemble de métadonnées. Dans notre cas, l'objet est plutôt une ressource électronique sur le World Wide Web ou ailleurs. L'information ainsi donnée facilite l'exploration des ressources de la même façon que les catalogues de bibliothèque indiquent les voies qui mènent à l'information requise. Les moteurs de recherche se servent des métadonnées afin de permettre une meilleure correspondance entre les requêtes des utilisateurs et les descriptions de ressources indexées par le moteur. Elle en facilite aussi la gestion, informatique et droits. Tout comme d'autres étiquettes, les métadonnées fournissent : de l'information au sujet du contenu d'un objet, mais aussi de l’informations sur les droits (créateur, diffuseur, responsabilité) et de l’information dite technique (poids, dates du cycle de vie…). Cf : Source : Source : trouvaille du Comité de pilotage FRéDoc 4
5
Métadonnées en XML ? … Généraliste, Web, échanges Dublin Core
Types de ressources Thèses : ETDMS, TEF Ressources pédagogiques, géospatiales, linguistiques … Formats de ressources Image : XMP, MIX Multimédia : MPEG 7, 21 Documents TEI … Généraliste, Web, échanges Dublin Core Containers METS MPEG 21 (DIDL) OAI-ORE Métiers Bib-doc : *MARC MODS BiblioML Chaîne du livre : ONIX Archivistique : EAD … Objectifs Droits : CC, ODRL Veille : RSS Préservation : PREMIS
6
Métadonnées et XML ? Un tiercé en 1 heure
Dublin Core simple – généricité, universalité Socle d’interopérabilité de l’OAI-PMH (2400 entrepôts) Nombreux autres usages … MODS - description bibliographique OAI-PMH entrepôts Autres usages … METS - “container” , collections OAI-PMH entrepôts … En bonne place aussi dans l’OAI-PMH : MARC-XML* (580), RFC1807 (308), … ETDMS (117), DIDL (79) … DC qualifié (60)
7
1 - Dublin Core DCMI, Dublin Core Metadata Initiative, 1995
“Pallier les insuffisances des métadonnées HTML […] pour donner une sémantique au Web” […] et améliorer la “resource discovery” Par un standard généraliste pour le Web “description bibliographique simplifiée” … pour tout type de ressource
8
Dublin Core, des modules
DC simple : généricité, universalité 15 éléments caractérisés par 10 propriétés norme ISO Ex : title, relation DC qualifié : de la précision + “qualificatifs” plus spécifiques Ex: alternative, hasFormat … DC étendu : des compléments + éléments issus d’autres standards (Learning Object Metadata IEEE-LOM), ex : audience + éléments récents : provenance, accroissement de collections … “Encoding schemes” : homogénéiser les valeurs des éléments et qualificatifs Pour homogénéiser les valeurs des éléments ex. thésaurus, codes ISO langues et pays …
9
Dublin Core simple en une page
Les éléments descriptifs du contenu de la ressource title, description, subject, coverage, type, language, relation Les éléments “administratifs” Des éléments descriptifs des droits creator, contributor, publisher, rights, source Des éléments techniques format, date, identifier Un élément de structure (parfois) : relation Des recommandations pour homogénéiser les contenus des valeurs Utiliser des ressources reconnues : thésaurus, codes langues, pays … et des modèles de valeur
10
Dublin Core qualifié exemple 1
Element Qualificatif title Nom donné à la ressource alternative : autre titre (traduction, abréviation…) description Description du contenu de la ressource abstract : résumé tableOfContent : liste des sous-unités du contenu de la ressource
11
Dublin Core qualifié exemple 2
Relation Référence à une ressource liée ... Il est recommandé d'utiliser une dénomination formelle des ressources (URI) Qualificatifs isFormatOf / hasFormat isVersionOf / hasVersion isReplacedBy / replaces isRequiredBy / requires isPartOf / hasPart isReferencedBy / references conformsTo
12
Dublin Core en XML Dublin Core simple Dublin Core qualifié
Plus professionnel Description plus fine Attributs xml:lang, xsi:type plus fréquents Valeurs contrôlées plus souvent <dc:title>Métadonnées et XML</dc:title> <dc:relation>Ingénierie des systèmes d’information, 2005, no 2</dc:relation> <dc:type>Text</dc:type> … ex : enregistrement oai_dc <dcterms:alternative xml:lang=“en”>Metadata and XML </dcterms:alternative> <dcterms:isPartOf>Ingénierie des systèmes d’information, 2005, no 2</dcterms:isPartOf> Espace de nom : au départ organisme qui avait créé un schéma XML, aussi un « endroit » (URI) où se trouvait un schéma XML, maintenant, un « endroit » où se trouve un ensemble fermé d’éléments: jeu de métadonnées, vocabulaire, classement …
13
Moissonneurs et DC, exemple OAISTER
14
Dublin Core intérêt … et limites
Consensus international et interprofessionnel Sémantique “commune” interdisciplinaire ; multilinguisme Simplicité – 2 niveaux d’usage Flexibilité Normalisation et évolutivité largement adopté aujourd’hui Description généraliste pour la recherche d’informations Pour des ressources plutôt électroniques et “isolées” Métadonnées techniques et administratives limitées Implémentation peu contraignante … dans des “profils d’application” … ou à côté d’autres descriptions
15
DC : “le pouvoir de la simplicité” …
Profils d’applications Archives ouvertes et protocole OAI-PMH Bibliothèques numériques Annuaires et portails Z39.50, SRW OpenURL Thèses Electroniques Fr “Informations publiques” Corpus Recherche (OLAC …) EBooks : standard ePUB Bib num : collections de ressources raisonnées in situ ? Portail : GB : eprints scholar, BL ; info publique Canada : info publique XMP et images Web sémantique Web 2 Outils logiciels …
16
2008 : DCAM Dublin Core Abstract Model
“Web sémantique” : d’un Web de “documents” à un Web de “données” interopérables compréhensibles par les machines Indépendantes du contexte applicatif, interconnectables … pour créer de nouvelles données / “raisonnement machine” Standards ! Ecriture structurée : triplets RDF Propriétés et valeurs issues d’espaces de noms et ontologies autant que possible : connaissances scientifiques, savoir-faire, personnes, objets (numériques ou non), droits … DC devient une “ontologie”, pour décrire des objets de l’activité intellectuelle et artistique Via une modélisation abstraite des entités Dublin Core et de leurs relations, sur le modèle RDF Utilisée avec d’autres ontologies Voir DBPedia, Libris … Sindice
17
LIBRIS, catalogue collectif suédois RDF, DC et autres …
Source :
19
MODS Metadata Object Description standard
Sous-ensemble d’éléments MARC verbalisés, “suffisant pour créer un enregistrement bibliographique complet” Finesse supérieure à Dublin Core, + convivial que *MARC Né et stabilisé en 2003, Library of Congress Descriptions de ressources très diverses Textes, images, audio-visuel, partitions, sites Web, bâtiments … implémentés avec des suites d’outils variés France : base de données DAPHNE, 3 partenaires : BAHR, FRANCIS, Frantiq 100 entrepôts OAI-PMH
20
MODS et OAI-PMH Extrait …
<name type="personal"> <namePart type="family"> Wheatley</namePart> <namePart type="given"> Phillis</namePart> … </name> "
21
MODS et moissonneurs “généralistes” Un début …
Sept 2009 : portail expérimentail, 624 mille records, 20 producteurs
22
MODS, pivot de DAPHNE Transformation automatisée des notices de chaque base MODS Interrogation par Lucene Des notices MODS D’entrepôts OAI extérieurs (revues.org) Utilisateur enregistré Panier de sauvegarde de requêtes et notices export MODS ou CVS
23
BiblioML versus MODS. (5 blocs, 224 éléments) http://90plan. ovh
24
MODS, Libr of Congress
25
3 - METS Metadata Encoding and Transmission Standard
Né en 2001, projet MOA “Making of America” II Collections numériques sur l’histoire des Etats-Unis Créé et maintenu par la Library of Congress, Pour décrire / créer, et partager / échanger des “objet numériques complexes” “Enveloppe” comprenant tous les types de métadonnées “bien rangés” dans des sections, avec liens explicites entre composants …
26
Creat. Com. METSRights PREMIS
METS, structure Creat. Com. METSRights PREMIS MIX.. DC, MODS EAD ONIX … metsHdr Administration Juridiques Techniques Préservation * Description contenu pointeurs Section comportements Liens structure Voir Carte(s) de structure Section des fichiers
27
METS, fonctions Transferts de gros paquets de (méta)données organisés de manière standard et structurée Utilisation facile / implémentation plus complexe Pérennisation des collections et métadonnées Permet l’implémentation des “paquets de soumission” conformes à la norme OAIS Pré-organise les diffusions Prépare les interfaces de navigation dérivées (sections : carte de structure, comportement, administrative …)
28
METS aujourd’hui Des applications, des outils … … en France
FEDORA, Greenstone … DSpace 130 entrepôts OAI-PMH … en France Entrepôts OAI-PMH : Revues.org, Persée, Cairn Thèses électroniques françaises un seul fichiers METS encapsulant DC, MODS, ETDMS … pour chaque thèse et toutes ses versions Editions Electroniques de l’Ecole des Chartes (+ TEI) BNF : SPAR, archivage pérenne des collections numériques Archivage pérenne des archives visuelles du CN2SV entrepôt “OAIS”, Data Center … … ? - Exemple “ Le formulaire d’Odart Morchesne” Navigation HTML: Fichier XML METS
29
METS, Library of Congress
30
Conclusion : un exemple, la plateforme du CN2SV pour les fonds d’archives des sciences
31
La plateforme du CN2SV : XML et métadonnées standard à tous les étages
Moteurs Annuaires Web Création fichier EAD extraction METS Ajout Métas IPTC embarquées (XMP) Data center Modèle OAIS Entrepôt OAI-PMH DC- XML Source : présentations de Stéphane Pouyllau …
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.