La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Focus.

Présentations similaires


Présentation au sujet: "ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Focus."— Transcription de la présentation:

1 ENS-LYON juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Focus sur quelques formats bibliographiques : TEI, EAD, METS

2 XML et les bases de données « ABC Airways propose trois vols quotidiens sans escales depuis Dallas à destination dAustin. Les heures de départ sont 09:15, 11:15 et 13:15. Les arrivées sont prévues une heure plus tard. » ABC Airways Dallas Austin 09:15 10:15 11:15 12:15 13:15 14:15 XML est en soi (nativement) une sorte de base de données. XML was designed to transport and store data, with focus on what data is

3 Il obéit à quelques règles simples : Everyday Italian Giada De Laurentiis Harry Potter J K. Rowling Learning XML Erik T. Ray Sa structure est arborescente : XML doit avoir une balise de fermeture : This is a paragraph. Les balises XML sont sensibles à la casse : This is incorrect This is correct Les éléments XML doivent être correctement imbriqués : This text is bold and italic This text is bold and italic

4 Les fichiers XML doivent avoir un élément racine (root) :..... Les attributs doivent être écrits entre double cotes : Tove Jani Quelques caractères doivent être codés : if salary < 1000 then if salary

5 1. TEI = Text Encoding Initiativehttp://www.tei-c.org/index.xml TEI guidelines Dabord fondé sur SGML ( ) Texte de référence : Guidelines for Electronic Text Encoding and Interchange ( ) DTD TEI : très complexe, mail il existe aussi une DTD TEI-Lite TEI permet de baliser logiquement la plupart des types de documents sur lesquels travaillent les chercheurs en sciences humaines (textes en prose, poésie, théâtre, éditions philologiques, dictionnaires, corpus linguistiques, etc.) Tout document balisé comprend 2 parties : un en-tête (teiHeader) et le texte du document (text) : [informations contenues dans len-tête TEI], [ textes préliminaires...], [ corps du texte... ] [annexes... ] se subdivise en,,, etc. se subdivise en, (répliques), (vers) selon la forme dont il est question Il existe aussi un élément pour les textes composites ? Une DocType Declaration est une façon dassocier un document avec son schéma On utilisera de préférence RELAX NG (Regular Language for XML Next Generation), plus facile demploi. Elle permet de décrire un modèle, comme une grammaire : elle décrit les termes employés, leur position, sous forme de classe car elle généralise la description à tout un document ou à un ensemble de documents.

6 Structure arborescente (hiérarchique) Description du teiHeader élément fileDesc : donne une description détaillée du document électronique: titre, créateur, mode de distribution, taille, etc. Sil sagit dune RE, il peut fournir la source (dérivation) élément profileDesc : permet de catégoriser un document (langue dans laquelle il est écrit, sujets dont il traite, etc.) revisionDesc : historique de révision qui notifie le détail des modifications apportées à un texte.

7 La DTD : comporte plus de 400 éléments ! Elle correspond aux besoins dunivers culturels variés Elle se découpe en modules (3 grandes catégories) : - Core tag sets pour les éléments généraux, utiles à tous ; - base tag sets, pour les grandes catégories de texte : (poésie, théâtre, textes en prose, dictionnaires, etc.) - Additional tag sets, éléments servant à la représentation des traitements effectués sur le texte (analyses linguistiques, annotations, etc. TEI.core TEI.header TEI.prose (éléments utiles pour coder des textes en prose - paragraphes, chapitres, section, etc.) TEI.verse (éléments utiles pour coder des textes poétiques - lignes, stances, strophes, etc.) TEI.drama (éléments utiles pour coder des œuvres théâtrales) TEI.spoken (éléments utiles pour codes des discours, des interviews, etc.) TEI.dictionaries (éléments utiles pour coder des dictionnaires) TEI.terminology (éléments utiles pour coder des bases termi- nologiques) TEI.linking TEI.analysis TEI.fs TEI.certainty TEI.transcr TEI.textcrit TEI.names TEI.dates TEI.nets TEI.figures Entités paramètres : TEI.name, qui peuvent être appelées par la DTD avec la déclaration :

8 ARMA VIRUMQUE CANO, TROJAE QUI PRIMUS AB ORIS ITALIAM, FATO PROFUGUS, LAVINIAQUE VENIT LITORA, MULTUM ILLE ET TERRIS JACTATUS ET ALTO VI SUPERUM SAEVAE MEMOREM IUNONIS OB IRAM ; MULTA QUOQUE ET BELLO PASSUS, DUM CONDERET URBEM, 5 INFERRETQUE DEOS LATIO, GENUS UNDE LATINUM, ALBANI PATRES, ATQUE ALTAE MOENIA ROMAE ; MUSA, MIHI CAUSAS MEMORA, QUO NUMINE LAESO, QUIDVE DOLENS REGINA DEUM TOT VOLVERE CASUS INSIGNEM PIETATE VIRUM, TOT ADIRE LABORES 10 IMPULERIT, TANTAENE ANIMIS CAELESTIBUS IRAE ? Début de lEnéide de Virgile Ar ma vi rum que ca no Tro iae qui pri mus ab or is marquage des syllabes et des pieds Exemples de marquages de textes poétiques Regrets de du Bellay : Si je nay plus la faveur de la Muse, Et si mes vers se trouvent imparfaits, Le lieu, le temps, lâge où je les ay faits, Et mes ennuis leur serviront dexcuse. Source : techniques de lingénieur

9 Un peu de prise de hauteurQuest-ce quun texte ? Sagit-il de la même chose ? Source : digital.humanities, OXFORD

10 Un texte nest pas un document Un texte est une abstraction, créé pour être lu, qui peut être encodé. Un document est un objet qui peut être numérisé. Il faut rendre explicite (à une machine) ce qui est implicite (pour une personne). Ajouter de la valeur documentaire en multipliant les annotations Faciliter la réutilisation de la ressource produite (dans différents formats, différents contextes, par différents utilisateurs. Pour une université, marquer un texte est un activité intellectuelle : elle oblige à prendre des décision, conduire une analyse, faire des choix, définir des besoins, etc. Deux méthodes de marquage !

11 The Tempest / Shakespeare

12

13 Redescendons… vers le bas niveau STRANGE MEETING It seemed that out of battle I escaped Down some profound dull tunnel, long since scooped Through granites which titanic wars had groined. Etrange rencontre Il ma semblé que jéchappais à la bataille Par quelque tunnel profond et sombre, creusé depuis longtemps Dans des granits quavaient voûtés des guerres titanesques. Wilfried Owen (18 Mars 1893 – 4 novembre 1918) Balisage du titre avec STRANGE MEETING It seemed that out of battle I escaped Down some profound dull tunnel, long since scooped Through granites which titanic wars had groined. STRANGE MEETING It seemed that out of battle I escaped Down some profound dull tunnel, long since scooped Through granites which titanic wars had groined. Ajout de la valeur stanza comme attribut De (= Line Group) XML > TEI

14 STRANGE MEETING It seemed that out of battle I escaped Down some profound dull tunnel, long since scooped Through granites which titanic wars had groined. Ajout de la balise pour marquer les lignes Création dun TEAI Header Déclaration de lespace de nom Ajout de la balise Des éléments fileDesc, titleStmt, publicationStmt… va servir à créer une métadonnée supplémentaire pour qualifier mon travail NB : =

15 Mon document TEI Exercice TEI Ressource orig. Strange Meeting Ed. Jon Stallworthy's Ajout des valeurs Il reste à ajouter le texte ! Publication Stmt peut se subdiviser en (paragraphes) doit comporter au moins lun des trois éléments,, ou. Nous allons ajouter avec son « corps », dans un (ça, on la déjà fait !)

16 Mon document TEI Exercice TEI Ressource orig. Strange Meeting Ed. Jon Stallworthy's STRANGE MEETING It seemed that out of battle I escaped Down some profound dull tunnel, long since scooped Through granites which titanic wars had groined.

17 SCHEMA général EAD, révisée en 2002 : issu dune réelle coopération internationale, soucieux de sa compatibilité avec ISAD, révisée en 2000 EAD : maintenu par la Society of American Archivists, sappuie sur le format ISAD(G), International Standard Archive Description (General). EAD ISAD(G)ISAAR(CPF) [2004] XML ISBD MARCXML uniquement pour MARC21 MarcXchange (correspondance iso2709) MARC(A) MARC(B) (autorités) (bibliographique) XML Berkeley, 1993 : objectif création dune norme dencodage pour produire de linformation lisible par les machines pour des manuscrits. Qui veille à la capacité de : 1. Présenter des données dans un cadre vaste et indépendant, compatibles avec les instruments de recherche et les besoins de recherche dinformation ; 2. Préserver les relations hiérarchiques existant entre les niveaux de description ; 3. Représenter les informations descriptives héritées ; 4. Naviguer dans la structure informationnelle hiérarchique ; 5. Gérer lindexation et la récupération déléments

18 EAD sappuie sur un schéma XSD [Quest-ce que cest ?] Bourdenet Philippe Université du Maine [...] DTD ? Le fichier dtd2schema.xsl est une feuille de style XSLT qui transforme les instances EAD conformes à la DTD 2002 relativement à des instances qui sont conformes avec soit le schéma Relax NG ou W3C. =>

19 Source : EAD Tag Library : [octobre 2004 : CG 46 / CN 357 / GE3]http://www.archivesdefrance.culture.gouv.fr/static/1066

20 Obligatoire fournit des informations bibliographiques et descriptives sur l'instrument de recherche, et non sur les documents darchives que celui-ci décrit

21 Élément englobant pour une partie essentielle du document EAD, celle qui décrit le contenu, le contexte et limportance matérielle dun ensemble documentaire

22

23 Structure hiérarchisée

24 3. METS = Metadata Encoding & Transmission Standard Principes généraux METS est un format de transport de données décrivant des documents numériques (des planches numérisées, des sites web, des applications, des archives, ou tout autre ressource électronique) DC EAD MARC XML MARC XML Elaboré il y a un peu plus de 10 ans et maintenu par la LOC, pour garantir leur préservation dans le temps et faciliter leur échange Cest du XML, qui véhicule du XML METS XML freight only ! Très souple = très facile à adapter à des besoins particuliers (On peut par exemple supprimer des contraintes (Obligatoire/Facultatifchanger les règles de constructions didentifiants, définir des niveaux de granularité différents, jusquà llincohérence, etc. avantages : très commode dutilisation, répond à des besoins divers inconvénient : si tout le monde ladapte à ses propres besoin, il devient moins interopérable !

25 En-tête METS Description du document lui-même (informations sur sa création ou sa modification par exemple Métadonnées descriptivesMétadonnées descriptives peut contenir des métadonnées descriptives hébergées ailleurs Métadonnées administrativesMétadonnées administratives – Comment les fichiers ont-ils été créés ? Quels sont les droits applicables dessus ? Quel est lobjet original, si cest une reproduction qui est décrite ? Sil sagit dune reproduction, quel est le degré de fidélité par rapport à loriginal ? Est-ce une notice dérivée ? ~ visas sur un passeport Section des fichiersSection des fichiers – liste les différentes versions électroniques de l'objet numérique. la balise réunit les éléments qui comprend les « versions » : Ex. dune émission de radio enregistrée Carte de structureCarte de structure – cest le cœur d'un document METS ! Elle comprend une structure hiérarchique pour l'objet de la bibliothèque numérique, et relie chaque élément de cette structure aux fichiers de contenu et aux métadonnées qui s'y rapportent. Liens structurelsLiens structurels – gère lexpression des lien entre les éléments déclarés dans la carte de structure. Par exemple peut être utilisée pour larchivage dun site web, ComportementComportement - une section de comportement peut être utilisée pour associer des exécutables au contenu d'un objet METS. Chaque comportement compris dans une section de comportement possède un élément "définition de l'interface", qui est une définition abstraite de l'ensemble des comportements représentés par une section de comportement distincte. Chaque comportement possède aussi un élément "mécanisme", qui identifie un module de code exécutable qui implémente et exécute les comportements définis de manière abstraite dans la définition de l'interface. METS : vue d'ensemble – les sections WAVtranscription en TEIMP3

26 Header Descriptive MD Administrative MD File list Structural Map Structutral Links Behavior Section En anglais…

27 En-tête METSEn-tête METS ( ) Len-tête contient des métadonnées descriptives minimales sur la « notice » METS : La date de création (attribut CREATEDATE), La date de dernière modification, Le statut du document décrit (attribut RECORDSTATUS). Jerome McDonough Ann Butler contributeurs individu organisation autre archiviste créateur conservateur diffuseur éditeur propriétaire de lIP autre Rôles possibles :

28 Métadonnées descriptivesMétadonnées descriptives externes (, ) Contient de pointeurs vers des métadonnées externes qui peuvent être récupérées URN URL PURL HANDLE DOI autre MARC MODS EAD VRA DC NISOIMG LC-AV ( Audiovisual Metadata) TEIHDR (TEI Header) DDI FGDC (géographique) autre Lattribut LABEL fournit des indications de visualisation, par exemple pour générer une table des matières

29 Métadonnées descriptivesMétadonnées descriptives internes (, ) Elément conteneur qui permet dencapsulée des métadonnées à lintérieur dun fichier METS Alice's Adventures in Wonderland Lewis Carroll between 1872 and 1890 McCloughlin Brothers text Micro élément en DC Chaque section (dmdSec) se voit attribuer un identifiant à lintérieur du fichier METS. Il servira pour constituer la carte de structure.

30 Métadonnées administrativesMétadonnées administratives ( ) Fiche « administrative » de la ressource 1. Métadonnées techniques (création, formats, caractéristiques des fichiers) 2. Droits de propriété intellectuelle (copyright et licence) 3. Métadonnées de source (à propos de la source analogique dont lobjet numérique décrit peut être dérivé) 4. Métadonnées de provenance numérique (évaluation de la différence entre source et résultat, par exemple la perte de qualité entre la source originale et la reproduction décrite dans le cas dune transformation entre lobjet numérique original et lobjet de la bibliothèque numérique (Wav -> MP3, TIF -> JPG) image/tiff LZW 8 1 NYU Press

31 Section des fichiersSection des fichiers ( ) Un liste tous les fichiers constituant une version électronique distincte de l'objet de bibliothèque numérique Transcription audio en TEI Un fichier WAV Une version compressée mpeg Dun enregistrement sonore Même contenu audio

32 Carte de structureCarte de structure ( )

Structure hiérarchique d'un objet de la bibliothèque numérique afin de permettre la navigation Cest la balise qui est utilisée pour introduire les éléments hiérarchiques Cas dun enregistrement sonore dentretiens avec un auteur : Cas dune ressource en PDF :

33 Liens structurelsLiens structurels ( ) Section la plus simple car elle ne contient que lélément Si fichier METS décrit un site web, prenons lexemple de deux pages liées (Pages 1 -> Page 2), avec P1 qui contient une image qui ouvre P2 lorsque lon clique dessus : Page html 1 (P1), :

Page html 2 (P2), : Le lien sexprime de la façon suivante dans la section :

34 ComportementComportement ( ) Une section de comportement peut être utilisée pour associer des comportements exécutables au contenu d'un objet METS : définition abstraite dun « comportement » DESC : pointe vers du code exécutable EXEC Liens vers un service web par exemple : Service web

35 METS Community… des informations sur le format Son utilisation : BnF : dans le cadre du projet SPAR ( Système de Préservation et d'Archivage Réparti) entrepôt sécurisé et pérenne dobjets numériques FEDORA : pour la gestion et la préservation de corpus numériques Bibliothèque de projets décrits : METS tools & compatible software ( ) Des outils de développement (java, tomcat) Bibliothèques de conversions : perl OpenWMS : plateforme open source pour contenus numériques, dispose en vrac des éléments METS dans un entrepôt Fedora METS Navigator, qui permet dexplorer une base en METS en visuel Feuilles de styles XSLT Exemples dapplication concrète

36 Exemple dapplication concrète à lUMhttp://planches-mycologiques.univ-lemans.fr/ jpg (vignettes)jpgtif Sortir les données de leur complexe applicatif (java, tomcat, apache) Fournir un VH pour chaque ressource Fournir un jeu de données METS avec une carte de structure Décrire en TEI les contenus textuels des planches …et ajouter un élément au ?


Télécharger ppt "ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Focus."

Présentations similaires


Annonces Google