d’une récupération de notices

Slides:



Advertisements
Présentations similaires
abes agence bibliographique de l’enseignement supérieur
Advertisements

Rosa María Gómez de Regil Educatice, 25 novembre 2010
LE CATALOGAGE DC - Bibliothèque Départementale des Yvelines.
Koha - Greenstone Symposium Koha Miramas 28 mai 2010
W3Line | 10 Ter, Rue Pasteur – BOURG LES VALENCE | Tél. : – Fax : | – Web :
22/23 juin 2006 Journées ESUP 1 Intégration des services documentaires dans lENT Prise en compte de lexistant et cas particulier du SID précédant lENT.
CSIESR-Arles 16/05/06 -F. JANNIN- B. SOR inJAC ESUP et OAI-PMH Le CMS détablissement dESUP.
La diffusion des métadonnées de la thèse
Lalimentation de STAR par imports STAR 8ième cercle – 27 septembre 2013.
JXDVDTEK – Une DVDthèque en Java et XML
Documentation numérique sur l’Internet
Educasources Paris, le 30 janvier 2007 Paris, le 30 janvier 2007.
27 octobre 2006 Thierry Clavel, ENSSIB Enquête / Recensement des fournisseurs de notices au format UNIMARC en France Thierry Clavel ENSSIB Deuxième journée.
Traduction française des formats UNIMARC
31 mars 20103e Rencontre internationale d'utilisateurs d'UNIMARC Les notices UNIMARC dans le Catalogue collectif de France Véronique Falconnet Bibliothèque.
RDA en France : quelles orientations ? Réunion du Groupe stratégique, 25 mars 2011 Deuxième réunion de travail sur l'application de FRBR, FRAD et RDA dans.
MOCCAM Les textes de cette présentation sont issus en grande partie du site de MOCCAM.
Indexation textuelle : Systèmes de recherche d’informations
Autorisations Utilisation eCATT
TP 3-4 BD21.
Métadonnées pour les thèses numériques françaises
Création de notices bibliographiques
SCD Lyon 21 Une migration en libre Choix politique : jouer le jeu du libre Choix stratégique : être maître de notre travail et sapproprier loutil Choix.
Les API Sudoc Le Sudoc autrement…
Construire une base de données bibliographiques Elaborer un site web
Chapitre 4 : la gestion électronique des documents
MRP, MRP II, ERP : Finalités et particularités de chacun.
ASA Algerian scientific Abstracts المستخلصات العلمية الجزائرية
Septembre Interconnexion entre HAL et dautres systèmes dinformation.
Etude des Technologies du Web services
Intégrer IdRef dans les applications documentaires de votre université. Pourquoi ? Comment ? Atelier JABES2011.
3e Rencontre internationale dutilisateurs dUNIMARC enssib, 31 mars 2010 Les produits et services bibliographiques de la Bibliothèque nationale de France.
XML-Family Web Services Description Language W.S.D.L.
Traitement des ressources multimédias multisupports
Février-Avril 2006 Licence Pro BDAN 1 4. Partager les métadonnées 2 méthodes pour partager: Le serveur Z39.50 Le serveur.
B2i Lycée Circulaire BO n°31 du 29/08/2013.
Lycée Louis Vincent Séance 1
Bases de données documentaires Faculté de Médecine PCEM2.
Gestion d’un projet SIG
Le portail des MSH
Localisation dans le Sudoc des ressources électroniques JABES 2012.
Recommandations et procédure d’attribution de DOI
Services fournis par le SI et technologies associées
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Système d’information
NORMES ISO et format MARC utiles aux documentalistes
Le Sudoc et l’Unimarc (France)
Conseil de la Documentation, 2 juillet 2010 Évolutions fonctionnelles du SID en 2010.
MarcXchange, SRU… Échanger en UNIMARC : nouveaux outils et protocoles 3 e journée détude du Comité français UNIMARC Lyon – ENSSIB 1 er avril 2010 Évolutions.
SUDOC (le catalogue des ouvrages, des thèses et des périodiques des bibliothèques françaises) Contenu Le catalogue du Système Universitaire de DOCumentation.
La bibliothèque électronique. Préambule. Dans tous les cas, tout se passe toujours à partir de la page d’accueil du site web des BU.
L’évaluation des compétences Exemple Gestion & Finance
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
9-avr.-15 Service Commun de Documentation DE HAUTE ALSACE Récupération et exploitation des notices d’autorités dans un SIGB en « toutes mises à jour »
JDBC L'API JDBC est utilisée pour utilisée pour intéragir avec une base de données.
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Mediadix – Novembre 2013 Marie-Line GUILLAUMEE (BIU Sorbonne)
Description des supports matériels. Bibliothèque et Archives nationales du Québec ▪ 2 Description des supports matériels  Description des supports matériels.
L’information scientifique : les impacts du libre accès
Information Scientifique et Technique à l’IN2P3 LAL Orsay 25 janvier 2006 Dominique Jarroux-Déclais Responsable IST IN2P3.
Présentation générale de l’organisation des données et des possibilités de recherche ARL-PACA/ Marseille /Janvier.
L’enseignement de spécialité SLAM
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
SOAP et les RPC XML SOAP WSDL RPC. Rappels sur le XML Langage avec des balises Très lisible Pour stocker des données Séparation entre contenu et présentation.
La conception technique du système d’information, l’interopérabilité entre sources de données hétérogènes CNAM / 31 janvier 2012 Colloque INTD-CNAM (Dicen)
Formation GBIF France dans le cadre d’Ecoscope – Valoriser ses données d’observation sur la biodiversité : qualité, standards et publication Paris,
Introduction générale
Formation d’auxiliaire de bibliothèque
Abes agence bibliographique de l’enseignement supérieur Traitement des documents spécifiques.
Transcription de la présentation:

d’une récupération de notices Récupération de notices et interopérabilité des catalogues Les étapes techniques d’une récupération de notices * Philippe.Bourdenet@univ-lemans.fr

Contexte et enjeux

La coopération entre les bibliothèques : une vieille histoire. L’interopérabilité des catalogues vise d’abord l’échange de données. facilite la production des informations facilite l’échange d’informations facilite la circulation des documents eux-mêmes Motivées par des nécessités économiques (baisse des coûts de production). Les nombreux efforts de normalisation en sont la conséquence. On discerne déjà la nécessité de pratiques harmonisées entre les bibliothèques avec l’utilisation de normes formats protocoles Tous très richement documentés !

Normes en vigueur dans les bibliothèques pour la description bibliographique : Z 44-050 Catalogage des monographies - texte imprimé   Z 44-063 Catalogage des ressources continues Z 44-074 Catalogage des monographies anciennes Z 44-065   Catalogage des vidéogrammes Z 44-066   Catalogage des enregistrements sonores Z 44-067 Catalogage des documents cartographique Z 44-069 Catalogage de la musique imprimée Z 44-077 Catalogage des images fixes Z 44-078 Catalogage des parties composantes Z 44-082   Catalogage des ressources électroniques Z 44-073 Catalogage des monographies - texte imprimé (description allégée ) Z 44-059   Catalogage - Choix des accès à la description bibliographique Z 44-060 Catalogage d’auteurs et d’anonymes :   forme et structure des vedettes de collectivités auteurs Z 44-061   Catalogage d’auteurs et d’anonymes : Forme et structure des vedettes noms de personne, des vedettes titres, des rubriques de classement et des titres forgés Z 44-079 Catalogage - Forme et structure des vedettes titres musicaux Z 44-081 Z 44-081 Catalogage - Forme et structure des vedettes : Noms géographiques Z 44-070 Documentation - Indexation analytique par matières Z 44-005 Documentation - Références bibliographiques : contenu, forme et structure  

Formats utilisés en bibliothèque : MARC (MARC 21, UNIMARC) Mais aussi DublinCore (format normalisé!), XML Protocoles utilisés en bibliothèque : Par exemple pour l’échange de données : Z39-50, SRU/SRW ; WAIS(Wide area information service), FTP (File transfert protocol)

L’interopérabilité, qu’est-ce que c’est ? « L’ interopérabilité est la capacité que possède un produit ou un système, dont les interfaces sont intégralement connues, à fonctionner avec d'autres produits ou systèmes existants ou futurs et ce sans restriction d'accès ou de mise en œuvre . » (AFUL) vs compatibilité interopérabilité Cela nécessite une grande transparence sur les mécanismes ou les formats employés…

L’intéropérabilité en trois mouvements Elle met en jeu trois niveaux techniques complémentaires(1) : 1. Une description des ressources avec une sémantique commune 2. Un contexte générique d’implémentation des descriptions dans des langages structurés standardisés, interprétables par des machines 3. Des protocoles informatiques d’échange de ces données normalisées (1)Abderrazak Mkadmi, Imad Saleh, Bibliothèque numérique et recherche d’informations

<Cadre générique d’implémentation> ISO 2709 XML URL RDF (Resource Description and Framework) <Jeu de métadonnées> MARC (< Z44-050) Standards traditionnels DublinCore, MarcXML, MODS EAD LOM (Learning Object Metadata) SCORM Standards plus récents <Protocoles> WAIS, FTP, Z39.50 http OAI-PMH SRU/SRW

Schéma global d’un SID SIGB OPAC Entrepôt OAI-PMH moissonnage Entrepôt OAI-PMH « ingest » Autres catalogues de bibliothèques SRU Z 39.50 Sources « hétérogènes » SIGB Fournisseurs de notices MARC BnF, ABES, Electre, Zebris, … import connecteurs OPAC API

La fourniture de notices : le paysage en France

Conditions de fourniture Autres formats proposés Nom Type de document Nombre de notices Conditions de fourniture Autres formats proposés ABES Tous supports + autorités 9 millions, 2 millions Membres du réseau SUDOC Marc21, formats tabulés,XML ADAV Images animées. 70.000 Clients de la société sur la base d'une commande de produits BnF 10 millions, 2 millions Inscription nécessaire CD Mail CD audio 800.000 Fourniture comprise dans le cadre de la vente de CD COLACO DVD, CD-ROMS, VHS 40.000 CVS CD audio, MP3, DVD, CD-ROM, DVD-ROM + RE 357.000 Fourniture comprise dans le cadre de la vente de produits USMARC, XML DAWSON France Livres, e-books, CD audio et DVD 9.6 millions de titres Marc21 DECITRE Livres 650.000 Clients ELECTRE Livres, CD audio, CD-ROM, Périodiques (monographies) 1.2 millions Dans le cadre d’un abonnement Marc21, Onix, XML, CSV, DBase III GAM Documents sonores 246.700 INDEXPRESSE Articles de périodiques Dépouillement de 198 titres Abonnement « à la carte » ISSN Publications en série 1.5 millions Abonnement annuel Marc21, ISSN-MARC MOCCAM BnF + Amazon (isbn) Gratuite sans condition A la demande + tabulé OCLC BV Tous supports 175 millions Payant Marc21, MAB, DC, Onix, XML Sciences Po Paris 220.000 Gratuit sur la base d’une coopération XML TITE-LIVE Livres – musique 700.000 Gratuite mais licence d’utilisation TXT, XML, Onix VHS Images animées 100.000 Fourniture accompagnant la vente ZEBRIS Bnf (<1990) + Decitre

Sélection sur les réservoirs de notices en ligne (en France): BnF [http://catalogue.bnf.fr] Gratuit Paquets de 500 notices maximum format UNIMARC : oui + InterMARC modalités : récupération par FTP, immédiate ou en différé (24 h) Origine des notices : Bibliothèque nationale de France ----- MoCCAM en ligne [http://www.moccam-en-ligne.fr/] Gratuit format UNIMARC : oui modalités : récupération immédiate Origine des notices : BnF et Amazon pour les références qui ne figureraient pas encore dans BN-OPALE-PLUS ZEBRIS [http://www.zebris.fr] Payant : de 1250 à 3100 € HT en fonction de la taille du client (infos : 2008) format UNIMARC : oui modalités : récupération d'un panier Origine des notices : Indexpresse ELECTRE [http://www.electre.com] Payant : abonnement annuel (calcul du tarif selon le nombre de licences) format UNIMARC : oui modalités : récupération immédiate Origine des notices : electre.com Attention : les mentions légales relatives à l'utilisation de ces notices sont particulières à chaque institution ou entreprise ! Pour plus d'information, voir le site de l'ADBDP et le site du CfU

Constitution de lots de notices : 2 exemples

Catalogue de la BnF

electre.com

La récupération de données par fichier(s) de notice(s)

Appareil normatif (1) ISO 2709:2008 (indice de classement Z 47-300) Format d’échange pour l’information Révision de 2008 avec l’intégration des caractères codés sur plusieurs octets Références normatives ISO/IEC 6429:1992 Technologies de l'information. Fonctions de commande pour les jeux de caractères codés ISO/CEI 646 ~ ASCII Jeu de caractères latins suffisants pour l’anglais moderne (7bits-128 caractères) ISO/CEI 10646 UTF-n : UCS (Universal Character Set) Transformation Format. Jeu de caractères codés sur plusieurs octets Cf UNICODE vise à donner à tout caractère de n’importe quel système d’écriture un nom et un identifiant numérique de manière unifiée, quelle que soit la plateforme informatique utilisée.

Appareil normatif (2) NF ISO 25577:2009 (Z47-302) « MarcXchange » Format généralisé d’échange de notices bibliographiques (et autres types de métadonnées) fondé sur XML Références normatives ISO/CEI 646 ~ ASCII Jeu de caractères latins suffisants pour l’anglais moderne (7bits-128 caractères) ISO/CEI 10646 UTF-n : UCS (Universal Character Set) Transformation Format. Jeu de caractères codés sur plusieurs octets ISO 2709:2008 (Z 47-300) MarcXchange est étroitement lié à ISO 2709 : En 2001, la LOC élabore un cadre pour traiter les données MARC dans un environnement XML : MARCXML, qui « permet une conversion réversible et sans perte d’une notice MARC21 » en XML. MarcXchange est une version généralisée de MARCXML pour représenter tout format existant sur ISO 2709.

Protocoles en vigueur dans les bibliothèques pour l’interopérabilité ANSI/NISO Z 39.50 (ISO 23950:1998) Protocole d’échange pour une utilisation bibliographique qui régit le « dialogue » entre clients et serveurs, décrit et utilisé aux États-unis à partir de 1984. La norme date de 1988, provient du « New York Item » ; maintenue par la Bibliothèque du Congrès avec la « Z39.50 Maintenance Agency ». ANS1 : Abstract Notation Syntax 1 (ISO 8824) Un langage de description de données indépendant des matériels et logiciels permettant de codes des messages entre clients et serveurs BER : Basic Encoding Rules (ISO 8825) Des règles de conversion de syntaxes abstraites en une syntaxe spécifique de transfert de données SRU Search/Retrieve via URL Créé et maintenu par la Bibliothèque du Congrès, permet d’interroger via le protocole http des bases de données de bibliothèques « invisibles »,ou « prisonnières » des OPAC et des systèmes d’information.

L’échange de données en iso2709 Une notice enregistrée au format ISO 2709 présente le schéma suivant : Voir aussi :

Exemple de notice : de l’isbd à iso2709 XML par la pratique [Texte imprimé] : bases indispensables, concepts et cas pratiques / [Sébastien Lecomte]. - Nantes : Éd. ENI, cop. 2005. - 1 vol. (353 p.) : ill., couv. ill. ; 21 cm. - (Ressources informatiques, ISSN 1627-8224). Index ISBN 2-7460-2906-5 (br.) : 27,14 EUR. - EAN 9782746029064 Label 01510nam1 22003612i 450 00100110000000500170001101000380002810000410006610100080010710200070011510501800122200009300140205001200233210002200245211001300267215005500280225004000335330029800375333001700673345001800690410005200708606003000760610008400790676001400874676001300888700004100901801003300942901008300975902001701058903002801075903003501103947001001138-2008401207-20081010000000.0- ­a978-2-7460-4644-3­bBr.­d27.14 EUR- ­a20081010d2008 m |0fre|01 ||||ba-0 ­afre- ­aFR- ­aa 0||y|-1 ­aXML par la pratique­ebases indispensables, concepts et cas pratiques­fSÂebastien Lecomte- ­a2e Âed.- ­aNantes­cENI­ d2008- ­a20081208- ­a353 p.­cillustrations en noir et blanc­d22 x 18 cm-2 ­aRessources informatiques­x1627-8224- ­aPrÂesentation des concepts fondamentaux de XML au travers de cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre comment concevoir des documents et des grammaires XML simples, comment lier des documents XML entre eux, et comment mettre en forme des documents XML.- ­aTous niveaux- ­b9782746046443- 0­34237610000­tRessources informatiques­x1627-8224- ­aXML (langage de balisage)-0 ­aInternet­alangage de programmation­astructure de donnÂees ­adocument multimÂedia- ­a005.3­v99- ­a004­v99a- 1­32003090210­aLecomte­bSÂebastien­ 4070- 3­aFR­bElectre­c20081010­gAFNOR- ­39800003724­aExtendible markup language­ 39800003724­aExtensible markup language- ­aTous niveaux- ­aTechniques Informatique- ­ aLivres pratiques Autoformation- ­c27.14- Répertoire Zones Séparateur de notices (invisible)

le LABEL (taille fixe : 24 octets) nombre d’octets! Si on décompose le label de la notice de la façon indiquée, on a 8 "groupes" d'information. 01510nam1·22003612i·450· Ce qui nous donne : 1 2 3 4 5 6 7 8 01510 nam am1- 00361 2i· 450·

le répertoire (taille variable) Le répertoire comprend les éléments suivants : a/ une étiquette (=3 octets) b/ une longueur de zone qui correspond à la position 20 du label (=4 octets) c/ la position du premier caractère qui correspond à la position 21 du label (=5 octets) d/ longueur de la partie relative à l'application qui correspond à la position 22 du label (=0 octet) b+c+d= « 450 » du label UNIMARC Si on lit le répertoire de notre notice en suivant la fréquence de 3/4/5/0 octets : 0010011000000050017000110100038000281000041000661010008001071020007001151050 1800122200009300140205001200233210002200245211001300267215005500280225004000 3353300298003753330017006733450018006904100052007086060030007606100084007906 7600140087467600130088870000410090180100330094290100830097590200170105890300 2801075903003501103947001001138

001 0011 00000 005 0017 00011 010 0038 00028 100 0041 00066 101 0008 00107 102 0007 00115 105 0018 00122 200 0093 00140 210 0022 00245 211 0013 00267 215 0055 00280 225 0040 00335 330 0298 00375 333 0017 00673 345 0018 00690 410 0052 00708 606 0030 00760 610 0084 00790 676 0014 00874 676 0013 00888 700 0041 00901 801 0033 00942 901 0083 00975 902 0017 01058 903 0028 01075 903 0035 01103 947 0010 01138 … on obtient :

XML par la pratique [Texte imprimé] : bases indispensables, concepts et cas pratiques / [Sébastien Lecomte]. - Nantes : Éd. ENI, cop. 2005. - 1 vol. (353 p.) : ill., couv. ill. ; 21 cm. - (Ressources informatiques, ISSN 1627-8224). Index ISBN 2-7460-2906-5 (br.) : 27,14 EUR. - EAN 9782746029064

01510nam1 22003612i 450 0010011000000050017000110100038000281000041000661010008001071020007001151050 1800122200009300140205001200233210002200245211001300267215005500280225004000 3353300298003753330017006733450018006904100052007086060030007606100084007906 7600140087467600130088870000410090180100330094290100830097590200170105890300 2801075903003501103947001001138-2008401207-20081010000000.0- ­a978-2-7460-4644-3­bBr.­d27.14 EUR- ­a20081010d2008 m |0fre|01 ||||ba-0 ­afre- ­aFR- ­aa 0||y|-1 ­aXML par la pratique­ebases indispensables, concepts et cas pratiques­fSÂebastien Lecomte- ­a2e Âed.- ­aNantes­cENI­ d2008- ­a20081208- ­a353 p.­cillustrations en noir et blanc­d22 x 18 cm-2 ­aRessources informatiques­x1627-8224- ­aPrÂesentation des concepts fondamentaux de XML au travers de cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre comment concevoir des documents et des grammaires XML simples, comment lier des documents XML entre eux, et comment mettre en forme des documents XML.- ­aTous niveaux- ­b9782746046443- 0­34237610000­tRessources informatiques­x1627-8224- ­aXML (langage de balisage)-0 ­aInternet­alangage de programmation­astructure de donnÂees ­adocument multimÂedia- ­a005.3­v99- ­a004­v99a- 1­32003090210­aLecomte­bSÂebastien­ 4070- 3­aFR­bElectre­c20081010­gAFNOR- ­39800003724­aExtendible markup language­ 39800003724­aExtensible markup language- ­aTous niveaux- ­aTechniques Informatique- ­ aLivres pratiques Autoformation- ­c27.14-

La zone comporte (00)93 octets 01510nam1 22003612i 450 0010011000000050017000110100038000281000041000661010008001071020007001151050 1800122200009300140205001200233210002200245211001300267215005500280225004000 3353300298003753330017006733450018006904100052007086060030007606100084007906 7600140087467600130088870000410090180100330094290100830097590200170105890300 2801075903003501103947001001138-2008401207-20081010000000.0- ­a978-2-7460-4644-3­bBr.­d27.14 EUR- ­a20081010d2008 m |0fre|01 ||||ba-0 ­afre- ­aFR- ­aa 0||y|-1 ­aXML par la pratique­ebases indispensables, concepts et cas pratiques­fSÂebastien Lecomte- ­a2e Âed.- ­aNantes­cENI­ d2008- ­a20081208- ­a353 p.­cillustrations en noir et blanc­d22 x 18 cm-2 ­aRessources informatiques­x1627-8224- ­aPrÂesentation des concepts fondamentaux de XML au travers de cas pratiques Áa implÂementer. Aborde notamment la syntaxe du langage XML, montre comment concevoir des documents et des grammaires XML simples, comment lier des documents XML entre eux, et comment mettre en forme des documents XML.- ­aTous niveaux- ­b9782746046443- 0­34237610000­tRessources informatiques­x1627-8224- ­aXML (langage de balisage)-0 ­aInternet­alangage de programmation­astructure de donnÂees ­adocument multimÂedia- ­a005.3­v99- ­a004­v99a- 1­32003090210­aLecomte­bSÂebastien­ 4070- 3­aFR­bElectre­c20081010­gAFNOR- ­39800003724­aExtendible markup language­ 39800003724­aExtensible markup language- ­aTous niveaux- ­aTechniques Informatique- ­ aLivres pratiques Autoformation- ­c27.14- Etiquette 200 |-1 ­aXML par la pratique­ebases indispensables, concepts et cas pratiques­fSÂebastien Lecomte- La zone comporte (00)93 octets Elle commence à la position (00)140 200 0093 00140

Le label des notices est traité comme un simple chaîne MarcXchange : exemple <?xml version "1.0" encoding="UTF-8" ?> <collection xmlns="info:lc/xmlns/marcxchange-v-1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"[…]> <record format="UNIMARC" type="Bibliographic"> <leader>01510nam1 22003612i 450</leader> […] <datafield tag="200" ind1="1" ind2=" "> <subfield code="a">XML par la pratique</subfield> <subfield code="e">bases indispensables, concepts et cas pratiques</subfield> <subfield code="f">SÂebastien Lecomte</subfield> </datafield> </record> </collection>   Le label des notices est traité comme un simple chaîne Le précédent contrôle appliqué par le répertoire ISO 2709 n’existe pas avec MarcXchange (absent du format), il faut le créer via l’applicatif, et le recalculer à chaque conversion vers ISO 2709…

MarcXchange : structure du schéma attribut obligatoire Élément de plus haut niveau attribut facultatif collection id Élément racine : début de la notice record id, format, type Déclaration des zones leader controlfield datafield id id, ind1,… ind8 id tag tag subfield Label de la notice de l’ISO 2709 (24 octets) Elément de contrôle Zone de l’identifiant De l’ISO 2709 id Déclaration des Sous-zones code Structure hiérarchique

Cadre d’élaboration général pour des schémas « locaux » MarcXchange Cadre d’élaboration général pour des schémas « locaux » MARC 21 et UNIMARC sont reconnus comme des schémas locaux, mais nécessitent tout de même des adaptations locales pour la mise en œuvre de MarcXchange. Assure la compatibilité de schémas locaux simples, sans perte d’informations (ou un minimum de pertes qui peuvent être répertoriées). Schéma conçu de façon à contenir des données MARC Peut servir à l’échange de notices MARC ou de « moyen de transport » pour faire migrer des notices au format natif MARC vers DublinCore.

Représenter une notice MARC en XML MarcXchange Usages majeurs Représenter une notice MARC en XML Décrire une ressource en XML Échanger des notices MARC en XML Transférer des notices MARC via des services en ligne (par exemple SRU) Transmettre des données à un éditeur Utiliser un format temporaire qui permet toute forme de transformation : conversion, publication, édition, validation Par exemple, une notice peut entrer dans un « Workflow » (cycle de vie du document) au format XML, dans une application de gestion, puis être « verrouillée » et stockée à nouveau dans un format MARC.

Outils disponibles pour les administrateurs Il existe un ensemble d’outils, le plus souvent libres d’utilisation, disponibles sur le site de la Bibliothèque du Congrès. Ils sont orientés pour la gestion de notices MARC21, mais certains peuvent être utilisés pour UNIMARC. http://www.loc.gov/marc/marcservice.html AGent™ Arabic Translitrator - Free / Open Source Athenaeum MARC Utility Aurora ZMarc Collector BIBLIObase BookWhere Cataloging Calculator - Free CyberTools for Libraries DK's INDscripteR - Indic Script Converter eZcat/eZcat Pro FRBR Display Tool -Free InfoWorks Link Checker InfoWorks Spelling Checker for Database Maintenance MARC Magician MARC Report MARC RTP - Free MARC Toolkit for Libraries (formerly MARC Template Library) - Free MARCBreaker - Free MarcEdit - Free MARConvert™. MarciveWeb SELECT MARCMaker - Free MARC/Perl - Free MARCView™ MicroLIF Conversion Tool - Free NOTEbookS OCLC, Online Computer Library Center, Inc. Surpass Copycat USEMARCON Plus - The Universal MARC Record Convertor - Free Visual MARC Editor Web & XML Tools MARC4J - Free MarcEdit - Free MARC to XML / XML to MARC Conversion Utilities - Free MARCXGen - Free MARCXML - Free MarcXml Converter - Free XMARC - Free ZMARCO - Free

Exemples d’utilitaires MarcView Utilitaire qui permet de lire des fichiers ISO 2709 et de voir les notices MARC contenues MarcEdit : Utilitaire qui permet de lire des fichiers et bien plus : - d'extraire une notice à partir d'un fichier de notices - de joindre des fichiers MARC - d'ajouter un champ - d'éclater un format MARC dans un schéma DC ou XML - d'effacer un champ - de fabriquer un fichier MARC Un prestataire de plate-forme de gestion de bibliothèque doit livrer un utilitaire ou un moyen de conversion pour permettre d’effectuer des vérifications après un import de notices

Questions liées à l’environnement En cas de problème lors d’une récupération, il faut d’abord dresser une cartographie des outils mis en œuvre et de l’environnement informatique OS : UNIX/Windows ? Le caractère de contrôle CR n’est pas traité de la même façon (apparition de ^M en fin de ligne) Encodage du fichier source : ASCII Latin étendu (iso8859-1 /8859-15/ 8859-2) ISO 5426 UTF-8 ANSI Windows 1252 Little/Big Endian ? Encodage du système cible : divers encodages proposés Version de la base de données du système cible : Oracle 9i, 9.2.0, 10g, 11g, … MySQL 4.1.11, 5.0 Le processus d’import doit prendre en compte ces variétés d’encodages et de versions

Encodage encore très utilisé Tableau de gestion du format ISO-5426 Liste des caractères gérés par ISO 8859-1 0 1 2 3 4 5 6 7 8 9 ! " # $ % & ' ( ) * + , - . / : ; < = > ? @ A B C D E 70 F G H I J K L M N O 80 P Q R S T U V W X Y 90 Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~ € ‚ ƒ „ … † ‡ ˆ ‰ Š ‹ Œ Ž ‘ ' “ ” • – — ˜ ™ š › œ ž Ÿ   ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ­ ® ¯ ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã ä å æ ç è é ê ë ì í î ï ð ñ ò ó ô õ ö ÷ ø ù úûüýþÿ 256 caractères hexadécimaux (0 1 2 3 4 5 6 7 8 9 A B C D E F) Pour convertir un octet, on le partage en 2 groupes de 4 bits, qui correspondent chacun à un chiffre hexadécimal Encodage encore très utilisé

Un import pas à pas Un processus d’import peut se déclencher manuellement, mais sur les systèmes plus volumineux, il est lancé de façon programmée par un « cron », qui charge un script. Décodage du fichier ISO 27.09, selon la séquence label-répertoire-zones-séparateur L’outil d’import prépare la possibilité : d’insérer la notice décodée [INSERT]; de « recouvrir la notice décodée[UPDATE] - de protéger éventuellement des zones en fonction de règles inscrites dans les outils de paramétrage de l’import [no_update] ; de rejeter la notice décodée. Le décodage du fichier iso 2709 ne suffit pas dans certains cas (c’est le cas pour les imports SUDOC). La plupart du temps, le décodeur iso 2709 est étendu à l’aide d’un handler, qui permet un traitement à partir d’une analyse des données. La première étape consiste à créer des notices au format XML pour les fournir à l’outil d’import qui va se charger du traitement des données.

BDD modèle Fichier(s) Décodeur Outil d’import crée un fichier d’import Assigne des attributs Lit le fichier iso 2709 et prépare les élements XML Fichier(s) Décodeur Outil d’import  crée un fichier d’import XML insert BDD update Analyseur recherche Interroge successivement la base et applique des traitements prévus par les handlers

le scénario à adopter en fonction du type de document Le modèle est un fichier ayant une structure d’éléments identiques à la source XML à importer, mais chaque élément est assorti d’attributs qui précisent comment gérer les champs <?xml version="1.0" encoding="UTF-8"?> <UNIMARC tagtype="marc" where="FR_BN='${FR_BN}' or SORT='${SORT.sql}'" update="merge" update.merge.keep=« BLOB,MARC,610"> <GESTION1 def_value="1"/> <GESTION2 def_value="2"/> <GESTION3 def_value="3"/> <UNIMARC_FIELDS> <_200> <_200a NFZ="1"/> <_200c NFZ="1"/> <_200d NFZ="1"/> <_200e NFZ="1"/> <_200i NFZ="1"/> </_200> […] </UNIMARC_FIELDS> Il peut ajouter par exemple des champs de gestion en fonction du décodage du label pour traiter : le type de document le type de support le scénario à adopter en fonction du type de document Le filtrage des zones : - 210 Autorité éditeur 4XX autorité collection 6XX autorité matière 7XX autorité auteur (…) Par exemple le modèle UNIMARC peut convoquer d’autres modèles à l’intérieur de son schéma pour traiter des zones particulières qui vont devenir des liens avec d’autres tables <_210> <_2105 include="EDITEUR.mdl"/> </_210> … <_606> <_606a include="MATIERE_light.mdl"/> <_606x include="MATIERE_light.mdl"/> <_606y include="MATIERE_light.mdl"/> <_606z include="MATIERE_light.mdl"/> </_606> Un modèle existe pour les tables suivantes : AUTEUR COLLECTION COLLECTIVITE EDITEUR FOURNISSEUR MATIERE TITRE_UNIFORME UNIMARC

L’analyseur va fournir des éléments déduits à partir de l’observation précise de séquences du label # Paramètres de decodeDocumentType documenttype.label.pos67.aa=monographie documenttype.label.pos67.ac=monographie documenttype.label.pos67.am=monographie documenttype.label.pos67.as=periodique documenttype.label.pos67.bm=monographie documenttype.label.pos67.cm=monographie documenttype.label.pos67.cs=periodique documenttype.label.pos67.dm=monographie documenttype.label.pos67.em=monographie documenttype.label.pos67.es=periodique documenttype.label.pos67.fm=monographie documenttype.label.pos67.ga=audiovisuel documenttype.label.pos67.gc=audiovisuel documenttype.label.pos67.gm=audiovisuel documenttype.label.pos67.gs=audiovisuel documenttype.label.pos67.im=monographie documenttype.label.pos67.is=monographie documenttype.label.pos67.jm=monographie documenttype.label.pos67.js=periodique documenttype.label.pos67.km=monographie documenttype.label.pos67.lm=document_electronique documenttype.label.pos67.ls=document_electronique documenttype.label.pos67.mc=monographie documenttype.label.pos67.mm=monographie documenttype.label.pos67.ms=monographie documenttype.label.pos67.rm=monographie Aller-retour permanent entre la base de données locale et le fichier d’import qui permet par exemple la confrontation avec une liste de supports interne à l’application Attribution d’un nouvel identifiant (clé primaire) si la notice n’existe pas déjà dans la base Validation du schéma MARC pour effectuer soit un INSERT, un UPDATE ou un REJET Ex. type de document

Méthode de dédoublonnage possible Concaténation d’éléments puisés dans les balises XML pour créer un « identifiant » qui va servir au dédoublonnage : <concat param1="200a,92/700a,25,/205a,10,/210c,25,/210d,5,/010a,17,/200b,6,/200e,25,/200i,20,/200v,5,/200h,10,"/> ALBERT CAMUSGRENIER , ROGER , 1919-..GALLIMARD19872-07-070866-7SOLEIL ET OMBRE Réindexation des notices importées pour les positionner au même niveau que les notices existantes. Gestion des traces des opérations effectuées dans un fichier de logs 20.07.2009 10:12:53 23 notices insérées dans la table 'MATIERE' (source 'default') 20.07.2009 10:12:53 12 notices insérées dans la table 'COLLECTION' (source 'default') 20.07.2009 10:12:53 36 notices insérées dans la table 'UNIMARC' (source 'default') 20.07.2009 10:12:53 26 notices insérées dans la table 'AUTEUR' (source 'default') 20.07.2009 10:12:53 2 notices insérées dans la table 'EDITEUR' (source 'default') 20.07.2009 10:12:53 9 notices insérées dans la table 'COLLECTIVITE' (source 'default') 20.07.2009 10:12:53 16 notices mises à jour dans la table 'UNIMARC' (source 'default') 20.07.2009 10:12:53 265 notices autorités trouvées dans la table 'MATIERE' (source 'default') 20.07.2009 10:12:53 17 notices autorités trouvées dans la table 'COLLECTION' (source 'default') 20.07.2009 10:12:53 30 notices autorités trouvées dans la table 'AUTEUR' (source 'default') 20.07.2009 10:12:53 69 notices autorités trouvées dans la table 'EDITEUR' (source 'default') 20.07.2009 10:12:53 25 notices autorités trouvées dans la table 'COLLECTIVITE' (source 'default') Les opérations au niveau de l’import lui-même sont transparentes pour l’utilisateur. Seuls doivent être paramétrés (éventuellement) le modèle et le décodeur. Il appartient à l’administrateur de pouvoir comparer un fichier source et une notice importée dans sa plateforme. Les opérations d’insertion, d’update, de réindexation renvoient à la gestion de l’applicatif, ce qui dépasse de loin le processus d’import

Un autre dispositif asynchrone : OAI-PMH

OAI-PMH Définition : OAI - PMH Open Archive Initiative Protocol for Metadata Harvesting Mvt 1 de l’interopérabiblité : aspect « normatif » : empilement structuré des données Mvt 3 de l’interopérabilité : le protocole d’échange Mvt 2 de l’interopérabiblité : XML DublinCore

Un peu de vocabulaire… Ressource (‘resource’) : c’est le document qui est décrit par un appareil bibliographique (la réalité à laquelle la description renvoie, une monographie imprimée, un document électronique…) Item : c’est la notice informatique qui contient la description. Cette notice se voit attribuer un identifiant unique supplémentaire, totalement indépendant de celui du système hérité. Enregistrement (‘record’): ce sont une partie des métadonnées de l’item qui sont choisies et « poussées » dans un fichier XML qui deviennent un enregistrement. OAI-PMH ne travaille pas avec la totalité des données, mais un jeu allégé. Lot (‘set’) : c’est un possibilité d’OAI-PMH pour constituer des ensembles thématiques ou autres (par exemple ; les thèses d’un établissent dans un format donné et pour une période donnée).

Métadonnées sur la ressource 001 092151655 010 ##‎$a2-7460-2906-5‎$bBr.‎$d27,14 € 073 #1‎$a9782746029064 200 1#‎$a@XML par la pratique‎$bTexte imprimé‎$ebases indispensables, concepts et cas pratiques‎$f[Sébastien Lecomte] 210 ##‎$aNantes‎$cÉd. ENI‎$dcop. 2005 215 ##‎$a1 vol. (353 p.)‎$cill., couv. ill. en coul.‎$d22 cm 225 0#‎$a@Ressources informatiques‎$fJoe͏̈lle Musset‎$x1627-8224 320 ##‎$aIndex 410 ##‎$aRessources informatiques (Nantes), ISSN 1627-8224 606 ##‎$aXML (langage de balisage)‎$2 rameau 606 ##‎$aEchange électronique d'information‎$2rameau 676 ##‎$a006.74‎$v22‎$zeng 700 #1‎$aLecomte, Sébastien (19..-.... ; informaticien)‎$4070 <record> <dc:title> Xml par la pratique : bases indispensables, concepts et cas pratiques</dc:title> <dc:creator>Sébastien Lecomte</dc:creator> <dc:type>Monographie imprimée</dc:type> … </record> <identifier>oai:1380</identifier>

Entrepôt commun ? Principe général Base 1 (spécificités internes) Base 2 (spécificités internes) Base 3 (spécificités internes) Base 4 (spécificités internes) Création d’enregistrements en DC Création d’enregistrements en DC Création d’enregistrements en DC Création d’enregistrements en DC Spécificité commune Entrepôt commun ? Pour l’usager : formulation d’une requête unique

Conclusion

La stratégie de catalogage qui repose sur la récupération de notices représente une économie d'échelle, un gain, mais impose des contraintes techniques importantes. Elle nécessite une technicité importante : une ou plusieurs ressource(s) humaine(s) à l'aise dans la manipulation de données informatiques... ... mais aussi une expertise métier plus importante, des catalogueurs plus qualifiés dans des opérations particulières : dédoublonnage, “nettoyage” de la base paramétrage (métier) des outils d'import, - vérification de la cohérence de la base (si les réservoirs sont disparates, il faut harmoniser), connaissance des formats à bas niveau (ex. décodage du label), traitement des autorités, - connaissance du fonctionnement des index.

Merci de votre attention ! Récupération de notices et interopérabilité des catalogues Merci de votre attention ! * Philippe.Bourdenet@univ-lemans.fr * contact@fulbi.fr