La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les API Sudoc Le Sudoc autrement…

Présentations similaires


Présentation au sujet: "Les API Sudoc Le Sudoc autrement…"— Transcription de la présentation:

1 Les API Sudoc Le Sudoc autrement…
Une interface de programmation (Application Programming Interface ou API) est une interface fournie par un programme informatique. Elle permet l'interaction des programmes les uns avec les autres, de manière analogue à une interface homme-machine, qui rend possible l'interaction entre un homme et une machine.

2 API Sudoc : les objectifs
Améliorer les services offerts aux professionnels Ouvrir les données Sudoc à l’extérieur Optimiser l’interopérabilité entre les applications de l’enseignement supérieur et de la recherche ouvrir les autorités Sudoc à d’autres applications difficulté à s’approprier, ouvrir et faire évoluer les logiciels OCLC chercher à s’affranchir progressivement des technologies OCLC en construisant des solutions alternatives qui s’appuient sur des technologies standard (XML, Java) afin de favoriser l’interopérabilité entre les systèmes.

3 API Sudoc : les moyens Les bases de données en XML
Les serveurs SOLR d’indexation et de recherche Les programmes JAVA Des databases XML, miroirs des données du sudoc. Le but est de pouvoir maintenir en temps réel une database Xml des notices sudoc. Ces databases utilisent des processus de mirroring en temps réel et en batch. Elles permettent de plus de créer des indexes SQL pour accéder plus rapidement aux données via des requêtes SQL. Elles permettent aussi de piloter des processus d’indexation vers des serveurs solr d’indexation. Les serveur solr d’indexation et de recherche La solution Solr pour indexer les notices XML des bases de données citées ci-dessus a été retenue pour sa performance et sa modularité. Elle permet à des applications clientes externes d’effectuer des recherches sur les données du sudoc à travers des web services. exploiter les commandes CBS par des programmes JAVA qui se substitue à WinIBW

4 A partir de la base de données Sudoc, des applications ont été créées pour dialoguer directement avec le CBS : Exemplarisation automatique Création des thèses et leurs exemplaires dans STAR et envoyés au Sudoc Afin de faciliter la mise à disposition et l’utilisation dans d’autres environnements des données du Sudoc, deux bases de données ont été créées où les données sont au format XML plus universel que celui : Autorités Bibliographies L’application SELF Sudoc, que nous verrons plus loin, s’appuie sur ces données en XML Ces bases sont mises à jour en temps réel grâce au protocole d’échange entre systèmes, SRU update Les serveurs solr connectés à ces bases permettent une indexation et une recherche différentes de celles que nous connaissions jusqu’à présent dans le CBS, nous verrons plus loin le fonctionnement de ces serveurs solr et l’application « solr total » créée pour le contrôle qualité des données sudoc. Enfin, les données Sudoc seront dorénavant accessibles sur le web grâce aux web services (Yann)

5 IdRef : www.idref.fr Une interface connectée au Sudoc professionnel
IdRef permet : d’interroger les autorités de la base Sudoc d'enrichir et/ou de corriger des notices autorités existantes de créer de nouvelles entités Cette nouvelle application permet d'interroger et d'enrichir les référentiels sur lesquels le Sudoc s'appuie. Aujourd'hui, ces référentiels sont les autorités Personnes Physiques, Collectivités, Familles, Noms géographiques, Titres uniformes et Auteur-Titres, le vocabulaire Rameau, le vocabulaire Fmesh et les notices de bibliothèques (RCR - Répertoire des Centres de Ressources). IdRef permet une recherche efficace et fine parmi les d’entités qui constituent les autorités Sudoc : recherche assistée (autocomplétion), index spécifiques, filtres dynamiques en fonction de l’index choisi, tris, facettes qui permettent de préciser la recherche en partant d’une première liste de résultats, affichage des notices bibliographiques liées réparties par rôle Avec IdRef, l’ABES encourage et facilite la réutilisation des référentiels du Sudoc par les applications documentaires relevant de l’enseignement supérieur et de la recherche : catalogues de bibliothèques, archives ouvertes et institutionnelles, plateformes pédagogiques, bibliothèques numériques, applications de gestion de la recherche, éditeurs universitaires… Sont mis à la disposition de ces partenaires : IdRef, une application Web pour interroger et consulter les autorités Sudoc et en créer de nouvelles ; des Web Services pour interroger les autorités du Sudoc. Cette application Web et ces Web Services peuvent facilement être intégrés dans des applications existantes. Aujourd'hui, IdRef est interconnectée à STAR et Calames. IdRef est une application ouverte sur le Web des données. Toutes ses notices sont accessibles en RDF/XML via une URL pérenne.

6 IdRef : www.idref.fr En production depuis octobre 2010
Statistiques du 1er mars au 30 avril 1997 notices ont été créées 18225 notices ont été liées 37499 recherches ont été faites 60 établissements se connectent régulièrement à IdRef La prochaine version de l’application IdRef proposera : Un contrôle sur les doublons La recherche exacte Un formulaire de demande RAMEAU Cette nouvelle application permet d'interroger et d'enrichir les référentiels sur lesquels le Sudoc s'appuie. Aujourd'hui, ces référentiels sont les autorités Personnes Physiques, Collectivités, Familles, Noms géographiques, Titres uniformes et Auteur-Titres, le vocabulaire Rameau, le vocabulaire Fmesh et les notices de bibliothèques (RCR - Répertoire des Centres de Ressources). Avec IdRef, l’ABES encourage et facilite la réutilisation des référentiels du Sudoc par les applications documentaires relevant de l’enseignement supérieur et de la recherche : catalogues de bibliothèques, archives ouvertes et institutionnelles, plateformes pédagogiques, bibliothèques numériques, applications de gestion de la recherche, éditeurs universitaires… Sont mis à la disposition de ces partenaires : IdRef, une application Web pour interroger et consulter les autorités Sudoc et en créer de nouvelles ; des Web Services pour interroger les autorités du Sudoc. Cette application Web et ces Web Services peuvent facilement être intégrés dans des applications existantes. Aujourd'hui, IdRef est interconnectée à STAR et Calames. IdRef est une application ouverte sur le Web des données. Toutes ses notices sont accessibles en RDF/XML via une URL pérenne. Prochaine version d'IdRef - Contrôle des doublons à la création de notice (contrôle sur les 2XX et 4XX) - Recherche exacte - Formulaire demandes Rameau : prendre en compte la structure existante de signalement des propositions rameau (le catalogueur transmet au correspondant autorité qui ensuite transmet au Centre National Rameau ; si celle ci est acceptée par le CNR, la notice est mise à jour par chargement. Sinon, la notice doit être supprimée par le réseau).

7 SELF Sudoc : self.sudoc.fr Services En Ligne de Fichiers Sudoc
Une interface connectée au Sudoc professionnel SELF Sudoc permet aux bibliothèques du réseau d’éditer les catalogues de ressources continues dans des formats définis : CSV, RTF et PDF

8 SELF Sudoc : self.sudoc.fr Services En Ligne de Fichiers Sudoc
En production depuis février 2011 Statistiques à la fin du mois d’avril : 384 catalogues au format RTF 235 catalogues au format CSV 57 catalogues au format PDF Avenir : Autonomie des établissements Sudoc pour : Les exports de documents non standards Les exports de données L’objet de cette nouvelle application professionnelle est de rendre les bibliothèques Sudoc autonomes dans la réalisation de certains produits dérivés : les catalogues de ressources continues. Après authentification, un coordinateur ou un responsable de CR (Centre Régional du réseau Sudoc PS) peut, par lui-même, réaliser et télécharger des catalogues de ressources continues localisées par les bibliothèques dont il a la charge, sous différents formats de présentation. Au total, 676 catalogues générés en trois mois (il y en a eu 585 pour toute l'année 2010). Cette application extrait les notices à partir de la base XML mirrorée.

9 Exemplarisation automatique
En production depuis le printemps 2010 Un programme écrit en JAVA qui dialogue directement avec le CBS Tous types de supports Pas de ressources continues encore En entrée, un fichier « .txt » structuré : i u.txt Isbn;930 $a;915 $b;999 $a;$b ;LJ-MOR; ;0LIA;0BLJ ;LJ LEQ; ;0LIA;0BLJ pit / 0ieuf1 Cette nouvelle application interne permet d'automatiser plus encore le signalement en masse des exemplaires d'une bibliothèque. Auparavant, l'exemplarisation en masse avait recours à des scripts WinIBW, ce qui requérait une plus grande intervention humaine. Le programme est écrit en JAVA, c’est un programme générique, c’est à dire qu’il s’adapte à tous les modèles d’exemplarisation automatique. Ce programme dialogue directement avec le CBS. En entrée un fichier .txt structuré précisément : Nomenclature pour le nom du fichier : index de recherche + RCR + code peb Première ligne du fichier qui indique la clé de recherche + les zones et sous-zones à ajouter Isbn;930 $a;915 $b;999 $a;$b (930$a = cote; 915$b = code barres; 999 = usage libre) ;LJ-MOR; ;0LIA;0BLJ ;LJ LEQ; ;0LIA;0BLJ Structure non de fichier i = isbn papier o = isbn électronique r = requête p = ppn + Rcr Code peb

10 Signalement automatique des thèses de STAR dans le Sudoc
Avant : l’exemplaire de la thèse numérique était créé avec WinIBW Aujourd’hui : la notice de thèse ainsi que l’exemplaire sont créés dans STAR Programme écrit en JAVA dialogue directement avec le CBS Recherche sur le n°source : Si mise à jour : fusion Sinon création d’une nouvelle notice et de l’exemplaire Avec la version 1 de STAR, uniquement la notice bibliographique de la thèse était créée dans STAR puis envoyée dans le Sudoc ; l’exemplaire était alors créé dans le Sudoc. Grâce aux développements d'API Sudoc, la nouvelle version de STAR peut désormais entièrement automatiser le signalement des thèses numériques dans le Sudoc. Ces améliorations font gagner du temps aux catalogueurs et favorisent la qualité et la cohérence des données dans différents environnements C’est aussi un programme écrit en JAVA qui dialogue directement avec le CBS : 1- La notice est envoyée par STAR au Sudoc en format XML, elle est convertie en format PICA 2- Une recherche est faite sur le N°source (CHE SOU), si c’est une mise à jour => fusion, sinon nouvelle notice avec l’exemplaire.

11 Le Répertoire des Centres de Ressources en XML
Première étape : un fichier de mise à jour pour WorldCat en format CSV : Export des RCR au format XML Export des RCR au format tabulé CBS library « AFF BIB » (table SQL) Notices RCR « CHE RCR » (format catalogage) N°RCR Intitulé court Symbole OCLC R120$a : nom R130$a : type d’établissement R210$a : téléphone R211$a : télécopie R220$a$d : services électroniques R200$a$b$c$d$f$g$e$h : adresse R851$a$b : PEB international L’idée de cette base de données en XML vient de la difficulté à construire le fichier de mise à jour pour le répertoire des bibliothèques Worldcat : besoin de données venant de deux tables différentes dans le CBS : ce qu’on appelle la CBS_library (AFF BIB) et les notices RCR (CHE RCR) Ces données, au départ dans des formats différents, ont été récupérées dans une base au format XML, ce qui permet de les extraire dans un même fichier, en XML et donc affichables en format tabulé.

12

13 Solr Apache Solr : plateforme de recherche opensource, basée sur le projet Apache Lucene Est utilisé à l’ABES par les applications et projets : IdRef, STAR, STEP, Portail des thèses et API Sudoc (« Solr total », SudocAD), Solr est un serveur d'entreprise autonome de recherche. Au-delà des index prédéfinis, Solr permet la génération d’index de façon dynamique par position, zone ou sous-zone. STEP (ancien FCT) = Sujet de Thèses En Préparation Au final, c’est un réservoir de plus de 2000 index de recherche interrogeables.

14 Solr total : objectifs Permettre aux experts Données
de lancer de manière efficace et autonome des recherches dans le Sudoc d’interroger n’importe quelle information structurée dans les notices UNIMARC (format export) (positions, sous-zones) d’obtenir des résultats sous différentes formes : positions ou sous-zones demandées dynamiquement au moment de la requête (liste de PPN, sélection de zones…) d’obtenir des résultats dans un délai de quelques secondes Permettre aux experts Données de l’ABES d’interroger la base Sudoc sur n’importe quelle information structurée : position dans leader, sous-zone… de manière efficace et autonome. Pour effectuer des tâches de contrôle qualité fines (recherche d’anomalies, préparation de modifications en masse, statistiques), les experts Données ont besoin d’une solution pratique qui leur permettrait d’interroger eux-mêmes toutes les données Sudoc sur n’importe quel critère : telle sous-zone, telle donnée codée… 1- de lancer de manière efficace et autonome des recherches dans le Sudoc => Maitrise de l’outil = jusqu’à aujourd’hui seul le logiciel propriétaire PICA, APCC, permettait d’interroger les données sudoc. Cet outil APCC ne permet de lancer un grand nombre de recherches simultanées, l’obtention des résultats pouvant être très long. 2- d’interroger n’importe quelle information structurée dans les notices UNIMARC (format export) (positions, sous-zones) 3- d’obtenir des résultats sous différentes formes : positions ou sous-zones demandées dynamiquement au moment de la requête (liste de PPN, sélection de zones…) => Sélection de recherche construite dans une URL dans laquelle outre les index, on demande à obtenir dans le résultat, tout ou partie de l’information disponible dans les notices

15 Solr total : description
LA BASE 10 millions de notices bibliographiques indexées au format unimarc-export LES INDEX Plus de 2000 index de recherche (Type phrase / Type mot) Pour l’instant, les notices bibliographiques, probable que les notices d’autorités viendront s’y ajouter. 2000 index = 1000 doublés parce que index de types « phrase » (terme exact) et de type « mot »

16 Solr total : procédure 2 options de recherche possibles :
1 - A partir d’une interface dédiée Solr Administration 2 - Réaliser une équation de recherche de type URL Sélection sur un index / affichage sélectif 2 zones par notice asc&facet=true&facet.limit=10&facet.field=328-b_s&version=2.2&start=0&rows=2&indent=on&fl=001_s,328-b_s 1- A partir d’une interface dédiée Solr Administration il s’agit d’un formulaire dans lequel on dispose de la liste des index et où on peut les combiner pour créer la requête : mode novice, cela permet de construire facilement des url de requêtes avec listes de résultats personnalisées, facettes sur les résultats 2- Construction d’une équation de recherche de type URL

17

18

19 Autres applications API Sudoc
Micro Web Services Exposition des données en RDF Maintenant, la parole est à notre yoda des api sudoc !!


Télécharger ppt "Les API Sudoc Le Sudoc autrement…"

Présentations similaires


Annonces Google