La diffusion des métadonnées de la thèse STAR 8ième cercle – 27 septembre 2013
Qu’est ce que les métadonnées ? Qu’est ce que les métadonnées
Définition Informations structurées qui servent à … …une ressource Décrire Expliquer Rechercher et localiser Identifier …une ressource Les métadonnées sont des données à propos d'autres données (ou "info sur l'info".) Le terme "meta" vient du grec et dénote quelque chose de nature plus élevée ou plus fondamentale. On désignera donc par « métadonnées » les données sur les données, ou l’info sur l’info.
Un document … Et ses métadonnées… On manipule tous des métadonnées, parfois sans le savoir, par exemple dès qu’on utilise un ordinateur et qu’on manipule des fichiers. Si vous créez un document Word, il constitue « la donnée ». Ce fichier a une taille, une date de création etc… : autant de données sur la donnée. Autant de métadonnées, que l’on affiche avec le clic droit et le choix « Propriétés ». Un document … Et ses métadonnées…
Dans le monde des bibliothèques On utilise depuis longtemps des métadonnées : c’est le type d'information que les bibliothécaires mettent depuis toujours dans les catalogues. Dans le monde des bibliothèques, les métadonnées n’ont pas d’autre signification que celle-là : Dans les catalogues, on trouve des données (titre, nbre de pages) sur les données (le document) La donnée : roman de Louis Pergaud « La guerre des boutons » Les données sur la donnée : les métadonnées : la notice du roman d’un catalogue de bibliothèque Et ses métadonnées… Un document …
Document et métadonnées Appliquée à Star, on retiendra donc cette définition : La données, c’est le document thèse (qui est à la fois une œuvre de l’esprit et un fichier) Les métadonnées, ce sont tous les renseignements qui vont prendre place dans les formulaires de Star, pour créer en s’assemblant une « fiche de thèse » Le document thèse La fiche de la thèse dans Star
Usages dans le monde des ressources électroniques Les métadonnées servent à : faciliter la recherche et la découverte d'une information dont on a besoin organiser les ressources électroniques faciliter leur interopérabilité et leur usage dans d'autres contextes permettre leur identification organiser leur archivage et leur préservation Dans le monde des ressources électroniques, et pas seulement celui des thèses électroniques, les métadonnées sont cruciales : elles ne servent pas qu’à décrire. Elles rendent possible la recherche. Elles permettent qu’une ressource puissent être lue, identifiée et comprise ou affichée par une autre application ou dans un autre environnement que son application ou environnement d’origine. Elles permettent aux ressources d’’être conservées et archivées.
Une métadonnée importante : L’identifiant pérenne est une métadonnée. C’est une url construite sur le Numéro National de Thèses www.theses.fr/NNT/ Parmi toutes les métadonnées du document thèse, il en est une très importante : l’identifiant pérenne. L’identifiant pérenne est construite automatiquement par STAR, à partir d’une URL composée du NNT : avec cette construction normalisée, Star garantie que toutes les thèses électroniques relevant de son périmètre bénéficieront d’une IDENTIFICATION et d’un ACCES normalisés. Cette URL pérenne sera visible dans la notice du catalogue Sudoc, dans la notice du moteur de recherche theses.fr et dans le réservoir OAI-PMH
Où sont diffusées les métadonnées saisies dans STAR ? Où sont diffusées les métadonnées saisies dans STAR
le réservoir OAI-PMH de STAR STAR Obligatoirement : le Sudoc et theses.fr le réservoir OAI-PMH de STAR STAR Les métadonnées transitent dans Star, pour ressortir : Vers des outils de recherche bibliographique ou documentaire destinés au public : le catalogue Sudoc, le moteur de recherches theses.fr Vers le réservoir OAI-PMH de Star, destinés à des machines, qui vont pouvoir moissonner (« cueillir ») les métadonnées pour les utiliser dans leur propres systèmes Vers des plateforme de diffusion de document, destinés au public et en particulier aux chercheurs, si les droits le permettent. CLIC : Ces sorties sont parfois obligatoires (l’établissement n’a pas le choix : être dans Star signifie accepter ces sorties), parfois laissées au libre choix des établissements. Si le docteur et l’établissement le souhaitent : le serveur d’archives ouvertes TEL
Le Sudoc (1/2) Catalogue collectif des bibliothèques de l’enseignement supérieur et de la recherche Contient la bibliographie nationale des thèses Obligation pour la bibliothèque de l’établissement de soutenance de signaler le document validé par le jury 3 ensembles de données : Les notices bibliographiques Les notices d’autorité Les données d’exemplaires Le tout au format Unimarc. Toutes les thèses signalées dans ce catalogue collectif forment la bibliographie nationale des thèses (depuis 1972 pour certaines disciplines, depuis 1985 pour toutes les disciplines de façon exhaustive). CLIC : Techniquement, le Sudoc contient 3 bases : La base des notices bibliographiques (=notices qui décrivent des oeuvres) La base des notices d’autorités (=notices qui décrivent des personnes, des organismes appelés à être auteur ou sujets des documents, et des notices qui décrivent des concepts, qui seront sujets des documents) La base des données d’exemplaires (=notices qui décrivent les exemplaires physiques des documents qui sont sur les étagères). Deux problèmes se posent : Comment générer à partir de STAR les métadonnées dont le Sudoc a besoin ? Comment fournir des métadonnées en Unimarc (format du Sudoc) alors qu’elles sont en TEF dans Star ?
Le Sudoc (2/2) Sans quitter les formulaires de STAR, grâce à l’application www.idref.fr il est possible de : récupérer les notices d’autorité des intervenants (autorités Sudoc) et des sujets de la thèse (autorités matière Rameau et Fmesh) modifier ces autorités les créer si elles sont absentes de la base. Dès la saisie terminée, STAR exporte vers le Sudoc : Les éléments nécessaires à la création de la notice bibliographique Si vous le souhaitez, les éléments nécessaires à la création des données d’exemplaires. La création des données d’exemplaires entraîne la récupération dans votre SIGB Star doit donc fournir des métadonnées propres à alimenter ces 3 bases. CLIC: Pour fournir les métadonnées liées aux « autorités », Star va utiliser une application « IdRef » qui va permettre de récupérer toutes les métadonnées d’autorités nécessaires pour une thèses donnée. CLIC : Pour fournir les métadonnées bibliographiques, Star va puiser les métadonnées saisies dans Star en format TEF, va les assembler et les convertir pour les envoyer au Sudoc dans un format qu’il sait interpréter. Pour fournir les métadonnées liées aux exemplaires, Star va également pouvoir puiser les métadonnées saisies dans ses formulaires, si l’établissement a retenu cette option. Dès qu’une thèse est validée dans Star : l’export des métadonnées vers le Sudoc est déclenché. A J+1, les métadonnées arrivent dans les SIGB (les catalogues locaux des bibliothèques)
Le moteur de recherche theses.fr Moteur de recherche sur les métadonnées de toutes les thèses de doctorat Division de la base en différents périmètres Recherche facilitée par l’utilisation des facettes Assemblage des résultats par lots, présentant les mêmes caractéristiques Accès possible au document Theses.fr = moteur de recherche où l’ABES expose les métadonnées de toutes les thèses, pour qu’elles soient disponibles aux autres (les autres, ici, sont des humains). Les métadonnées concernent ici les œuvres (les thèses, qu’elles soient en préparation ou soutenues), les personnes liées aux œuvres (auteurs, directeurs de thèses, président du jury) et les organismes liés aux œuvres et aux personnes (écoles doctorales, universités, laboratoires). L’entrepôt est ici divisé en périmètres (thèses soutenues / thèses en préparation / personnes etc…). La recherche est facilitée grâce aux facettes, qui permettent de réunir des lots de documents proposant les mêmes caractéristiques (une même discipline, une même université de soutenance, un même auteur, une même école doctorale etc…). La recherche s’effectue alors dans ces lots, plutôt que dans l’intégralité de la base. Ce qui permet de définir ces lots, c’est donc les caractéristiques de la thèse, en d’autres termes ses métadonnées. Parmi les métadonnées qu’on trouve dans theses.fr, il y a l’URL pérenne, qui donne accès au document.
Le serveur OAI-PMH de STAR Entrepôt de métadonnées Pour disséminer les métadonnées : Le serveur OAI-PMH de STAR est moissonné par DART-Europe. Les métadonnées sont indexées par le moteur de recherche OAISTER. Pour récupérer les métadonnées : de son établissement aux formats souhaités. Par analogie avec le Sudoc, le protocole OAI-PMH assure les transferts réguliers. des autres établissements en fonction des points de vue possibles (exemple : les disciplines). OAI-PMH = entrepôt où un établissement expose ses métadonnées pour qu’elles soient disponibles aux autres (sous-entendu aux moteurs de recherches, aux applications, donc les autres, ici, sont des machines) Utilisation : CLIC : Pour exposer les travaux de recherche L’entrepôt OAI-PMH est moissonné (c’est-à-dire parcouru régulièrement afin de récupérer toute métadonnée qui vient d’être ajoutée et qui répond aux critères de sélection du moissonneur) par DART Europe (c’est un partenariat de bibliothèques de recherche qui travaillent à améliorer l’accès mondial aux thèses européennes). Ainsi, chaque thèse signalée dans STAR peut acquérir une visibilité internationale, par ce principe de récolte des métadonnées qui la décrivent. 2) Pour récupérer des métadonnées de thèses De son établissement, afin d’alimenter son catalogue, sa base de données, sa page web sur la production scientifique. Des autres établissements, afin d’alimenter des bases de données thématiques ou disciplinaires (la distinction des disciplines se fait à partir des classes de la Dewey)
Le site d’archives ouvertes dédiés aux thèses : TEL STAR envoie à TEL le document accompagné de quelques métadonnées. Le doctorant n’a plus besoin de procéder lui-même au dépôt dans TEL. TEL = sous-site dédié aux thèses (Thèses EnLigne) de l’application HAL (archive ouverte pluridisciplinaire) gérée par le CCSD (Centre pour la communication scientifique directe). TEL a pour objectif de promouvoir l’auto-archivage en ligne des thèses de doctorat et d’habilitations à diriger des recherches. L’envoi du document et des métadonnées à TEL est facultative : il faut pour cela que le docteur ait accordé les autorisations de diffusion, et que l’établissement de soutenance ait décidé de diffuser cette thèse, ou toutes ses thèses, sur cette plateforme (il peut très bien vouloir les diffuser sur sa propre plateforme de diffusion)
STAR, environnement de référence STAR est connecté au Sudoc, au réservoir OAI et à TEL. L’inverse n’est pas vrai. Les métadonnées sont créées dans STAR. Elles doivent être mises à jour dans STAR pour irriguer à nouveau le Sudoc, le réservoir OAI et TEL. TRES IMPORTANT Toutes les mises à jour ou corrections se font dans l’environnement où la métadonnée a été créée. On créée la métadonnée dans STAR : on corrige donc dans Star, et non dans le Sudoc, non dans OAI-PMH, non dans theses.fr, non dans TEL
Comment et quand sont diffusées les métadonnées saisies dans Star ? Comment et quand sont diffusées les métadonnées saisies dans Star
Des conversions de données Dans STAR les métadonnées sont au format TEF, format très riche pour décrire les thèses électroniques. STAR convertit les métadonnées TEF dans les formats requis par les applications externes : Pour le Sudoc : de TEF à Unimarc Pour le réservoir OAI : TEF, et de TEF à Dublin Core, de TEF à MarcXML Pour TEL: de TEF vers le format interne de TEL La richesse de TEF ne se retrouve pas dans les formats des applications externes. Dans Star, les métadonnées sont en TEF. Pour que la diffusion des métadonnées soit réalisable, il faut convertir les métadonnées TEF dans des formats lisibles par les applications cibles. C’est STAR qui se charge de cette conversion. CLIC : ConversionS au pluriel, car plusieurs sont nécessaires Conversion TEF -> Unimarc, pour le Sudoc Conversion TEF -> Dublin Core et TEF -> MarXML pour le réservoir OAI Conversion TEF -> Format interne de TEL pour la plateforme TEL Parfois, la conversion va entraîner un appauvrissement des données TEF, elles-mêmes très riches : par exemple pour l’export Sudoc, on ne convertit pas les métadonnées TEF liées aux droits, car le catalogue Sudoc n’en a pas besoin.
Quand les métadonnées sont-elles exportées ? Si vous utilisez les formulaires, dans le contexte « cycle dépôt national », lors de la validation finale par VALID (ou par STAR). dans le contexte « cycle mise à jour », lors de l’enregistrement par n’importe quel rôle. Si vous utilisez les imports de données, Dans les 2 cycles, lors de la réception du fichier résultat (fichier SVRL) indiquant qu’il n’y a pas eu d’erreur. Lorsqu’on saisit les données manuellement dans STAR, l’export est déclenché : dès qu’on procède à la validation finale (dans le cycle dépôt national) Dès qu’on enregistre une mise à jour (dans le cycle mise à jour) Lorsqu’on importe les données depuis une application locale, l’export est déclenché : Dès que Star accuse réception de vos fichiers et atteste de leur conformité
Ce qui sort de STAR Les métadonnées qui sortent de STAR Signalement * Entrepôt local de chaque établissement de soutenance Clients OAI-PMH Serveur OAI-PMH à l’ABES * Signalement * Transferts réguliers Exports : INIST, Google Scholard, WorldCat SIGB Z39.50 CCFr, portails de recherche Plugin, servlet, portail html (KVK)