L’information scientifique : les impacts du libre accès ACFAS, 15 mai 2006 Aspects techniques et organisationnels de la mise en place de Papyrus, le dépôt institutionnel numérique de l’Université de Montréal Marie-Hélène Vézina Direction des bibliothèques Université de Montréal http://papyrus.bib.umontreal.ca
Plan de la présentation La communication savante : conjoncture des dernières années Les dépôts institutionnels Contexte de mise en place de Papyrus Aperçu de DSpace Aperçu de Papyrus Le protocole OAI-PMH Aspects organisationnels En guise d’introduction : conjoncture des dernières années pour la communication savante
La communication savante Conjoncture des dernières années: Omniprésence réseau / web / courriel Production savante vs temps de latence de la diffusion Autres formes de communication savante non prises en compte par le modèle traditionnel Modèle économique de l’édition savante Financement par fonds publics Prolifération de sites web Depuis une quinzaine d'années, grâce au développement de l'informatique et d'Internet, de nouveaux modèles de communication de l'information savante ont vu le jour motivés par plusieurs facteurs/circonstances qui ont le verra ont contribué à l'émergence des Dépôts institutionnels: Dans un premier temps l’omniprésence des environnement réseautés, à haute-vitesse, internet, le courrier électronique, etc. a créé une demande accrue des utilisateurs pour utiliser le web comme moyen d’accès aux résultats de recherche mais aussi de diffusion; Ensuite de plus en plus de disciplines, plus spécifiquement dans les sciences exactes (« hard sciences »), ex.: Physique, informatique, sciences biologiques (par oppositions aux sciences molles: économie, psychologie, etc…) produisent des résultats à un rythme grandissant, ce qui demande des mécanismes qui peuvent rapporter les résultats avec moins de temps de rétention/latence comme le fait le système traditionnel de publication des revues savantes; il fallait donc trouver un moyen de livrer plus rapidement les résultats de recherche D'autre part le modèle traditionnel de publication savante par revues, monographies, etc. laisse de côté une partie importante de la production savante comprise dans le processus de recherche: données source, données d'enquêtes, données techniques, prépublications, versions de travail, allocutions, séminaires, etc. Autre point important, le modèle économique de l’édition savante a été mis à rude épreuve par l’escalade des prix des abonnements versus les budgets relativement stagnants des bibliothèques de recherche, ce qui a provoqué une diminution de l'accès à la littérature savante. Il fallait donc se doter de moyens pour regagner cet accès, favoriser l'accès aux résultats de recherche. Enfin, il y a aussi le fait que beaucoup de recherches sont payées par les fonds publics: des organismes comme le NIH (National Institutes of Health), la National Science Foundation des Etats-Unis ou le CRSNG/CRSH au Canada, sont publics… alors les résultats de ces recherche ne devraient-ils pas être publics? C’est ce qui a été avançé par certains organismes subventionnaires qui ce sont dotés de règles plus ou moins coercitives, malheureusement surtout incitatives, mais quand même ça démontre un souci en ce sens…. Face à tout celà on a vu apparaître sur les sites webs des facultés, groupes de recherche ou encore des chercheurs eux-mêmes, des copies de prépublications, publications, ensembles de données, texte de conférence etc. Ceci facilitait l'échange et l'accès d'information savante mais jusqu'à un certain point, les publications savantes étant en quelques sortes noyées dans la mer chaotique d'information que constitue le web. Ces publications réparties dans plusieurs sites différents deviennent difficile à localiser pour les autres chercheurs et, étant dans une période où les universités compétitionnent en quelque sorte pour obtenir plus de fonds, plus de clientèle et intensifier leur rayonnement, ces petites collections ça et là ne contribuent pas à donner une image globale et exhaustive de la recherche qui se fait dans l'institution, laquelle constitue un indicateur de qualité indéniable. De plus en s'appuyant de plus en plus sur une communication savante sous format numérique, ça pose la problématique de l'accès à long terme à ces travaux alors que des groupes de recherche disparaissent, sont fusionnés, que les chercheurs partent à la retraite ou encore qu'il n'y a pas/plus de budget pour employer du personnel technique qui s'occupait de mettre à jour les sites web, etc.
Les dépôts institutionnels (DI) Un élément de solution : les DIs (IRs) Qu’est-ce? « Institutional Repository: an electronic system that captures, preserves, and provides access to the digital work products of a community » Foster & Gibbons (2005) Une collection numérisée de la production intellectuelle d'une institution Sous une forme organisée Permet la soumission, l’archivage et la diffusion Articles, rapports, pré-publications, thèses, images, objets d’apprentissage, etc. Les dépôts institutionnels numériques, qu’on pourrait définir comme étant une collection numérisée de la production intellectuelle d’une institution/université sous une forme organisée qui permet la soumission, l’archivage et la diffusion., sont en train d’émerger, du moins dans les universités d’avant-garde, comme un élément de solution (parmi d’autres) au nouvel contexte mis en place par la conjoncture actuelle. Par collection numérisée on pense bien sûr à des articles mais aussi des mémoires, thèses, des rapports de recherche, des données brutes, des objets d’apprentissage (learning objects), etc. Si on veut aller un peu plus loin on dira : qui permet l’échange de données sous une forme normalisée (interopérabilité)
Les dépôts institutionnels (suite) Un DI c’est: Outil d’aide à la diffusion de la communication savante Facilite l’accès aux résultats de recherche Complément/alternative au modèle traditionnel de communication savante Permet une diffusion rapide Préservation à long terme Vitrine de l’ensemble des résultats de recherche de l’institution Ouvert et interopérable Notion d’auto-archivage Service d’archives Espace de travail collectif Voyons ce que permet un dépôt institutionnel et les éléments constitutifs de base: - Fournit un outil pour aider les chercheurs/professeurs à diffuser leurs travaux (textes, images, données numériques, etc.) (contenu académique et non administratif). Les dépôts institutionnels profitent d’une indexation dans un ensemble d’outils de recherche sur le Web ce qui favorise la diffusion et le repérage des publications qui s’y trouvent et le rayonnement des chercheurs. L’objectif premier étant de maximiser l’impact de la recherche. Réciproque: « Autoarchivez pour les autres comme vous aimeriez que les autres autoarchivent pour vous » Permet aux usagers, aux chercheurs d'autres institutions, de trouver facilement les travaux des chercheurs du fait que ceux-ci sont classés par unités de recherche et d'enseignement, et indexés, ce qui augmente aussi leur visibilité auprès des collègues et organismes subventionnaires; - Peut constituer un complément au modèle traditionnel (par ex. données complémentaires) ou encore s'y substituer (possibilité de recréer un processus de validation par les pairs); - Assure une diffusion rapide et efficace de la recherche faite dans l’institution. Par ex. les prépublications peuvent être placées dans le dépôt en quelques clics....; - Facilite la préservation à long terme et la pérennité d’accès à l’information du fait qu'il s'agit d'une structure centralisée et institutionnelle, donc qui fonctionne avec des budgets institutionnels; Dégage l’unité ou le chercheur d’avoir à mettre en place sa propre infrastructure de diffusion (serveur, logiciel de base de données, pages Web, etc.) et d’avoir à en assumer les coûts et le soutien technique. En plus : attribue à chaque document déposé un URL permanent que les auteurs peuvent inclure dans leurs pages Web, curriculum, etc. - Offre une vitrine de l'ensemble des résultats de recherche de l'institution. Dans le système traditionnel de communication savante la plupart de la production est disséminée à travers des milliers de revues savante. Un DI permet de concentrer l'ensemble de la production intellectuelle et permet de mieux démontrer la valeur scientifique et sociale du travail de recherche fait par les chercheurs de l'institution. Ça pourrait même potentiellement devenir un indicateur de qualité de l’institution. Interopérabilité: le dépôt joue un rôle de fournisseur de contenu (data provider). L’intérêt n’est pas d’avoir un dépôt isolé mais bien un dépôt qui puisse s’inscrire dans un réseau de dépôts et être interopérable avec des fournisseurs de service qui seront en mesure d’extraire les métadonnées (données bibliographiques) pour construire un gamme de service de recherche, d’indexation, de diffusion sélective d’information (avis par courriel), de portails, etc. du matériel que l’on retrouve sur plusieurs dépôts. Auto-archivage : où l’auteur dépose volontairement ses publications à travers un mécanisme de soumission plus ou moins sophistiqué. Ce qu’un DI n’est pas: n’est pas un service d’archives, ni un espace de workflow pour du travail collaboratif par ex.
Contexte de mise en place de Papyrus Mouvement de libre accès au résultat de la recherche (Open Access Initiative) Initiative canadienne pilotée par CARL/ABRC d’implantation de dépôts institutionnels dans plusieurs bibliothèques de recherche canadiennes Mandat institutionnel pour développer Papyrus à l’UdeM Mouvement de libre accès aux résultats de la recherche: Revues Open Access (revues libres d’accès, eg Biomed Central) et Dépôt institutionnel Les bibliothèques de l'UdeM sont membres de l'Association des Bibliothèques de Recherche du Canada [ABRC] qui favorise la création de dépôts institutionnels et le Libre Accès à la Recherche. Budapest Open Access Initiative (BOAI) : (énoncé de principe) UdeM est signataire Pourquoi devrait-on auto-archiver ? Afin d'optimiser la visibilité et l'accessibilité à sa recherche et donc l'utilisation et l'impact de son travail. En juillet 2003, SPARC (Scholarly Publishing and Academic Resources Coalition) a produit un énoncé de principes (position paper) qui expliquait le rôle stratégique que peuvent jouer les dépôts institutionnels pour les universités. Initiative canadienne: Plusieurs (beaucoup, une douzaine) ont été intéressés à expérimenter, à des degrés divers, le concept, ce qui, chapeauté par l’ABRC, a mené, en août dernier, à l’établissement du projet pilote des dépôts institutionnels de l'ABRC (CARL Institutional Repositories Pilot Project) qui est une initiative canadienne visant la mise en place de dépôts institutionnels dans plusieurs bibliothèques de recherche du Canada La Direction des bibliothèques a reçu le mandat de la direction de l’Université de mettre sur pied un dépôt institutionnel pour l’Université de Montréal et d’assurer le maintien des infrastructures technologiques et logiques de production. D’abord pilote, et depuis un peu plus d’un an en phase opérationnelle.
Aperçu de DSpace Projet conjoint du MIT et de la société HP Plate-forme logicielle « open-source » permettant de gérer un DI Environnement adapté aux différentes communautés de recherche et d’enseignement Technologies web (Java, Tomcat, XML) DSpace Federation 1ere version : novembre 2002 Le dépôt est un environnement flexible : les unités peuvent adapter leur espace Papyrus à leurs besoins (structure des collections, mécanismes de validation, types de contenus déposés, présentation, etc.). Plate-forme de depot institutionnel Open-source (à code ouvert) développé conjointement par MIT et HP Technologie - Java, Tomcat, XML --> services Web Statut du logiciel - Distribué sous licence ’open source BSD’ DSpace Federation: Le MIT développe des partenariats avec un petit nombre d'organismes de recherche aux Etats-Unis, Royaume Uni et Canada comme Cambridge University, Cornell University, University of Toronto et University of Washington. Cette « DSpace Federation » pour laquelle le MIT a reçu 300 000 dollars de la Fondation Andrew W. Mellon doit promouvoir le développement et l'interopérabilité de DSpace
Le protocole OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting (protocole pour le moissonnage des données ) Deux types d'acteurs : Les dépôts OAI Les moissonneurs OAI Harmoniser l’accès à des sources hétérogènes de données indépendamment des applications utilisées Un mécanisme de moissonnage asynchrone et en lots (pas un protocole de méta-recherche) Utilisé par OAIster, Citebase, Google Scholar Protocole élaboré par l’OAI à l’issue de la Convention de Santa Fé (1999) OAI (Open Archives Initiative) : se veut démocratiser l’accès à la littérature de recherche Protocole OAI-PMH: pour faciliter la description et la diffusion des métadonnées d’articles scientifiques disponibles en accès ouvert sur Internet, notamment dans des répertoires de pré-publications. S’est vite révélé très adapté au partage de métadonnées de documents scientifiques ou culturels, présentes dans des ensembles de ressources homogènes ou hétérogènes, plus ou moins réparties. Les dépôts qui exposent aux moissonneurs des métadonnées Les moissonneurs recueillent périodiquement des métadonnées dans plusieurs dépôts puis offre un service à valeur ajoutée (recherche, DSI, répertoires, etc.)
Le protocole OAI-PMH (suite) Basé sur des requêtes HTTP Réponse à une requête = fichier XML Constituée de 6 verbes: Identify, (identifie le dépôt OAI) ; ListMetadataFormats, (liste les formats de métadonnées supportées) ; ListSets, (liste les collections du dépôt) ; ListIdentifiers, (liste les identifiants uniques) ; GetRecord, (données d’un enregistrement) ; ListRecords, (liste des enregistrements).
request?verb=ListSets
request? verb=ListIdentifiers& metadataPrefix=oai_dc& set=hdl_1866_5
request. verb=GetRecord& metadataPrefix=oai_dc& identifier=oai:papyrus request? verb=GetRecord& metadataPrefix=oai_dc& identifier=oai:papyrus.bib.umontreal.ca:1866/83
Critères généraux de soumission dans Papyrus Le document est produit par la communauté (faculté, département, centre de recherche). Le déposant est détenteur des droits d’auteurs. Il est rédigé à des fins académiques ou de recherche. Il n’est pas éphémère (n’a pas à être retiré du dépôt après un certain temps). Il est en format numérique. Son auteur accorde à l’UdeM le droit de conserver et de diffuser le document.
Aspects organisationnels Définition de l’offre de service Adoption d’un texte de licence Approche facultaire/départementale vs individuelle (vitrine interdisciplinaire) Questions pour les unités qui désirent profiter de Papyrus Une unité qui se joint à Papyrus pourra définir les procédures et politiques qui lui sont propres dans le dépôt. Voici les questions principales sur lesquelles une unité (appelée « communauté » dans l’environnement Papyrus) aura à se pencher : Définir qui peut déposer (professeurs, chercheurs, chargés de cours, assistants de recherche, étudiants des cycles supérieurs…) dans l’espace Papyrus de la communauté. Déterminer quels types de documents peuvent être déposés (textes de conférences, articles, thèses, pré-publications…) dans l’espace Papyrus de la communauté. Déterminer si on veut mettre en place une procédure de validation des dépôts de documents effectués (DSpace permet jusqu’à trois niveaux de validation). Définir quelles métadonnées (mots-clés, résumé…) doivent être incluses dans la description de chaque document déposé. Définir les procédures et mécanismes pour le dépôt dans l’unité (ajout à la liste de déposants, processus de validation…).
Aspects organisationnels (suite) Promotion du service Démonstrations aux départements et facultés Matériel promotionnel divers (dépliant) Section « À propos » et « FAQ », avec capsules animées Statistiques de téléchargements Section sur les politiques de droits d'auteurs et d'auto-archivage pratiquées par les éditeurs de revues savantes Section sur comment interroger Papyrus à distance Matériel promotionnel : document Word / page web sur Intranet / présentation powerpoint/ pamphlet à venir Par interrogation via le moteur de recherche interne Par utilisation du protocole Open Access Initiative - Protocol for Metadata Harvesting
Merci de votre attention! Marie-Hélène Vézina marie-helene.vezina (@) umontreal.ca
Webographie DSpace <http://www.dspace.org> Foster, N.F. and Gibbons, S., 2005. Understanding faculty to improve content recruitment for institutional repositories. D-Lib Magazine [en ligne], 11(1). <http://www.dlib.org/dlib/january05/foster/01foster.html> Open Archives Initiative et OAI-PMH http://www.openarchives.org/