Janvier Les archives ouvertes Larchive HAL © ccsd - Cette présentation contient des animations ; elle doit être consultée en mode « diaporama », hors de ce mode, un certain nombre dinformations ne sera pas visible. Pour les mêmes raisons limpression est déconseillée.
Janvier En un mot Mettre à disposition sur Internet la littérature scientifique produite par les chercheurs Donner aux chercheurs du monde entier mais aussi au grand public la possibilité daccéder gratuitement aux résultats de la recherche Faire de larchive ouverte un outil de travail pour le chercheur Une archive ouverte nest donc rien dautre quun site Web permettant : Aux chercheurs de déposer leurs publications Aux internautes de les lire en téléchargeant directement le document sur leur ordinateur
Janvier Phrases clés, mots clés Libre accès aux résultats de la recherche Réappropriation de la communication scientifique par les scientifiques Revendication « humaniste » : le libre accès à la connaissance, gratuité, accessibilité Revendication pragmatique : les budgets documentaires des organismes narrivent plus à suivre les tarifs des éditeurs Communication scientifique directe (CSD) Un circuit court et rapide entre les chercheurs pour faire connaître leur résultats (et prendre date pour leur recherche) Auto archivage Les chercheurs déposent eux-mêmes leurs articles sur des bases ouvertes Interopérabilité On met en œuvre des moyens pour « favoriser » linterconnexion des bases darticles scientifiques Archivage à long terme Les archives ouvertes nous font revenir à une vieille tradition, celle de léchange direct de correspondances scientifiques entre savants.
Janvier Limpact du Web sur lédition scientifique ou comment convaincre les chercheurs … Visibilité et accessibilité Limpact dune publication est accru de manière substantielle si celle-ci est accessible librement sur le Web « On line or invisible » ? S. Lawrence, NEC Research Institute Dans les domaines de mathématiques (Odlyzko A., 2001), astrophysique (Kurtz MJ, 2003), physique, avec un échantillonnage de 14 millions darticles de la BdD ISI sur 10 ans, le taux de citation serait de 2.5 à 5 fois supérieur pour les articles en libre accès (S. Harnad, 2004) Depuis fin novembre 2004, on peut consulter qui indexe les articles en ligne et traite toutes leurs références
Janvier Disponibilité sur Internet ? Pérennité des documents en ligne : un objectif des archives ouvertes Différentes études sur les liens figurant en notes de bas de page et références des publications révèlent une inquiétante «dégénérescence» avec le temps : 4% des liens cités dans les articles de 3 journaux scientifiques (Nature, Science et The New England Journal of Medecine) sont inaccessibles 3 mois après leur publication; ce taux monte à 10% après 15 mois, 13% après 27 mois … 40% des liens référencés par les articles de deux journaux informatiques sont inaccessibles 4 ans après la publication « Je pense à lincendie de la bibliothèque dAlexandrie » Robert Delavalle, physicien à luniversité du Colorado
Janvier Un mouvement mondial en faveur du libre accès Au-delà des accords de Budapest (2002), Bethesda et Berlin (2003) 25 prix Nobel soutiennent le Libre Accès (lettre ouverte au congrès, septembre 2004) En France LAcadémie des Sciences, lINRIA, lINSERM, le CA de lANR, le CNRS, lInstitut Pasteur, etc. recommandent le dépôt en archives ouvertes Signature dun accord inter-établissements : CEMAGREF, CIRAD, CNRS, CPU, INRA, INRIA, INSERM, Institut PASTEUR, IRD, Conférence des Grandes Ecoles De nouvelles institutions rejoignent laccord (CEA, etc.)
Janvier Naissance de HAL, la mission du CCSD Une initiative pour des archives scientifiques multidisciplinaires Une approche internationale : Ne construire ni une archive nationale, ni une archive institutionnelle mais sintégrer dans le mouvement « open archives » Une approche essentiellement « chercheur » Des archives alimentées directement par les chercheurs avec, comme vocation première, la réalisation dun outil scientifique offrant laccès au texte intégral du document Un outil institutionnel « indirect » grâce à la collecte de méta données suffisantes (association auteur -> laboratoires -> institutions) Un devoir darchivage à long terme, et de maintient de la disponibilité des documents dans le temps
Janvier ArXiv, un modèle en physique et mathématiques depuis plus de 12 ans Initiative de Paul Ginsparg à Los Alamos (xxx) manuscrits déposés par mois manuscrits déposés à ce jour consultations journalières Des sites miroirs dans le monde entier Australie, Brésil, Chine, Allemagne, Inde, Israël Italie, Japon, Russie, Afrique du Sud, France Corée du Sud, Espagne, Taiwan, Angleterre,…
Janvier Larchive ouverte HAL Développée par le CCSD Partenariat avec lINRIA Technologies « libres » LAMP (Linux, Apache, MySQL, PHP) Environnement sécurisé Hébergé par le Centre de Calcul de lIN2P3 Réplication des données au CINES Un futur placé sous le pilotage par lensemble des établissements signataires
Janvier HAL, centralisation apparente, mutualisation certaine ! une plate forme commune centralisée pour, Garantir laccessibilité au texte intégral Permettre lindexation global du texte intégral contenu dans la base Préserver un niveau scientifique homogène et de qualité Offrir une meilleure visibilité à linternational Interconnecter avec les bases mondiales de référence Fournir des URL pérennes et ainsi permettre la citation numérique « Horodater » les dépôts et ainsi valider une antériorité scientifique C'est le dépôt de la création auprès d'un tiers (on ne peut être témoin pour soi- même) qui va permettre de façon irréfutable de prouver cette antériorité, élément clé de la preuve. Enrichir automatiquement les référentiels institutionnels Limiter la saisie des références à un seul système Effectuer larchivage à long terme Et … limiter leffort à une seule unité spécialisée
Janvier HAL Quels documents ? Pré publications, publications, post publications, notices bibliographiques :o(( Typologie des notices bibliographiques associées Publications dans des revues à comité de lecture Conférences invitées dans des congrès Proceedings à comité de lecture Publications dans des revues sans comité Communications à des congrès, symposiums Séminaires, workshops Chapitres dans les ouvrages Livres et ouvrages Brevets Thèses II.2 - Bilan quantitatif sur les quatre dernières années concernant : II.2.1 Articles dans des revues avec comité de lecture (ACL) - internationales - nationales II.2.2 Articles dans des revues sans comité de lecture (SCL) II.2.3 Conférences invitées (INV) II.2.4 Communications avec actes (ACT) - internationales - nationales II.2.5 Communications sans actes (COM) II.2.6 Ouvrages scientifiques (ou chapitres) (OS) II.2.7 Ouvrages de vulgarisation (ou chapitres) (OV) II.2.8 Directions d'ouvrages (DO) II.2.9 Autres publications (AP) II.2.10 Autres activités internationales (AI) II.2.11 Information et culture scientifique et technique II.2.12 Valorisation : contrats de recherche, partenariat industriel, créations d'entreprises Pour les brevets, certificats d'obtention végétale et logiciels. Normalisation en cours sur la liste du ministère
Janvier Déposer dans HAL Modalités de dépôt Identification simplifiée Compte auto validé (possibilité dauthentification institutionnelle) Contributeurs : auteurs, documentalistes, etc. Niveau scientifique requis « Tout article qui, soumis à une revue à comité de lecture, serait envoyé à un rapporteur » Vérification avant mise en ligne Vérification technique Validation scientifique sommaire par domaine scientifique Format des documents libre Format visualisable obligatoire (PDF, PS) Fichiers sources recommandés
Janvier Dépôt sans retrait ? Labsence de retrait depuis linterface assure la responsabilisation des dépôts, et donc le niveau scientifique de larchive ouverte (ce nest pas un blog…). Cest absolument essentiel pour lexistence même de larchive. Cela évite des utilisations scientifiques frauduleuses : dépôt de résultats contradictoires pour prendre date avec retrait postérieur des dépôts faux, etc. On ne peut pas citer dans une publication scientifique un texte qui risque à tout moment dêtre retiré par son auteur ! La stabilité des dépôts et des adresses est donc cruciale Lalternative au dépôt sans retrait est la possibilité de déposer de nouvelles versions La dernière version est proposée par défaut au lecteur, mais celui-ci peut toujours accéder aux versions antérieurs
Janvier Déposer dans HAL, responsabilités La responsabilité éditoriale des éditeurs scientifiques et comités de lecture est remplacée par la responsabilité individuelle de lauteur qui présente son travail à la communauté internationale. Comme pour une publication traditionnelle, un dépôt engage la responsabilité du laboratoire et des institutions dont il dépend. Le travail décrit doit être un travail achevé, bien rédigé, comparable à un manuscrit soumis à une revue scientifique. Une archive ouverte nest pas un blog ou un cahier de laboratoire !
Janvier Politique des éditeurs Les éditeurs, sont de plus en plus nombreux à permettre le dépôt en archives ouverte de la version auteur. Depuis mai 2004 : Elsevier « An author may post his version of the final paper on his personal web site and on his institutions web site (including his institutional repository). Each posting should include the articles citation and link to the journal homepage (or the article DOI). The author does not need our permission to do this, but any other posting (e.g to a repository elsewhere) would require our permission. By his version we are referring to his word or tex file, not a pdf or HTML download from science direct, but the author can update his version to reflect changes made during the refereeing and editing process. » K. Hunter senior vice president strategy Elsevier, may 2004
Janvier Respect des éditeurs Certaines conditions doivent être respectées pour déposer sur une archive ouverte comme Hal : On déposera généralement les «fichiers auteur», produits au sein du laboratoire, sauf deux exceptions : il est légal de déposer le « fichier éditeur » ou un scan dun article publié de certaines revues en « open access » on peut le faire également au coup par coup avec lautorisation explicite de léditeur (qui est très souvent accordée). De même un « fichier auteur » ne doit pas être déposé si lauteur a cédé les droits exclusifs (y compris de diffusion électronique) à un éditeur par un contrat explicite quil a signé. De plus, dès quun document est publié, il est recommandé dajouter dans larchive ouverte les références de publication, et le lien DOI vers la publication commerciale Utiliser le dépôt différé de HAL pour respecter la période dembargo de léditeur Noublions pas : les éditeurs commerciaux nont que les droits qui leur sont cédés par les auteurs ! À ceux-ci de ne signer que ce qui est strictement nécessaire!
Janvier HAL, usages Scénario Le chercheur dépose sa pré publication dans larchive Des retours rapides de sa communauté scientifique vont peut être initier de sa part le dépôt dune nouvelle version Cest « presque » avec lassentiment de sa communauté quil dépose sa « pré publication » chez un éditeur Larticle est publié, le chercheur met à jour les références bibliographique dans la base, larticle devient une publication Le chercheur souhaite faire de nouvelles mise à jour de cet article ? Il en dépose une nouvelle version ! post publication Le cycle de vie dun article va donc au-delà de sa publication dans une revue : e-publication ? Les archives ouvertes bouleversent la publication : post publications et pré publications deviennent des notions plus floues, voir différentes !
Janvier Déposer ou que vais-je devoir faire ? 1. Renseigner une fiche de méta données Auteurs et leurs appartenances, titre de larticle, journal dans lequel il est paru, domaine scientifique auquel se réfère larticle, etc. 2. Déposer le ou les fichiers composant le texte intégral de larticle (full text) Selon les disciplines le fichiers peut être Un fichier Word assorti éventuellement de fichiers dimages, un fichier PDF, … Un fichier TeX ou Latex assorti éventuellement de fichiers contenant des figures Si plusieurs fichiers sont nécessaire on pourra les envoyer séparément ou en une seule fois (archive ZIP par exemple) Sans texte intégral le dépôt nest que la notice dun article publié
Janvier HAL, le choix des méta données « à lœil » Lorsque lon regarde un article scientifique, on identifie facilement les méta données essentielles à préserver Titre Résumé Auteurs et affiliation Date Références de publication (si larticle est publié) Si lon ajoute quelques méta données évidentes Classification thématique Mots clés … On obtient un cœur de méta données qui devrait être commun à toute archive
Janvier Méta données disciplinaires HAL générique recueille un cœur de métas données identique pour toutes les disciplines scientifiques Certains portails exploitent des méta données ou des fonctionnalités institutionnelles et disciplinaires ! Exemple HAL-INSERM permet de télécharger les méta données dune notice via le « pubmed_id » HAL générique intègre toutes méta données ou fonctionnalités disciplinaires Toutes les notices dune même discipline sont ainsi homogènes quel que soit le portail utilisé pour le dépôt
Janvier Cohérence des méta données Chaque fois que cela est possible les méta données Seront issues de listes dautorité pouvant provenir Des référentiels institutionnels Listes de laboratoires, duniversités, base LDAP, etc. De listes normalisées Listes des pays, des langues De listes constituées au « fur et à mesure » Listes de journaux Sil existe un référentiel Lalimentation de la liste dautorité devrait être le résultat dun automatisme Mise à jour tous les …
Janvier Méta données techniques Ce sont des méta données « non scientifiques » mais nécessaires ; elles sont généralement attribuées automatiquement Identifiant unique (et URLs associées) Identité du déposant Horodatage du dépôt Historique des modifications des méta données Liens entre les versions Etc.
Janvier Stabilité Stabilité des identifiants La référence dun article en base darchives ouvertes doit pouvoir être consigné dans le texte. Il doit être possible de citer un article en donnant son adresse dans une archive ouverte Des URL courtes et pratiques sont fournies Il importe que lURL de larchive donc des documents contenus soit préservée coûte que coûte !
Janvier Interopérabilité, interconnexions, imports/exports OAI-PMH multi formats dont OAI_DC (Dublin core non qualifié) REDIF pour le moissonnage par RePeC (économistes) RSS Connexions arXiv dans les domaines de physique et mathématiques (biologie), uniquement de HAL vers arXiv Pubmed (HAL-INSERM) Depuis février 2006 facilité dimport de la notice depuis Pubmed Transfert vers Pubmed Central en cours détude Imports Fichiers XML, méta données et texte intégral Web services Exports Listes selon critères de recherches dans tous les formats informatiques usuels « Home page » chercheur Exports institutionnels (Crac, Labintel, Graal, etc.) Web services
Janvier Fichiers texte intégral Méta données Archive ouverte Fichiers texte intégral Méta données Archive ouverte Fichiers texte intégral Méta données Archive ouverte harvester Fournisseur de services Méta données Index,… Fournisseurs de données – Data providers Fournisseur de service – Service provider OAI-PMH en un mot !
Janvier Structure de HAL Quels services peut-on attendre de larchive ?
Janvier Portails de dépôts Texte intégral Notice bibliographique Notice bibliographique HALINRIA HAL-SHS AUTRES UNIV INRA PubMed Central (2006 ) PubMed Central (2006 ) ArXiv Méta données communesMéta données disciplinairesMéta données institutionnelles haLhaL EXPORTS IMPORTS XML, WS TEL génériqu e disciplinaire typologique institutionnel OAI-PMH REDIF RSS Etc.
Janvier Environnements de dépôts HALIN2P3 HAL-SHS AUTRES UNIV INRIA haLhaL EXPORTS IMPORTS XML, WS TEL génériqu e disciplinaire typologique institutionnel OAI-PMH REDIF RSS Etc. Collections personnalisables, extractions, tampons
Janvier référentiel laboratoires référentiel titres de revues Les principaux référentiels de HAL référentiel classification scientifique La classification scientifique est faite par les chercheurs et pour les chercheurs. Le but recherché est davoir un maximum de 2 niveaux arborescents contenant une trentaine ditem au maximum pour une discipline.
Janvier Services WEB : interconnexion dapplications Utilisation du protocole SOAP (Simple Object Application Protocol) Échange de données au format XML Encapsulation du texte intégral en base64 pour son transfert Fournir des méthodes pour quune application informatique extérieure puisse utiliser HAL Lecture des référentiels (laboratoires, thématiques, listes des journaux, etc.) Nécessaire pour préparer lenvoi dun document Dépôt dun document Modification des méta données dun document, ajout des références, etc. Dépôt dune nouvelle version Recherche et lecture dans la base En adhérant au schéma de données de HAL, il devient possible de connecter son propre système documentaire de créer sa propre interface de dépôt
Janvier Services Web, premiers projets Développé par EVER-EZIDA pour le compte de la MISHA Le logiciel FLORA permet de déposer sur HAL sur demande de lutilisateur, le dépôt dun article « pertinent » pour HAL sera automatiquement effectué Disponible depuis novembre 2006 Intégration de HAL dans les ENT des universités Travail en cours avec les universités de Nancy-Metz, lAMUE,… Projets GRAAL, ORI, etc. Utilisation dans un portail de recherche fédéré En cours de réalisation au CIRAD, en étude à luniversité de Lyon 1
Janvier Statistiques de dépôt
Janvier Répartition par domaines scientifiques des dépôts avec texte intégral
Janvier Nombre de dépôts en texte intégral sur lensemble de larchive 6807
Janvier Evolution des dépôts
Janvier Questions ? Documentations utilisateurs et développeurs Tutoriels (vidéos) Manuels Accès aux différents portails (SHS, …) etc. Support utilisateurs (mail)
Janvier Compléments
Janvier Service Web, la publication de STAR dans TEL Au terme du circuit dune thèse dans STAR sa diffusion sera faite dans TEL Si le doctorant avait déjà déposé sa thèse dans TEL (circuit plus court et plus rapide), larrivée de la version STAR produira une version 2 (ou une version n+1) de la thèse dans TEL La thèse déposée par STAR sera labellisée « version officielle » Des différences notables pourront exister : La thèse déposée par le doctorant dans TEL naura peut être pas les corrections demandées par le jury ? La thèse produite par STAR sera peut être expurgée de certain documents (photos, cartes, …) non libres de droit et remplacés par des «fantômes » Mais le lecteur pourra toujours accéder à lensemble des versions Le protocole de dépôt de STAR dans TEL utilisera les web services
Janvier Méta portail Principe Regrouper les portails dune fédération détablissements ou de laboratoires dans un portail unique Proposer une navigation élémentaire Lorsque lon séchappe dans un des portails, on trouve un onglet de retour vers le méta portail En projet pour Le PUL (Pôle Universitaire Lyonnais) Agropolis LInstitut fédératif des neurosciences Etc.