Les archives ouvertes L’Archive HAL daniel.charnay@ccsd.cnrs.fr
De quoi parle-t-on ? Mettre à disposition librement toute la littérature scientifique En texte intégral (Notices bibliographiques ) Type de littérature Publications dans des revues avec ou sans comité de lecture Actes de congrès, séminaires, … Livres, chapitres de livre, ouvrages, … Brevets Thèses, mémoires Etc. Avec les documents multi médias associés le cas échéant
Phrases clés, mots clés Libre accès aux résultats de la recherche Gratuité Accessibilité Publications électroniques E-print (preprint + postprint) Communication scientifique directe (CSD) Un circuit court entre les chercheurs pour faire connaître leur résultats (et prendre date pour leur recherche) Auto archivage Les chercheurs déposent eux-mêmes leurs articles sur des bases ouvertes Interopérabilité On met en œuvre des moyens pour « tenter » l’interconnexion des bases d’articles scientifiques
Définition de l’archive ouverte Libre accès pour le dépôt Identification « légère » du contributeur Niveau scientifique requis, mais pas d’évaluation Document sous forme numérique dans un format accessible Libre accès pour la consultation Depuis Internet, sans aucune restriction Pré-publications Ensemble des versions de l’article dont la dernière est habituellement celle acceptée par la revue Éventuellement article non soumis pour publication Post-publication Pré-publication à laquelle on a ajouté les références de publication Publication dans la forme ultime soumise et acceptée par la revue
Les souhaits du chercheur Des résultats plus visibles sont des résultats plus cités Les souhaits du chercheur Communiquer rapidement son travail scientifique, prendre date pour ses travaux Avoir accès immédiatement à toute l’actualité scientifique depuis un seul portail Bénéficier d’alertes automatiques dans les domaines scientifiques de son choix Pouvoir se constituer des collections scientifiques personnalisées Conserver les journaux traditionnels et l’évaluation par les pairs Au passage, se simplifier les tâches administratives: listes de publications, rapports d’activité, candidatures à des postes, etc.. Un seul dépôt
Les laboratoires, les établissements, souhaitent Suivre ce qui se fait sur le plan scientifique dans leurs établissements et exposer leurs production scientifique. Communiquer commodément aux collègues étrangers les mémoires de thèse Eviter à des secrétariats surchargés de multiples saisies Obtenir automatiquement des listes de publications pour les contrats quadriennaux, les rapports à un ou deux ans, etc.. Un laboratoire a souvent beaucoup d’établissements de rattachement (Université, EPST, grande école, etc.)
Les archives ouvertes pour l’institution La réussite de l’archive passe par un compromis satisfaisant à la fois les chercheurs mais aussi les institutions Une archive ne devrait pas être spécifiquement institutionnelle, mais ... L’incitation au dépôt doit être institutionnelle Les méta données recueillies sont suffisantes pour ... Disposer d’une vue institutionnelle Mesurer la production Aider à l’évaluation des chercheurs Etc. L’archive reste ouverte A tous les chercheurs quelque soit leur pays ou leur institution L’archive reste un instrument scientifique
Types d’archive Si, lors d’un dépôt ou ultérieurement, on collecte Un classement thématique de l’article déposé Des informations spécifiques Appartenance à un congrès, une revue électronique, etc. Une information exhaustive sur les auteurs Affiliations (établissement, université, école, laboratoire, équipe,…) Alors l’archive ouverte pourra proposer des vues Thématiques ou disciplinaires Des collections de journaux, d’actes de congrès, Institutionnelles à différents niveaux Travaux de l’équipe xxx Publications de l’université yyy ou de l’établissement zzz
Recueillir des publications et leurs méta données L’acteur principal du système est le chercheur Il détient la version électronique de sa publication Il est le seul à pouvoir donner un certain nombre d’informations sur sa publication Résumé, mots clés, classification, … Le chercheur N’est pas motivé pour remplir de fastidieux formulaires de méta données Le choix de méta données restera donc le plus concis possible et le maximum d’informations sera issu de listes d’autorités Reste à convaincre de l’opportunité de déposer dans une archive ouverte Les professionnels de la documentation Doivent accompagner le chercheur dans cette démarche Aider au dépôt et au besoin intervenir sur les méta données Etre soutenus par l’institution, le laboratoire, …
Les devoirs de l’institution Si l’institution met en place une archive, elle doit veiller A ce que le dépôt d’articles, assorti des références bibliographiques, ne soit demandé qu’une seule fois au chercheur Tout document administratif nécessitant un liste de publication s’alimentera automatiquement dans cette archive La demande de dépôt doit apparaître essentiellement comme un acte scientifique Le chercheur doit ressentir l’archive comme un moyen d’accès aux travaux de ses collègues L’institution doit se préoccuper De l’archivage à long terme des documents qui lui sont confiés De la disponibilité de l’archive et de sa sécurité De l’indépendance de l’opérateur vis-à-vis des déposants Horodatage, validation, qualité des dépôts
ArXiv, le modèle depuis plus de 10 ans Initiative de Paul Ginsparg à Los Alamos (xxx) 4 000 manuscrits déposés par mois 500 000 manuscrits déposés à ce jour 300 000 consultations journalières Des sites miroirs dans le monde entier Australie, Brésil, Chine, Allemagne, Inde, Israël Italie, Japon, Russie, Afrique du Sud, France Corée du Sud, Espagne, Taiwan, Angleterre,…
Les missions du CCSD Une initiative pour des archives scientifiques ouvertes Une approche internationale : Ne pas construire une archive nationale, mais s’intégrer dans le mouvement « open archives » Une approche essentiellement « chercheur » Des archives alimentées directement par les chercheurs avec, comme vocation première, la réalisation d’un outil scientifique offrant l’accès au document intégral Un outil administratif indirect grâce à la collecte « au passage » de méta données suffisantes Une mission d’archivage à long terme Un accord cadre est en cours de finalisation entre les EPST françaises (INRIA, INSERM, INRA, IRD, etc. et la CPU, la CGE
Sur une plate-forme unique …URL’S HAL http://hal.ccsd.cnrs.fr http://tel.ccsd.cnrs.fr http://halshs.ccsd.cnrs.fr http://democrite.in2p3.fr http://archive-edutice.ccsd.cnrs.fr http://hal.inria.fr/ http://hal-inserm.ccsd.cnrs.fr/ http://artxiker.ccsd.cnrs.fr/ http://etol.ccsd.cnrs.fr http://cel.ccsd.cnrs.fr http://nicod.in2p3.fr/ http://asic.ccsd.cnrs.fr/ http://hal-ens-lyon.ccsd.cnrs.fr/ Etc.
L’archive ouverte HAL Statistiques 2005
Répartition par domaines scientifiques des dépôts avec texte intégral en 2005
Nombre de dépôts en texte intégral sur l’ensemble de l’archive
Nombre de dépôts en texte intégral sur HAL-SHS
Nombre de dépôts en texte intégral sur Démocrite@HAL (IN2P3) Une partie des données provient de l’ancienne application Démocrite
Nombre de dépôts en texte intégral sur le serveur de thèses en lignes TEL.
Nombre de dépôts en texte intégral sur l’archive Edutice
Dépôts en texte intégral sur HAL-INRIA
Ensemble des dépôts, texte intégral et notices sur l’ensemble de l’archive
http://www.ccsd.cnrs.fr Questions ? Questions ? Daniel.charnay@ccsd.cnrs.fr
Structure de HAL
Les objectifs recherchés 1 Archive multidisciplinaire orientée « texte intégral » Une seule base de données pour l’ensemble des disciplines Dépôt du texte intégral mais aussi de notices et de rétro dépôts Orientée « chercheurs » Autoarchivage, mais possibilité d’enrichissement des méta données par des professionnels Centralisée mais … … Multi interfaces Préservation de l’identité Méta données « variables » au-delà de la DTD minimum Environnements de dépôt et de consultation personnalisés Tampons Internationale Interconnectée avec les autres systèmes de références ArXiv en physique / mathématiques / informatique / biologie / … PubMed Central en médecine et biologie (2006)
Les objectifs recherchés 2 Mesurabilité de la production scientifique Des laboratoires, des institutions et plus globalement, de toutes les tutelles À disposition des déposants mais aussi des institutions Génération des listes de publications dans tous formats (XML, TeX, DOC/RTF, PDF, …) Transferts vers les bases « administratives » Alimentation de CRAC (fiche chercheur CNRS) Alimentation de Labintel publications Pérennité Archivage à long terme Stabilité des URLs
Méta données spécifiques Méta données obligatoires AUTRES INRA INRIA IN2P3 SHS/TICE HAL EXPORTS IMPORTS OAI haL Texte intégral Notice bibliographique Méta données spécifiques PubMed Central (2006) ArXiv Méta données obligatoires
? haL ? ? ? AUTRES INRA INRIA IN2P3 HAL OAI Réponse SHS/TICE EXPORTS IMPORTS OAI haL Réponse
? haL AUTRES INRA INRIA IN2P3 HAL OAI Réponse IN2P3 SHS/TICE Méta données HAL SHS/TICE EXPORTS IMPORTS OAI haL Réponse IN2P3
haL TEL AUTRES INRA INRIA IN2P3 HAL TICE 2005 OAI ArXiv Notice EXPORTS IMPORTS OAI haL Texte intégral Notice bibliographique PubMed Central (2006) ArXiv
Dépôt Simplification 4 étapes Méta données Auteurs, laboratoires, tutelles et association [téléchargement du document] Récapitulation contrôle, dépôt Retour en arrière possible métadonnées auteurs fichiers récapitulation 2
Dépôt Choix des étapes L’ordre des étapes peut être paramétré au niveau d’une interface particulière Par exemple, on peut décider de commencer par le téléchargement du fichier, afin d’en extraire automatiquement … …La liste d’auteurs …Le résumé …Les références bibliographiques …Etc. Ces possibles automatismes dépendent fortement du niveau de structuration du document source, (donc de la discipline ?) auteurs fichiers récapitulation méta données Extraction automatique
http://ccsd.cnrs.fr Questions ? Questions ? Daniel.Charnay@in2p3.fr