Caroline Patenaude Bibliothécaire Bibliothèque des lettres et sciences humaines 7 mai Dataverse 101
2 Application web développée par l’Institute for Quantitative Social Science en collaboration avec Harvard Library et Harvard University Information Technology. Objectif > permettre : –le partage; –la citation; –la préservation; –l’analyse; …des données de recherche –Réseau de dépôts de données de recherche qui offre un espace sur le web (gratuit et en anglais seulement) où les chercheurs peuvent déposer leurs données et la documentation associée. QU’EST-CE QUE C’EST?
3 –Se distingue des dépôts institutionnels car développé spécifiquement en fonction des données de recherche. –Sélection de métadonnées spécialisées pour les données de recherche (méthodologie, limites géographiques, période de collecte de données, publications associées, organismes subventionnaires, …). –Optimisé pour les formats de données quantitatives (excel, R, Stata, SPSS, tab, …) mais peu accueillir tous formats de fichiers – audio, images, « formats qualitatifs » (transcriptions, notes de terrain, …). pas de limite de nombre ou poids de fichiers par Dataverse PARTICULARITÉS Option entièrement DIY : aucun service de data curation > usager responsable du nettoyage de ses données, qualité des métadonnées, protection de la confidentialité, propriété intellectuelle, … Avantages: flexibilité, efficacité, auto-gestion, peut être aussi détaillé ou minimaliste que voulu, tout dépendant des besoins. Désavantages: lourdeur, qualité relative (d’où nécessité d’un DMP).
4 2 options 1.Créer un Dataverse (institutionnel ou personnel) sur le Serveur Harvard ou autre réseau d’hébergement. 2.Installer un réseau Dataverse local (Open source - GitHub) > exemple: Scholar’s Portal (serveur UToronto).GitHub Option 2 donne plus de contrôle (paramétrage, personnalisation institutionnelle), mais nécessite plus de ressources (espace serveur, installation, gestion, mises à jour, backups…). -Certaines instances, dont Harvard et SP sont entièrement ouvertes, n’importe qui peut s’y créer un Dataverse. Aucune permission n’est nécessaire. Nécessite simplement de se créer un compte pour chaque instance. INFRASTRUCTURE
5 ARCHITECTURE D’UN RÉSEAU DATAVERSE Hébergement: Harvard ou autre réseau hôte Harvard BLSH Jean Renaud Recherche Francos/anglos Recherche Réfugiés
A Dataverse is a container for research data studies, customized and managed by its owner.Dataverse STRUCTURE D’UN DATAVERSE BLSH Renaud Recherche 1 Recherche 2 Recherche 1 métadonnées questionnaires, rapports, … SPSS, xls, stata Codage SPSS
7 QUI L’UTILISE? Universités Scholars Portal Dataverse Network UAL Dataverse Network Centres de recherche/dépôts universitaires thématiques Ethnography Lab Dataverse World Historical Dataverse Agri-environmental research data repository Dataverse Agri-environmental research data repository Dataverse Queen's University Biological Station Data Archive Dataverse Queen's University Biological Station Data Archive Dataverse Bibliothèques MIT Libraries Dataverse Chercheurs individuels Murray Research Archive Original Collection Dataverse Murray Research Archive Original Collection Dataverse Jonathan Miller Dataverse (Research Project on Computational Chemistry) Jonathan Miller Dataverse Périodiques American Journal of Political Science (AJPS) Dataverse Autres dépôts de données [Harvested archives] Odesi ICPSR Roper STATCAN - Statistics Canada Dataverse Avril 2015: 1006 Dataverses > Datasets
8 Différents niveaux de permission: 1. Dataverse 2. Études (Datasets – par défaut CC0 Waiver)CC0 Waiver 3. Fichiers CONTRÔLE DES DROITS D’ACCÈS Interdire l’accès à une étude complète, Limiter l’accès à certains fichiers d’une étude (doc ouvert/data fermé). Available on request via courriel. Création de groupes d’accès. Processus de révision avant publication Ajout de Terms of Use (Confidentiality Declaration, Restrictions, Special Permissions,...)
9 Chaque fois qu’un fichier de données est mis à jour, garde trace des anciennes versions - archived study version (une fois publié, suppression complète d’un fichier impossible). Permet la création de Guestbooks: récolte information sur téléchargements de datasets - nom des usagers, affiliation, questions pré-téléchargement (utilisation des données?). Préservation à long terme – système LOCKSS (projet Archivematica ?) Archivematica CYCLE DE VIE DES DONNÉES/PRÉSERVATION
10 Attribution automatique d’un format de citation et DOI – non enregistré (donc non fonctionnel) jusqu’à publication. AUTEUR(S), TITRE, ANNÉE, DÉPÔT (OU DISTRIBUTEUR), VERSION. + DOI (OU HDL) ET UNF. CITATION
11 MÉTADONNÉES Conformité: Dublin Core, DataCite, DDI description de l’étude Sélection de standards dans différents domaines (Astronomy & Astrophysics Metadata, Biomedical Metadata, Social Science & Humanities Metadata, Geospatial Metadata) Option de créer un template et de sélectionner les champs, déterminer si obligatoires ou facultatifs. Sélection de champs pour facettes. Indexées par google.
12 Dataverse User Guide Re3data.orgRe3data.org - Registry of Research Data Repository DataciteDatacite > DOI Citation FormatterDOI Citation Formatter Guide to Social Science Data Preparation and Archiving Guide to Social Science Data Preparation and Archiving (ICPSR) LECTURE