GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell
INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation
LE PAYSAGE DE LA PUBLICATION DES DONNÉES DiGIR / TAPIR très utilisé pour publier des données sur la biodiversité Idée de publier à base de fichier texte simple et comprimé présenté à TDWG Le GBIF lance l’ IPT 1,0 Le GBIF réaménage l’ IPT Le GBIF lance l’ IPT 2.0 La publication des données est enseigné à la formation des nœuds Le points nodaux et les agrégateurs commencent à installer et à utiliser l’ IPT Les jeux de données de type occurrence et checklist ainsi que le nombre d’installations de l’IPT montrent une croissance continue 2011
LE PAYSAGE DE LA PUBLICATION DES DONNÉES - STATISTIQUES No. d’installations de l’IPT enregistrées avec le GBIF
LE PAYSAGE DE LA PUBLICATION DES DONNÉES - STATISTIQUES No. de jeux de données publiées avec l’IPT
LE PAYSAGE DE LA PUBLICATION DES DONNÉES EN 2015 L'engagement continue du GBIF à améliorer l'accès aux données de la biodiversité Le raffinement et l'expansion des normes et des logiciels de publication L'évolution des normes sociales La plupart des données sont encore publiées avec le « core » simple pour occurrences Les portails n’ont pas encore les fonctionnalités pour soutenir les données plus riches De nombreuses institutions ont encore besoin d’ être convaincues de publier des données sur la biodiversité
INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation
QU'EST-CE QUE DES DONNÉES DE BIODIVERSITÉ? Texte numérique ou donnée multimédia détaillant les faits sur l'instance d’occurrence d'un organisme, à savoir sur le quoi, où, quand, comment et par qui de l’occurrence et de l'enregistrement.
QU'EST CE LA PUBLICATION DE DONNÉES? La « publication » consiste à rendre des jeux de données de la biodiversité accessibles au public et découvrable, sous une forme standardisée, via un point d'accès, généralement une adresse Web (URL). IPT ∞
LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ Checklistes Occurrences Metadonnées
LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ – DONNÉES D’ ÉCHANTILLONNAGE Échantillonnage
LES NORMES OU “STANDARDS” ABCD Access to Biological Collection Data (2005) DwC Darwin Core (2009) AC Audubon Core Multimedia Resources Metadata Schema (2013) NCD Natural Collection Descriptions (Draft)
DARWIN CORE recordedBy: Une liste (concaténée et séparée) de noms de personnes, groupes ou organisations responsables de l'enregistrement de l'occurrence originale. Le collecteur ou observateur primaire, en particulier celui qui applique un identifiant personnel (RecordNumber), doit être cité en premier. Exemples: « José E. Crespo », « Oliver P. Pearson | Anita K. Pearson »
DARWIN CORE SIMPLE SIMPLEDWC est une spécification pour une façon particulière d'utiliser les termes Darwin Core - de partager des données sur les taxons et leurs occurrences avec une structure simple - et probablement ce que veux dire quelqu'un qui suggère de "formater vos données conformément à la Darwin Core".
LES ARCHIVES DARWIN CORE Une Archive Darwin Core (DwCA) est la représentation en texte des données formatées à Darwin Core. Une DwCA est un fichier compressé contenant un minimum de trois fichiers.
“STAR SCHEMA” OU SCHÉMA ÉTOILE Ext 2 Core Ext 1 Ext 3 meta.xml EML.xml + DwC Archive Ext 4 Ext 5
“MAPPING CORES” OU FICHIERS CENTRALES Taxon Core La catégorie d'informations relatives aux noms taxonomiques, le nom du taxon, les usages ou les concepts de taxons. Sortie en Avril 2015, cette version supprime dcterms:source and dcterms:rights, et ajoute dcterms: licence. 43 termes. Occurrence Core La catégorie d'informations relatives aux preuves d’une occurrence dans la nature, dans une collection ou dans un jeu de données (de spécimens, d’observations etc.) Sortie en July 2015, cette version supprime les terms dcterms:source, dcterms:rights, dwc:individualID, dwc:occurrenceDetails,et ajoute dcterms:license, dwc:organismQuantity, dwc:organismQuantityType, dwc:organismID, dwc:organismName, dwc:organismScope, dwc:associatedOrganisms, dwc:organismRemarks, dwc:parentEventID, dwc:sampleSizeValue, dwc:sampleSizeUnit. 169 termes. Event La catégorie des informations relatives à un événement d'échantillonnage. Sortie le 29 May termes
EXTENSIONS Darwin Core ne fournit pas de termes pour chaque type de données possible. 22 inscrits 25 en cours de développement Exemples Audubon Media Description (ou “Audubon Core”) Darwin Core Identification History (historique de l’identification) Darwin Core Measurement or Facts (measures ou faits)
EXEMPLE SCHÉMA ÉTOILE - OCCURRENCE Media Occurrence Core Geographica l Determination meta.xml EML.xml + DwC Archive Occurrence Germoplas m
EXEMPLE SCHÉMA ÉTOILE - CHECKLISTES Literature Taxon Core Description Occurrences meta.xml EML.xml + DwC Archive Checklist Vernacular Distribution Types
EXEMPLE SCHÉMA ÉTOILE - ÉCHANTILLONNAGE Event Core Occurrences Measurement/Fact meta.xml EML.xml + DwC Archive Samples Relevé
NORMALISATION DES DONNÉES Quelle est la normalisation des données? Raisons pour normaliser une base de données Formes normales
LA QUALITÉ DES DONNÉES Encodages Outils Pourquoi travailler sur l'amélioration des données? Importance de la rétroaction
MÉTHODES DE PUBLICATION DE DONNÉES la capacité technique Capacité de gestion de données Créer vos propres DwCa Publier avec des tableurs centre d'hébergement de données
MÉTHODES DE PUBLICATION DE DONNÉES
MÉTHODES DE PUBLICATION DE DONNÉES – PREMIER SONDAGE Sondage: Résultats: Quelles des méthodes suivantes avez-vous déjà utilisées pour publier des données en ligne?
MÉTHODES DE PUBLICATION DE DONNÉES - SONDAGES Cet exercice sera expliqué dans la séance
MÉTHODES DE PUBLICATION DE DONNÉES – DEUXIÈME SONDAGE Sondage: Résultats: Quelles des méthodes suivantes utilisez-vous régulièrement à publier des données en ligne? (à savoir l'année dernière)
INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La promotion de la publication de données Les cas d'utilisation
PROMOTION DE LA PUBLICATION DE DONNÉES Sujet de discussion lors de la formation de nœuds à Berlin en Elément clé du travail quotidien de gestionnaires de points nodaux.
PROMOTION DE LA PUBLICATION DE DONNÉES Obstacles psychologiques et culturels 1.Manque de connaissance 2.Manque de compréhension 3.Manque de volonté 4.Valeur perçue des données 5.Questions de confidentialité 6.Absence d’autorisation 7.Manque de temps / planning 8.Manque de moyens 9.Manque de fonds 10.Manque d’infrastructures Obstacles institutionnels Obstacles liés aux ressources Obstacles pratiques
NIVEAUX DE RESTRICTION DE DONNÉES 1.Refus de partager. 2.Refus de partager jusqu'à ce que l'utilisation. prévue des données soit terminée. 3.Partage payant des données. 4.Partage des données avec des restrictions. 5.Partage libre des données.
PROMOTION DE LA PUBLICATION DE DONNÉES - STRATÉGIES 1.Faciliter l'accès à un soutien financier. 2.Appel à des engagements ou des mandats légaux. 3.Appel à un accès ouvert/principes moraux. 4.Montrer les avantages d'une meilleure gestion des données. 5.Montrer les avantages pour les carrières scientifiques. 6.Pression des pairs 7.Démarrer/soutenir de grands programmes de numérisation. 8.Démarrer/soutenir les efforts de rapatriement des données.
PROMOTION DE LA PUBLICATION DE DONNÉES - DISCUSSIONS Stratégies Commencez petit - seulement les méta-données Promotion du fait qu’avec une seule publication au GBIF les données seront ensuite exposées dans de multiples réseaux Fournir des IPTs hébergés pour éliminer les barrières technique Illustrer des licences avec des exemples éloquents. Promouvoir et organiser des formations sur les « data papers » Défis Ne pas voulant publier / ne pas voulant publier toutes les données Exigences/ capacities techniques pour utliser l’IPT Licences restrictives des données
INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation
CAS D’UTILISATION - INTRODUCTION Explorez quatre cas d'utilisation basés sur de pratiques de publication actuelles Littérature Données d'observation Collections d'histoire naturelle Checklistes Remplir deux exercices Définition des stratégies de publication Publier des jeux de données
CAS D’UTILISATION: DONNÉES À BASE DE LITERATURE Blue Group
CAS D’UTILISATION 2: DONNÉES D’OBSERVATIONS Green Group Red Group
CAS D’UTILISATION 3: DONNÉES DE COLLECTION D’HISTOIRE NATURELLE Yellow Group
CAS D’UTILISATION 4: CHECKLISTES TAXONOMIQUES Purple Group
GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell