La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell.

Présentations similaires


Présentation au sujet: "GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell."— Transcription de la présentation:

1 GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell

2 INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation

3 LE PAYSAGE DE LA PUBLICATION DES DONNÉES DiGIR / TAPIR très utilisé pour publier des données sur la biodiversité Idée de publier à base de fichier texte simple et comprimé présenté à TDWG Le GBIF lance l’ IPT 1,0 Le GBIF réaménage l’ IPT Le GBIF lance l’ IPT 2.0 La publication des données est enseigné à la formation des nœuds Le points nodaux et les agrégateurs commencent à installer et à utiliser l’ IPT Les jeux de données de type occurrence et checklist ainsi que le nombre d’installations de l’IPT montrent une croissance continue 2008 200920102011 2012  2011

4 LE PAYSAGE DE LA PUBLICATION DES DONNÉES - STATISTIQUES http://www.gbif.org/ipt/stats No. d’installations de l’IPT enregistrées avec le GBIF

5 LE PAYSAGE DE LA PUBLICATION DES DONNÉES - STATISTIQUES No. de jeux de données publiées avec l’IPT

6 LE PAYSAGE DE LA PUBLICATION DES DONNÉES EN 2015 L'engagement continue du GBIF à améliorer l'accès aux données de la biodiversité Le raffinement et l'expansion des normes et des logiciels de publication L'évolution des normes sociales La plupart des données sont encore publiées avec le « core » simple pour occurrences Les portails n’ont pas encore les fonctionnalités pour soutenir les données plus riches De nombreuses institutions ont encore besoin d’ être convaincues de publier des données sur la biodiversité http://www.gbif.org/page/82104

7 INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation

8 QU'EST-CE QUE DES DONNÉES DE BIODIVERSITÉ? Texte numérique ou donnée multimédia détaillant les faits sur l'instance d’occurrence d'un organisme, à savoir sur le quoi, où, quand, comment et par qui de l’occurrence et de l'enregistrement.

9 QU'EST CE LA PUBLICATION DE DONNÉES? La « publication » consiste à rendre des jeux de données de la biodiversité accessibles au public et découvrable, sous une forme standardisée, via un point d'accès, généralement une adresse Web (URL). IPT ∞

10 LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ http://www.gbif.org/publishing-data/summary#datatypes Checklistes Occurrences Metadonnées

11 LES TYPES DE DONNÉES SUR LA BIODIVERSITÉ – DONNÉES D’ ÉCHANTILLONNAGE http://www.gbif.org/newsroom/news/sample-based-data Échantillonnage

12 LES NORMES OU “STANDARDS” http://www.tdwg.org/standards/ ABCD Access to Biological Collection Data (2005) DwC Darwin Core (2009) AC Audubon Core Multimedia Resources Metadata Schema (2013) NCD Natural Collection Descriptions (Draft)

13 DARWIN CORE http://rs.tdwg.org/dwc recordedBy: Une liste (concaténée et séparée) de noms de personnes, groupes ou organisations responsables de l'enregistrement de l'occurrence originale. Le collecteur ou observateur primaire, en particulier celui qui applique un identifiant personnel (RecordNumber), doit être cité en premier. Exemples: « José E. Crespo », « Oliver P. Pearson | Anita K. Pearson »

14 DARWIN CORE SIMPLE SIMPLEDWC est une spécification pour une façon particulière d'utiliser les termes Darwin Core - de partager des données sur les taxons et leurs occurrences avec une structure simple - et probablement ce que veux dire quelqu'un qui suggère de "formater vos données conformément à la Darwin Core". http://rs.tdwg.org/dwc/terms/simple/index.htm

15 LES ARCHIVES DARWIN CORE Une Archive Darwin Core (DwCA) est la représentation en texte des données formatées à Darwin Core. Une DwCA est un fichier compressé contenant un minimum de trois fichiers. http://rs.tdwg.org/dwc/terms/guides/text/index.htm

16 “STAR SCHEMA” OU SCHÉMA ÉTOILE Ext 2 Core Ext 1 Ext 3 meta.xml EML.xml + DwC Archive Ext 4 Ext 5

17 “MAPPING CORES” OU FICHIERS CENTRALES Taxon Core La catégorie d'informations relatives aux noms taxonomiques, le nom du taxon, les usages ou les concepts de taxons. Sortie en Avril 2015, cette version supprime dcterms:source and dcterms:rights, et ajoute dcterms: licence. 43 termes. Occurrence Core La catégorie d'informations relatives aux preuves d’une occurrence dans la nature, dans une collection ou dans un jeu de données (de spécimens, d’observations etc.) Sortie en July 2015, cette version supprime les terms dcterms:source, dcterms:rights, dwc:individualID, dwc:occurrenceDetails,et ajoute dcterms:license, dwc:organismQuantity, dwc:organismQuantityType, dwc:organismID, dwc:organismName, dwc:organismScope, dwc:associatedOrganisms, dwc:organismRemarks, dwc:parentEventID, dwc:sampleSizeValue, dwc:sampleSizeUnit. 169 termes. Event La catégorie des informations relatives à un événement d'échantillonnage. Sortie le 29 May 2015. 95 termes

18 EXTENSIONS Darwin Core ne fournit pas de termes pour chaque type de données possible. 22 inscrits 25 en cours de développement Exemples Audubon Media Description (ou “Audubon Core”) Darwin Core Identification History (historique de l’identification) Darwin Core Measurement or Facts (measures ou faits) http://tools.gbif.org/dwca-validator/extensions.do

19 EXEMPLE SCHÉMA ÉTOILE - OCCURRENCE Media Occurrence Core Geographica l Determination meta.xml EML.xml + DwC Archive Occurrence Germoplas m

20 EXEMPLE SCHÉMA ÉTOILE - CHECKLISTES Literature Taxon Core Description Occurrences meta.xml EML.xml + DwC Archive Checklist Vernacular Distribution Types

21 EXEMPLE SCHÉMA ÉTOILE - ÉCHANTILLONNAGE Event Core Occurrences Measurement/Fact meta.xml EML.xml + DwC Archive Samples Relevé

22 NORMALISATION DES DONNÉES Quelle est la normalisation des données? Raisons pour normaliser une base de données Formes normales http://www.essentialsql.com/get-ready-to-learn-sql-database-normalization-explained-in-simple-english/http://www.essentialsql.com/get-ready-to-learn-sql-database-normalization-explained-in-simple-english/, http://databases.about.com/od/specificproducts/a/normalization.htm, http://www.dotnet-tricks.com/Tutorial/sqlserver/756N210512-Database-Normalization-Basics.html http://databases.about.com/od/specificproducts/a/normalization.htmhttp://www.dotnet-tricks.com/Tutorial/sqlserver/756N210512-Database-Normalization-Basics.html

23 LA QUALITÉ DES DONNÉES Encodages Outils Pourquoi travailler sur l'amélioration des données? Importance de la rétroaction http://community.gbif.org/pg/pages/view/48546/precourse-activities

24 MÉTHODES DE PUBLICATION DE DONNÉES la capacité technique Capacité de gestion de données Créer vos propres DwCa Publier avec des tableurs centre d'hébergement de données

25 MÉTHODES DE PUBLICATION DE DONNÉES

26 MÉTHODES DE PUBLICATION DE DONNÉES – PREMIER SONDAGE Sondage: http://etc.ch/dQ68 Résultats: http://directpoll.com/r?XDbzPBd3ixYqg8RE6D9gU3CMFoU9fqOuh9n0P5P6 Quelles des méthodes suivantes avez-vous déjà utilisées pour publier des données en ligne?

27 MÉTHODES DE PUBLICATION DE DONNÉES - SONDAGES Cet exercice sera expliqué dans la séance 

28 MÉTHODES DE PUBLICATION DE DONNÉES – DEUXIÈME SONDAGE Sondage: http://etc.ch/re74 Résultats: http://directpoll.com/r?XDbzPBd3ixYqg8xmOHP25WFCV81TJYwb1aGgrVyX5 Quelles des méthodes suivantes utilisez-vous régulièrement à publier des données en ligne? (à savoir l'année dernière)

29 INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La promotion de la publication de données Les cas d'utilisation

30 PROMOTION DE LA PUBLICATION DE DONNÉES Sujet de discussion lors de la formation de nœuds à Berlin en 2013. Elément clé du travail quotidien de gestionnaires de points nodaux.

31 PROMOTION DE LA PUBLICATION DE DONNÉES Obstacles psychologiques et culturels 1.Manque de connaissance 2.Manque de compréhension 3.Manque de volonté 4.Valeur perçue des données 5.Questions de confidentialité 6.Absence d’autorisation 7.Manque de temps / planning 8.Manque de moyens 9.Manque de fonds 10.Manque d’infrastructures http://www.gbif.org/publishing-data/benefitshttp://www.gbif.org/publishing-data/benefits, http://www.gbif.org/resource/81196http://www.gbif.org/resource/81196 Obstacles institutionnels Obstacles liés aux ressources Obstacles pratiques

32 NIVEAUX DE RESTRICTION DE DONNÉES 1.Refus de partager. 2.Refus de partager jusqu'à ce que l'utilisation. prévue des données soit terminée. 3.Partage payant des données. 4.Partage des données avec des restrictions. 5.Partage libre des données.

33 PROMOTION DE LA PUBLICATION DE DONNÉES - STRATÉGIES 1.Faciliter l'accès à un soutien financier. 2.Appel à des engagements ou des mandats légaux. 3.Appel à un accès ouvert/principes moraux. 4.Montrer les avantages d'une meilleure gestion des données. 5.Montrer les avantages pour les carrières scientifiques. 6.Pression des pairs 7.Démarrer/soutenir de grands programmes de numérisation. 8.Démarrer/soutenir les efforts de rapatriement des données.

34 PROMOTION DE LA PUBLICATION DE DONNÉES - DISCUSSIONS Stratégies Commencez petit - seulement les méta-données Promotion du fait qu’avec une seule publication au GBIF les données seront ensuite exposées dans de multiples réseaux Fournir des IPTs hébergés pour éliminer les barrières technique Illustrer des licences avec des exemples éloquents. Promouvoir et organiser des formations sur les « data papers » Défis Ne pas voulant publier / ne pas voulant publier toutes les données Exigences/ capacities techniques pour utliser l’IPT Licences restrictives des données http://community.gbif.org/pg/forum/topic/48616/precourse-activity-promoting-data-publishing/

35 INDEX Le « paysage » de la publication des données La publication des données sur la biodiversité Les types de données Les normes de données La normalisation des données et la qualité des données Les méthodes de publication des données La -promotion de la publication de données Les cas d'utilisation

36 CAS D’UTILISATION - INTRODUCTION Explorez quatre cas d'utilisation basés sur de pratiques de publication actuelles Littérature Données d'observation Collections d'histoire naturelle Checklistes Remplir deux exercices Définition des stratégies de publication Publier des jeux de données

37 CAS D’UTILISATION: DONNÉES À BASE DE LITERATURE Blue Group

38 CAS D’UTILISATION 2: DONNÉES D’OBSERVATIONS Green Group Red Group

39 CAS D’UTILISATION 3: DONNÉES DE COLLECTION D’HISTOIRE NATURELLE Yellow Group

40 CAS D’UTILISATION 4: CHECKLISTES TAXONOMIQUES Purple Group

41 GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell


Télécharger ppt "GB22 TRAINING EVENT FOR NODES – 4 OCTOBER 2015 Séance 02: Le paysage de la publication de données en 2015 Laura Russell."

Présentations similaires


Annonces Google