Université Gamal Abdel Nasser (UGAN), Conakry 15 – 18 novembre 2016

Slides:



Advertisements
Présentations similaires
GB18 training sessions, Buenos Aires, Argentine Outils et ressources pour évaluer et améliorer l’aptitude des données à être utilisées Nicolas Noé
Advertisements

Michael IT Engineer GBIF France Buenos Aires (Argentina) 28 September 2011 Formation sur la publication des données de biodiversité.
Formation GBIF France dans le cadre d’Ecoscope – Valoriser ses données d’observation sur la biodiversité : qualité, standards et publication Paris,
Bibliothèque Centrale de l’École Polytechnique Session pratique Recherches documentaires en sciences dures PSC 2011 septembre/octobre 2011 Denis Roura,
Making PowerPoint Slides Avoiding the Pitfalls of Bad Slides.
PERFORMANCE One important issue in networking is the performance of the network—how good is it? We discuss quality of service, an overall measurement.
1 Contrôle des données stations. GPS 20/11/ Objectifs et état des lieux Objectifs: –Contrôler la qualité des données stations des agences avant.
La Planète a besoin de vous. 1. List 3 environmental problems mentioned:  l’eau est pollué  les plantes disparaît  les mers sont sales  l’air est.
IP Multicast Text available on
Subject: CMS(Content Management System) Université Alioune DIOP de Bambey UFR Sciences Appliquées et Technologies de l’Information et de la Communication.
Utilisation du logiciel EduStat©
Présentation de Maxent
GBIF : Global Biodiversity Information Facility
Le réseau GBIF et le point nodal GBIF France
Titre: Révision lundi, le 17 octobre 2016
Interprétation des indicateurs?
Introduction à la qualité des données et à l’adéquation à l’usage
OBIS/Ocean Teacher Global Academy (OTGA) - (RTC-SN)
Formation sur la publication des données de biodiversité dans le réseau GBIF et leur aptitude à être utilisées , édition 2011 Comment le DwC-A a changé.
Contrôle de Qualité de Données Marines
Objectif: Aujourd’hui nous allons élargir nos connaissances culturelles All will have learnt about French cultural habits at this time of the year and.
What about discrete point skills?
Êtes-vous terrorisés par la pollution ?
Collecte de données CAPI
AP Examen Pratique commentaires
Work: ISA8895 Implementation Section: Interoperability Chapter: B2O
Speaking Exam Preparation
Theme Two Speaking Questions
The nation now known as The Democratic Republic of Congo was at one time the personal property of the King of Belgium.
French is spoken by approximately 120 million people in Africa.
Méthodes pour améliorer la qualité des données de biodiversité
L’impératif ( = command forms)
Les pentes sont partout.
Technologies de l’intelligence d’affaires Séance 14
Why is it important to plan ahead for the future?
- User case - 3D curve length optimization
Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics.
Theme Two Speaking Questions
Theme One Speaking Questions
Démarrage avec iNaturalist
Les gammes de valeurs des paramètres
Approvisionnement et Traitement Campagne CPS 2015 Qu’avons-nous appris Approvisionnement et Traitement Campagne CPS 2015 Qu’avons-nous appris? Tchad.
There are so many types of sports. For example-: Basketball,volleyball, cricket, badminton, table tennis, football, lawn tennis etc.
POPULATION GROWTH IN AFRICA EXHIBITOR: Papa Abdoulaye Diouf.
1 ISO/TC 176/SC 2/N1219 ISO 9001:2015 Revision overview - General users July 2014.
Essai
Le soir Objectifs: Talking about what you do in the evening
Generating Random Genomic Sequences and Structures with GenRGenS
Pato et Elly font du sport aussi.
Nous allons apprendre…
Information available in a capture history
Azzedine Bouderbane Nadjia Gamouh Teboura Benkaid Kesba
J’aime ma culture francophone, j’aime notre façon d’être, notre joie de vivre, nos traditions, nos manies. Je veux que mes enfants vivent ça et qu’ils.
Quelle est la date aujourd’hui?
J’aime ma culture francophone, j’aime notre façon d’être, notre joie de vivre, nos traditions, nos manies. Je veux que mes enfants vivent ça et qu’ils.
Roots of a Polynomial: Root of a polynomial is the value of the independent variable at which the polynomial intersects the horizontal axis (the function.
Mettez vos devoirs dans la boîte rouge prennez les devoirs 2.2 B
Quelle est la date aujourd’hui?
1-1 Introduction to ArcGIS Introductions Who are you? Any GIS background? What do you want to get out of the class?
Question formation In English, you can change a statement into a question by adding a helping verb (auxiliary): does he sing? do we sing? did they sing.
Making PowerPoint Slides Avoiding the Pitfalls of Bad Slides.
Dans ma Salle de classe
1 Sensitivity Analysis Introduction to Sensitivity Analysis Introduction to Sensitivity Analysis Graphical Sensitivity Analysis Graphical Sensitivity Analysis.
Le Passé Composé (Perfect Tense)
Les Mots Intérrogatifs
A. André1,2 ; A. Mouton1 ; V. Millien2 ; J. Michaux1
Presentation plan 1. Our journey in RPL 2. Our methodology
Journée 2ème: introduction
Récapitulation du jour 2ème
IMPROVING PF’s M&E APPROACH AND LEARNING STRATEGY Sylvain N’CHO M&E Manager IPA-Cote d’Ivoire.
Transcription de la présentation:

Formation sur la qualité, la publication et l’utilisation de données sur la biodiversité Université Gamal Abdel Nasser (UGAN), Conakry 15 – 18 novembre 2016 Méthodes et outils pour améliorer la qualité des données de biodiversité Nous parlerons aussi de qualité des données, ces 2 concepts sont très largement corrélés. GBIF France (gbif@gbif.fr) Basé sur la présentation de Nicolas Noé – niconoe@ulb.ac.be pour GB18 training sessions – Buenos Aires, Argentine (sept 2011

Aperçu Guide des bonnes pratiques Données sensibles Spécificités GBIF Données taxonomiques Données spatiales / géographiques Données sensibles Spécificités GBIF

Pour les données taxonomiques Bonnes pratiques Pour les données taxonomiques

Données taxonomiques Certitude d’identification Conception de la base de données: Flag de vérification, nom et date Attention aux termes "aff.", "cf.", "s.lat", ... Si pas identifié par expertise taxonomique, enregistrer l’information: Clés taxonomiques Analyses ADN Révision d’un groupe taxonomique  ... Verification level flag: for example in the HISPID standard:  Values in Field Meaning 0 (zero) The name of the record has not been checked by any authority 1 The name of the record determined by comparison with other named plants 2 The name of the record determined by a taxonomist or by other competent persons using herbarium and/or library and/or documented living material 3 The name of the plant determined by taxonomist engaged in systematic revision of the group 4 The record is part of type gathering or propagated from type material by asexual methods Comments: If it is not known whether the name of the record has been verified by an authority, then this field must not be filled. "aff.", "cf.", "s.lat": variations betweens authors, institutions, time, ... 4

Données taxonomiques Certitude d’identification Saisie des données: Utilisation de checklists Utilisation de fichiers d’autorité Détection d’erreurs: Nécessite généralement un expert Les valeurs géographiques ou environnementales extrêmes (outliers) peuvent aider à détecter les déterminations aberrantes Data entry: Proper UI is not enough taken in consideration and can provides tremendous improvements for data entry If we find geo outliers, it's generally error in lat/lon, but it also can be due to an identification errors. This analysis cannot solve the taxonomic errors, but it can help prioritizing future taxonomic reviews. 5

Données taxonomiques Erreurs orthographiques – nom scientifique Conception de la base de données Standardiser au maximum Fichiers d’autorité Globaux, régionaux ou par groupe Duplicatas Interface dédiée pour la détection (+flag) Atomiser: genus, species, author, year, certainty, … Autorité globale: species2000 Autorité par groupe: fishbase 6

Données taxonomiques Erreurs orthographiques – rang infra-spécifique Standardiser ! Toujours séparer rang (sp, subsp.,) et valeur (« parimeda ») pour Éviter les ambiguïtés Faciliter les vérifications Les problèmes de rang sont plutôt pour les plantes (pour animaux, on se limite généralement aux sous espèces) 7

Données taxonomiques Rang infra-spécifique- saisie des données Liste pré-remplie Choix restreints:

Cultivars et hybrides Cas complexes et variables: nécessité d’une base de données sur mesure ! Cultivars: code de nomenclature dédié. Ajouter un flag “cultivar?” et un “hybride?” 9

Données taxonomiques Espèce non publiée – A éviter Éviter la confusion avec un nom accepté (pas de nomenclature binomiale pour éviter les erreurs) Éviter la confusion entre spécialistes ou institutions (sp1, sp2, …) Ce slide est pour quand on doit parler d’une espèce, mais il n’y a pas encore de nom accepté pour celle-ci 10

Prostanthera sp. Somersbey (B.J. Conn 4024) Données taxonomiques Espèce non publiée – Bonnes pratiques "<Genus> sp. <colloquial name or description> (<Voucher>)" Prostanthera sp. Somersbey (B.J. Conn 4024) Avantages Ne ressemble pas à un nom publié Pas de confusion entre institutions Peut devenir ultérieurement synonyme Peu de chances de confusion en dehors du monde scientifique En dehors du monde scientifique: par exemple, législation sur les espèces invasives 11

Données taxonomiques Espèce non publiée – Noms communs Très complexe à standardiser: Un taxon = souvent plusieurs noms Un nom = parfois différents taxons Solution: ne pas standardiser (mais documenter très largement) ! Parfois, plusieurs noms différents dans la même région Un taxon, différents noms selon les gens, les lieux, les époques… Autres prob courants: char encoding, transcription phonétique 12

Données taxonomiques Noms des auteurs A renseigner dans des champs séparés: Genre, espèce, auteur et années Pour la nomenclature, tenir compte des différences entre zoologie (genre + espèce + auteur + année) et botanique (genre + espèce + auteur sans l’année) 13

Données taxonomiques Auteur – méthodes de vérification Standard pour les abréviations (plantes) afin d’éviter les doublons Fichiers d’autorité pour l’orthographe (référentiels, bibliographie…) Auteurs manquants  à compléter 14

Données taxonomiques Nom de collecteur La forme doit être standardisée : nom de famille avec initiale en majuscule, initiales en majuscules séparées par des points Ex : Grandidier, A. 15

Données taxonomiques Collecteur: recherche d’erreurs Rechercher des variations mineures (voir la démonstration d’Open Refine) Comparaisons à d’autres bases: historiques, bibliographiques,… Chercher des variations mineures: facile si un format standard a été respecté (on pourra alors trier facilement par ordre alphabétique) (on verra comment faire ça avec google refine aussi) Comparaison à d’autres bases: on peut se servir de données d‘historiens ou d’itinéraires de bateaux qui sont connus 16

Pour les données spatiales Bonnes pratiques Pour les données spatiales

Données spatiales Souvent, beaucoup trop de choses dans les champs localité/distribution. Eurasia: throughout Europe to northernmost extremity of Scandinavia, except Iberian Peninsula, central Italy, and Adriatic basin; Aegean Sea basin in Matriza and from Struma to Aliakmon drainages; Aral Sea basin; Siberia in rivers draining the Arctic Ocean eastward to Kolyma. Widely introduced. Several countries report adverse ecological impact after introduction. (distribution de Perca Fluviatilis selon fishbase)

Données spatiales Coordonnées décimales (ex: 21.339) 21°20ʹ20ʺ (DD°MMʹSSʺ ) 21:20:21 12°25m 12d25 30' 50'' W North 21 deg 20 min 11,453 sec N 21 25,568150° Coordonnées décimales: plus précises, et on évite les erreurs de transcription car souvent stocké sous ce format au final ! Never take GPS coordinates without a locality (there would be no way to validate or invalidate the coordinates if in doubt) Toujours noter la localité en plus des coordonnées GPS pour confirmer les coordonnées en cas de doute 19

Données spatiales Datum (type de géoïde + ellipsoïde), système de coordonnées (géographique ou planes) et projection utilisée SRS (Spatial Reference System/systèmes de coordonnées géoreférencées) Information à documenter!

Données spatiales Autres informations à fournir : Précision (rapportée par le GPS): nombre de décimales Incertitude spatiale (en mètres si possible): erreurs de géolocalisation (GPS variable de 2 à plus de 20 mètres) Nom de le lieu plus proche + distance + direction + méthode de géoréférencement Méthode de géoréférencement (Differential) GPS: erreur de 10cm a 15m. ‘Normal’ GPS: erreur de 2 à 20 mètres. Via carte et triangulation (+échelle) A posteriori, via un logiciel de géoréférencement (Système d’Information Géographique)

Données spatiales Détection et correction des erreurs Tests internes: localité, pays… Tests envers des données externes: cohérence des noms des lieux visités par le collecteur ? (ex: www.geonames.org pour télécharger base de donnés des noms géographiques; également services web) Tests via un SIG: test point-dans-polygone ? (terrestre ou marin, pays, régions visités par le collecteur …) Recherche de valeurs extrêmes (outliers): géographiques ou environnementales

Données spatiales Localité: bonnes pratiques Noms aussi spécifiques que possible: Non-ambigus (homonymies, lieux-dits…) Courts si possible Facile à trouver Référence des lieux stables et connus Distance et direction depuis cette référence « 2.1km N et 5.1 km E de la la ville de X … » « A presque 650 mètres de la (petite) rivière Y »

Pour les données sensibles Bonnes pratiques Pour les données sensibles

Données sensibles Généralisation – pourquoi ? Protéger les espèces menacées, d’importance économique, réduire l’impact sur les populations sauvages, … Éviter la collecte non-scrupuleuse, le braconnage, encadrer la bio-prospection,… Protéger les données externes détenues par l’institution Conserver un avantage compétitif (publications et recherche) Crainte d’un usage inapproprié des données Respect … 25

Données sensibles Généralisation – considérations générales Aspect social = obstacle principal Composante régionale Législation du pays La documentation est primordiale - First point is about granting access to the sensitive data: who are assigned what roles, how does one recognise a bona-fide user, ... Regional aspects: legisltation, cultural believes, traditions, ... Documentation: see next slide 26

Données sensibles Généralisation – la doc. est primordiale Décrire comment et pourquoi les données ont été généralisées permet à l’utilisateur de: Savoir que les données ont été modifiées et de quelle façon Savoir qu’il sera peut-être possible d’obtenir des données plus détaillées Décider d’ignorer ces données si elle ne conviennent pas à l’usage qu’on veut en faire, des les utiliser telles quelles ou de chercher des informations supplémentaires 27

Données sensibles Généralisation – comment faire Données spatiales Utilisation d’une grille 3 niveaux recommandés par Chapman & Wieczorek (2006): 0.1 degrés (11-16 km) - 0.01 degrés (1.1-1.6km) - 0.001 degrés (112-157m) Cas critiques: non publiés Données non-spatiales A remplacer par une formulation appropriée (ex : donnée non renseignée pour des raisons légales) afin d’éviter les confusions avec les valeurs « nulles » (non renseignées) Ne pas restreindre les données de collection  appropriate wording: i.e:"name suppressed for reasons of privacy" (to avoid mismatch with "null values") data on collection: keep things such as collection number to avoid restricting data validation procedures 28

Données sensibles Généralisation – quoi ? Localité ou coordonnées (cas le plus répandu) Autres champs: informations taxonomiques, identité du collecteur, information sur les habitats, usage traditionnels… Most common case: spatial data 29

Bonnes pratiques Spécificités GBIF

Normalisation GBIF (Darwin Core) Date – Coordonnées - BasisOfRecord Format (ISO 8601:2004(E)) Date simple : AAAA-MM-JJ ou AAAA-MM ou AAAA Période : AAAA-MM-JJ/JJ ou AAAA-MM-JJ/MM-JJ ou AAAA/AAAA etc Coordonnées géographiques : lat/long décimales BasisOfRecord Format Darwin Core Type Vocabulary recommandé PreservedSpecimen FossilSpecimen LivingSpecimen HumanObservation MachineObservation "PreservedSpecimen", "FossilSpecimen", "LivingSpecimen", "HumanObservation", "MachineObservation"

Outils spécialisés Nomenclature ECAT Name Parser: http://tools.gbif.org/nameparser/parser.do TNRS: http://tnrs.iplantcollaborative.org/index.html http://splink.cria.org.br/infoxy?criaLANG=en Géographie Info XY: http://splink.cria.org.br/infoxy?criaLANG=en Canadensys coordinates conversion: http://data.canadensys.net/tools/coordinates GPS Visualizer: http://www.gpsvisualizer.com/

Sources de données www.naturalearthdata.com http://www.diva-gis.org/Data Biodiversity data already at GBIF OpenStreetMap Catalog of Life annual checklist It can be helpful to have other sources of data (than the one we want to check!) to those tools

Pour aller plus loin : outils du GBIF De nombreux outils développés par et pour la communauté GBIF : vérification taxonomique, géographique, … Liste complète disponible sur le Biodiversity Data Quality Hub : http://www.gbif.es/BDQ.php

Références Présentation basée sur les publications et les présentations d’Arthur Chapman : «  Principles of data quality » et «  Principles and methods of data cleaning »

Merci pour votre attention