Méthodes pour améliorer la qualité des données de biodiversité

Slides:



Advertisements
Présentations similaires
Les choses que j aime Learning Objective: To know how to use j aime to talk about things I like to do.
Advertisements

Les Mots Interrogatifs
Formation GBIF France dans le cadre d’Ecoscope – Valoriser ses données d’observation sur la biodiversité : qualité, standards et publication Paris,
PERFORMANCE One important issue in networking is the performance of the network—how good is it? We discuss quality of service, an overall measurement.
QUEL CADEAU! YOU HAVE BEEN OF GREAT SERVICE TO FRANCE. PRESIDENT HOLLANDE IS VERY GRATEFUL TO YOU! KNOWING OF YOUR INTEREST IN EGYPTOLOGY, THE DIRECTOR.
La Planète a besoin de vous. 1. List 3 environmental problems mentioned:  l’eau est pollué  les plantes disparaît  les mers sont sales  l’air est.
IP Multicast Text available on
Vocabulaire électronique
UNITÉ 1: SALUT, LES COPAINS!
Université Gamal Abdel Nasser (UGAN), Conakry 15 – 18 novembre 2016
Business Case Title Company name
The passé composé with être
Formation sur la publication des données de biodiversité dans le réseau GBIF et leur aptitude à être utilisées , édition 2011 Comment le DwC-A a changé.
les bonnes résolutions
What about discrete point skills?
Présentation du cours Document No. 1.1
Infinitive There are 3 groups of REGULAR verbs in French: verbs ending with -ER = 1st group verbs ending with -IR = 2nd group verbs ending with -RE = 3rd.
1+2 French Second Level Classroom Language Pack
AP Examen Pratique commentaires
The Passé Composé Tense
Speaking Exam Preparation
Theme Two Speaking Questions
Direct and Indirect Object Pronouns in French
The nation now known as The Democratic Republic of Congo was at one time the personal property of the King of Belgium.
French is spoken by approximately 120 million people in Africa.
l y a which we have already learned means “there is/are l y a which we have already learned means “there is/are.” When we put a measure of time.
Technologies de l’intelligence d’affaires Séance 14
Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics.
Theme Two Speaking Questions
The Passé Composé Tense
Les Fruits :.
Theme One Speaking Questions
Les gammes de valeurs des paramètres
Approvisionnement et Traitement Campagne CPS 2015 Qu’avons-nous appris Approvisionnement et Traitement Campagne CPS 2015 Qu’avons-nous appris? Tchad.
Data Driven Decision Making Workshop Sept , Kigali, Rwanda
F RIENDS AND FRIENDSHIP Project by: POPA BIANCA IONELA.
The passé composé with être
The Passé Composé Tense
Français - couleurs - pays - drapeaux
The Passé Composé In the previous lesson we looked at the formation of the passé composé (perfect tense) with Avoir verbs. In this lesson we will further.
Le soir Objectifs: Talking about what you do in the evening
Qu’est-ce que tu as dans ta trousse?
Quelle est la date aujourd’hui?
Pato et Elly font du sport aussi.
J’aime ma culture francophone, j’aime notre façon d’être, notre joie de vivre, nos traditions, nos manies. Je veux que mes enfants vivent ça et qu’ils.
Qu’est-ce que tu as dans ta trousse?
Français Les animaux (2).
Quelle est la date aujourd’hui?
J’aime ma culture francophone, j’aime notre façon d’être, notre joie de vivre, nos traditions, nos manies. Je veux que mes enfants vivent ça et qu’ils.
Roots of a Polynomial: Root of a polynomial is the value of the independent variable at which the polynomial intersects the horizontal axis (the function.
Mettez vos devoirs dans la boîte rouge prennez les devoirs 2.2 B
Quelle est la date aujourd’hui?
1-1 Introduction to ArcGIS Introductions Who are you? Any GIS background? What do you want to get out of the class?
Question formation In English, you can change a statement into a question by adding a helping verb (auxiliary): does he sing? do we sing? did they sing.
J’ai mal !!!!! FINAL REVIEW.
What’s the weather like?
Pato et Elly font du sport aussi.
The Passé Composé Tense
Les formes et les couleurs
Les Comparaisons.
les instructions Bonjour la classe, sortez vos affaires
1 Sensitivity Analysis Introduction to Sensitivity Analysis Introduction to Sensitivity Analysis Graphical Sensitivity Analysis Graphical Sensitivity Analysis.
One important document and tool for SUPERVISORS. Plenty of sanctions.
Le Passé Composé (Perfect Tense)
Les Mots Intérrogatifs
TEAM NAME.
Direct and Indirect Object Pronouns in French
Prepositions of Location
EDHEC OPEN INNOVATION - Season 9 - Company LOGO Business Case Title.
IMPROVING PF’s M&E APPROACH AND LEARNING STRATEGY Sylvain N’CHO M&E Manager IPA-Cote d’Ivoire.
Transcription de la présentation:

Méthodes pour améliorer la qualité des données de biodiversité GB18 training sessions – Buenos Aires, Argentine Méthodes pour améliorer la qualité des données de biodiversité We'll be a little faster to present thisone than the others: "we go through them quickly, you can read them in detail (+chapman resources) when you have to do this task"  (mostly node managers present, so they should have an idea of what is it, but not all details are necessary for them) Nicolas Noé – niconoe@ulb.ac.be Développeur – Plateforme Belge Biodiversité Global Biodiversity Information Facility (GBIF) Le 30 septembre 2011

Aperçu Guide des meilleures pratiques Données sensibles Données taxonomiques Données spatiales / géographiques Données sensibles

Pour les données taxonomiques Meilleures pratiques Pour les données taxonomiques

Données taxonomiques Certitude d’identification Conception de la base de données: Flag de vérification, nom et date Attention aux termes "aff.", "cf.", "s.lat", ... Si pas identifié par expertise taxonomique, enregistre l’info: Clés taxonomiques Analyses ADN Révision d’un groupe taxonomique  ... Verification level flag: for example in the HISPID standard:  Values in Field Meaning 0 (zero) The name of the record has not been checked by any authority 1 The name of the record determined by comparison with other named plants 2 The name of the record determined by a taxonomist or by other competent persons using herbarium and/or library and/or documented living material 3 The name of the plant determined by taxonomist engaged in systematic revision of the group 4 The record is part of type gathering or propagated from type material by asexual methods Comments: If it is not known whether the name of the record has been verified by an authority, then this field must not be filled. "aff.", "cf.", "s.lat": variations betweens authors, institutions, time, ...

Données taxonomiques Certitude d’identification Saisie des données: Utilisation de checklists Utilisation de fichiers d’autorité Détection d’erreurs: Nécessite généralement un expert Les valeurs extrêmes (outliers) peuvent aider (géographiques ou environnementales) Data entry: Proper UI is not enough taken in consideration and can provides tremendous improvements for data entry If we find geo outliers, it's generally error in lat/lon, but it also can be due to an identification errors. This analysis cannot solve the taxonomic errors, but it can help prioritizing future taxonomic reviews.

Données taxonomiques Erreurs orthographiques – nom scientifique Conception base Atomiser au maximum Fichiers d’autorité Globaux, régionaux ou par groupe Duplicatas Interface dédiée pour la détection (+flag) Atomiser: genus, species, author, year, certainty, … Autorité globale: species2000 Autorité par groupe: fishbase

Données taxonomiques Erreurs orthographiques – rang infra-spécifique Atomiser ! Genus Espèce Rang_infra Val_infra Stipiturus malachurus Subsp. parimeda Pour Eviter les ambiguïtés Faciliter les vérifications Toujours séparer rang et valeur, on reconstruit à l’affichage Faciliter les vérifs: Par exemple pour le rang, peu de valeurs différentes Les problèmes de rang sont plutôt pour les plantes (pour animaux, on se limite généralement aux sous espèces)

Données taxonomiques Rang infra-spécifique- saisie des données Liste pré-remplie Choix restreints: Subsp. Sous-espèce Var. Variété Subvar. Sous-variété F. Forme Subf. Sous-forme

Cultivars et hybrides Cas complexes et variables: DB sur mesure ! Cultivars: code de nomenclature dédié. Ajouter un flag “cultivar?” et un “hybride?” Insert example of hybrid name showing the complexity here ?? Flag: pour retraitement

Données taxonomiques Espèce non publiée – A éviter Eviter la confusion avec un nom accepté ! Eviter la confusion entre spécialistes ou institutions (sp1, sp2, …) Ce slide est pour quand on doit parler d’une espèce, mais il n’y a pas encore de nom accepté pour celle-ci Confusion: on évite de les faire ressembler à un nom accepté, genre genus+species. Les utilisateurs perdraient du temps à chercher une

Données taxonomiques Espèce non publiée – Bonnes pratiques "<Genus> sp. <colloquial name or description> (<Voucher>)" Prostanthera sp. Somersbey (B.J. Conn 4024) Avantages Ne ressemble pas à un nom publié Pas de confusion entre institutions Peut devenir ultérieurement synonyme Peu de chances de confusion en dehors du monde scientifique En dehors du monde scientifique: par exemple, législation sur les espèces invasives

Données taxonomiques Espèce non publiée – Noms communs Très complexe à standardiser: Un taxon = souvent plusieurs noms Un nom = parfois différents taxons Solution: ne pas standardiser (mais documenter très largement) ! Parfois, plusieurs noms différents dans la même région Un taxon, différents noms selon les gens, les lieux, les époques… Autres prob courants: char encoding, transcription phonétique Nom Langue Région Source Commentaire

Données taxonomiques Noms des auteurs Rarement vraiment nécessaire Si inclus: champs séparés: Genre, espèce, auteur et années Pour l’affichage, tenir compte des différences entre animaux et végétaux Rarement vraiment nécessaires: seulement quand le même nom a été attribué à plusieurs taxons Animaux: inclus l’année Plantes: pas

Données taxonomiques Auteur – méthodes de vérification Standard pour les abréviations (plantes) Fichiers d’autorité Soundex Auteurs manquants Auteurs manquants: si les auteurs sont utilisés, tous les records devraient en avoir, sinon c suspect. On peut aussi recopier d’un record à l’autre si on est sûr que même espèce

Données taxonomiques Nom de collecteur Parfois, liste exhaustive La forme doit être standardisée "Primary collector's family name (surname) followed by comma and space (, ) then initials (all in uppercase and each separated by fullstops). All initials and first letter of the collector's family name in uppercase. For example, Chambers, P.F." Liste exhaustive: seulement certains domaines taxonomiques, plantes principalement. Exemple de standardisation: extrait de HISPID Standardize also for "secondary collectors" (should go in a second field if possible), also standardize names containing Mc, Mac', O', ... HISPID= Herbarium Information Standards and Protocols for Interchange of Data

Données taxonomiques Collecteur: recherche d’erreurs Rechercher des variations mineures Comparasions à d’autres bases: historiques, … Chercher des variations mineures: facile si un format standard a été respecté (on pourra alors trier facilement par ordre alphabétique) (on verra comment faire ça avec google refine aussi) Comparaison à d’autres bases: on peut se servir de données d‘historiens ou d’itinéraires de bateaux qui sont connus Améliorations possibles dans les deux sens !

Pour les données spatiales Meilleures pratiques Pour les données spatiales

Données spatiales Conception 1/2 Souvent, beaucoup trop de choses dans les champs localité/distribution. Eurasia: throughout Europe to northernmost extremity of Scandinavia, except Iberian Peninsula, central Italy, and Adriatic basin; Aegean Sea basin in Matriza and from Struma to Aliakmon drainages; Aral Sea basin; Siberia in rivers draining the Arctic Ocean eastward to Kolyma. Widely introduced. Several countries report adverse ecological impact after introduction. (distribution de Perca Fluviatilis selon fishbase)

Données spatiales Conception 2/2 Coordonnées décimales Datum Précision (rapportée) Lieu + distance + direction Méthode de géoréférencement: (D)GPS GPS dégradé par « Selective availability » Via carte et triangulation (+échelle) Utilsation du « dead reckoning » (carte) A postériori, via un logiciel ou service Coordonnées décimales: plus précises, et on évite les erreurs de transcription car souvent stocké sous ce format au final ! Never take GPS coordinates without a locality (there would be no way to validate or invalidate the coordinates if in doubt)

Données spatiales Détection et correction des erreurs Tests internes: localité, pays… Tests envers des données externes: lieux visités par le collecteur ? Tests via un SIG: test point-dans-polygone ? (terrestre ou marin) Recherche de valeurs extrêmes: géographiques ou environnementales

Données spatiales Localité: bonnes pratiques Aussi spécifiques que possible: Non-ambiguës Courtes Facile à trouver Référence des lieux stables et connus Distance et direction depuis cette référence « 2km N et 5.1 km E de la pyramide de … »

Pour les données sensibles Meilleures pratiques Pour les données sensibles

Données sensibles Généralisation – pourquoi ? Protéger espèces menacées, d’importance économique, réduire l’impact sur les populations sauvages, … Eviter la collecte non-scrupuleuse, le braconnage, encadrer la bio-prospection,… Protéger les données externes détenues par l’institution Conserver un avantage compétitif (publications et recherche) Crainte d’un usage inapproprié des données Respect … Protect third party data: -confidentiality, agreements, IP rights, ... Another "fear" example:  not knowing the purpose to which data will be put, ...   Respect: les souhaits des propriétaires des données ou les traditions des peuples indigènes Résultats du sondage en ligne du GBIF (2006)

Données sensibles Généralisation – considérations générales Aspect social = obstacle principal Composante régionale Certains ne publieront jamais La documentation est primordiale - First point is about granting access to the sensitive data: who are assigned what roles, how does one recognise a bona-fide user, ... Regional aspects: legisltation, cultural believes, traditions, ... Documentation: see next slide

Données sensibles Généralisation – la doc. est primordiale Décrire comment et pourquoi les données ont été généralisées permet à l’utilisateur de: Savoir que les données on été modifiées et en quoi Savoir qu’il sera peut-être possible d’obtenir des données plus détaillées Décider d’ignorer ces données, des les utiliser telles quelles ou de chercher des informations supplémentaires Lack of documentation is one of the most disturbing things, as  - the data may not be suitable for the intended use - The information to know that is not available to the users => In not taking care, could leads to duplicate records.

Données sensibles Généralisation – comment faire Données spatiales Utilisation d’une grille 3 niveaux recommandés par Chapman & Wieczorek (2006): 0.1 degrés (11-16 km) - 0.01 degrés (1.1-1.6km) - 0.001 degrés (112-157m) Cas critiques: non publiés Données non-spatiales A remplacer par une formulation appropriée Ne pas restreindre les données de collection  appropriate wording: i.e:"name suppressed for reasons of privacy" (to avoid mismatch with "null values") data on collection: keep things such as collection number to avoid restricting data validation procedures

Données sensibles Généralisation – quoi ? Localité ou coordonnées Autres champs: informations taxonomiques, identité du collecteur, information sur les habitats, usage traditionnels Most common case: spatial data

Questions ? Merci

Références Basé sur les publications et les présentations d’Arthur Chapman : «  Principles of data quality » et «  Principles and methods of data cleaning ».