La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à la qualité des données et à l’adéquation à l’usage

Présentations similaires


Présentation au sujet: "Introduction à la qualité des données et à l’adéquation à l’usage"— Transcription de la présentation:

1 Introduction à la qualité des données et à l’adéquation à l’usage
GB18 training sessions – Buenos Aires, Argentine Introduction à la qualité des données et à l’adéquation à l’usage We'll also talk about data quality, these 2 concepts are largely interleaved. Nicolas Noé Développeur – Plateforme Belge Biodiversité Global Biodiversity Information Facility (GBIF) Le 30 septembre 2011

2 Aperçu La valeur des données
2. L’adéquation à l’usage, qu’est ce que c’est ? L’Adéquation à l’usage et les données primaires de biodiversité : Métadonnées Données taxonomiques Données spatiales Données sur la collecte Données descriptives

3 Pourquoi publier les données ?
21ème siècle = « siècle des données » ? La quantité de données augmente exponentiellement Le GBIF est un acteur de ce mouvement ! Ces données ont le potentiel d’améliorer grandement nos connaissances et aptitudes Available data is increasing...: in all aspects of life The "has the potential" is very important, it's absolutely not something automatic. That's where fitness for use will take its place. (examples on next slides)

4 Influence des données sur la vie quotidienne
Politique Cartographie Publicité For the French speaking group, some explanations about what data journalism is will probably be needed as, it's still an underground activity here :) Advertising: has always been an important consumer of data and statistics.  But google pushed it further (google makes its profit from targeted ads). They deal with petabytes of data, so traditional way of organising data fall apart.   "Google conquered the advertising world with nothing more than applied mathematics. It didn't pretend to know anything about the culture and conventions of advertising — it just assumed that better data, with better analytical tools, would win the day. And Google was right". (Chris Anderson, Wired magazine) Maps: Mapping has always been a tool of dominance. Last golden age of mapmaking=colonial era.  - The BBC recently reported that Iraqi residents have been using the software to plot escape routes that avoid insurgent hot spots. (many recent examples like this one).  Now, tools such as google earth, bing maps, ... Allow everyone to annotate / create / mashup maps (two way communications), by providing the tools and good imagery.  That gives uses such as "map of GB18 places in buenos aires", but also more advanced and useful uses... (see next slide)

5 La réponse de la communauté OpenStreetMap au tremblement de terre en Haïti Avant…
OpenStreetMap is the “wikipedia of maps”. BEfore the quake, available maps were pretty basic... (that gives an indication of the quality of maps NGO's had at the time)

6 La réponse de la communauté OpenStreetMap au tremblement de terre en Haiti … et quelques jours plus tard OSM community responded quickly (in a few days), and based on aerial imagery from different commercial providers (with authorization), they created a better map to faciliate NGO actions. These maps contained streets, but also: - refugees camps - medical centers - impractical ways (destroyed roads) ---  This data was not only available on the net, they were exported to GPS devices, used to calculate new itineraries, taking care of destroyed roads 

7 Changements climatiques et « crop wild relative »
CWR = cousins de nos plantes cultivées Source vitale de diversité génétique, utilisé depuis toujours par les agriculteurs (croisements) Par exemple: l’orange est un hybride entre le pamplelousse sauvage (fruit du pamplemoussier) et la mandarine Scientifiques parlent d’Element-clé pour assurer notamment la sécurité alimentaire ! Récemment encore, des espèces sauvages ont été croisées avec des espèces domestiques pour les améliorer (tomates et riz notamment) Dans cette étude, les données du GBIF on été confrontées à 18 modèles d’évolution climatiques pour l’année 2050 en fonction des différentes hypothèses sur les rejets de CO2 dans l’atmosphère. On a modélisé la distribution des espèces, on l’a comparé à leur distribution actuelle et on peut en déduire les zones ou la perte de diversité sera dramatique (afrique Subsaharienne, Est de la turquie, bassin méditerranéen et certaines régions du mexique) sont donc considérer comme des zones à explorer maintenant), et les graines/le matériel génétique peuvent être conservées dans des banques appropriées à long terme Authors: Andrew Jarvis (1), Samy Gaiji (2), Julian  Ramirez (3) and Emmanuel Zapata (3) 1) CIAT, International Center for Tropical  Agriculture, Bioversity International 2) GBIF, Global Biodiversity Information Facility Données du GBIF Crop wild relatives 343 espèces Global 18 modèles d’évolution climatiques Richesse actuelles Richesse future Prédiction du changement

8 Des données à la compréhension…
Collecting data for collecting data has no meaning... What we want to achieve is a better understanding of the situation. (We "stole" Arthur Chapman's ideas about oceans, rivers, ...) Des océans de données…

9 …des rivières d’informations…
On each step (slide), we reduce the amount of data, because we're going further than raw, low-level data... (more interpretation of it) …des rivières d’informations…

10 … des ruissaux de connaissances …

11 …des gouttes de compréhension

12 (taken as-it from Arthur Chapman's presentation
(taken as-it from Arthur Chapman's presentation... should probably be re-composed). To explain on this slide: - Interest: combine our GBIF occurrence data with other data (here environemental information). That's how we can create models that will be avalaible to decision support). (power of mashups) Having data is only a part of the equation... If the user doesn't know and understand well the data and its limitations, the models will be erroneous. 

13 Usage des données de biodiversité
Recherches taxonomiques, modélisation/prédiction de la distribution des espèces, espèces invasives, dégradation des habitats, relations interspécifiques, ... Mais aussi... The important think to note here is that uses are multiple and not always intended by data authors (outside of biodiversity - or even scientific - circles).... Also, data quality  => increasing data quality and documentation (metadata) will allow more uses  - Description of examples:  conservation planning: identification of biodiversity priority areas Other: examples diseases and diseases vector, bioterrorism,... Antivenoms explanation: with a good understanding of species distribution, we can avoird using polyvalent antivenoms (expensive and complicated to use) Organisation de la conservation, gestion de l’eau, antivenins, éco-tourisme, histoire des sciences, chasse et pêche, rapatriation des données, photographie (et cinema) nature, ...

14 Adéquation à l’usage « Fitness-for-use »
Définition « Fitness-for-use » La qualité des données est un concept relatif qui dépend de l’usage qui est fait de ces données… Here, we finally define clearly what we call fitness for use, based on prerequisites we just did. => We cannot really discuss quality of data without knowing its usage... In a database, the data has no actual quality or value. But they have potential value that is realized only when we use them. "The general intent of describing the quality of a particular dataset or record is to describe the fitness of that dataset or record for a particular use that one may have in mind for the data." Chrisman, 1991

15 Adéquation à l’usage Exemple
Green zo ne = National park 'X' Example of what we call fitness for use: The data here (the map) fits the use of answering the first question (Yes, we are sure it occurs in Tasmania), but not the second one because of the uncertainty. => We see this is relative to the question we want answering... BUT if the data owner choose to improve quality at source (for example by reducing uncertainty at source by using better GPS technique), it will increase the # of possible uses of the data. EAch use (and more generally each activity sector will have different expectations about data quality). L’espèce est-elle présente en Tasmanie ? L’espèce est-elle présente dans la réserve ?

16 La perte de qualité survient à chaque étape
A la collecte Durant la numérisation Durant la documentation Durant la sauvegarde et l’archivage A l’analyse et la manipulation Au moment de la présentation En utilisant les données de façon non-adéquate Data quality should be a concern at every step ! Exemple de problème de présentation: utilisation du point ou de la virgule sur un site web Everyone should: - Take care of data quality when performing his own step of the work. - Have a critical eye on the work done in previous step, and report it if necessary !

17 Chaine des données et qualité
The cost increase, but also often you just CANNOT correct the error later. For legacy collections, you don't have the choice. For current work, it's cheaper and more efficient to detect and correct the error ASAP. Also, it prevents the incorrect data to be used in "other places" (publications, ...). In many cases, the practical perspective, "as close as possible" means at the aggregation level (GBIF in our case). La responsabilité en terme de qualité de données doit être assignée le plus tôt possible dans cette chaîne.

18 Assurance et contrôle qualité
Jugement à propos de la qualité des données avec des outils, standards et procédures internes ou externes. S’il y a un souci pour avoir des données de qualité, les deux approches doivent être utilisées. Of course, thinks such as common sense and personel motivations or work conditions should not be forgotten, even if less formal and measurable. Terms are generally used synonymously.

19 Chaque institution devrait avoir:
Une vision ciblant la qualité des données Ne pas “réinventer la roue” et utiliser les standards Chercher l’efficacité (dans la collecte et l’assurance qualité) and éviter la duplication d’effort Encourager le partage (données, informations et outils) Réfléchier à long terme Prendre soin des utilisateurs et de leurs besoins Investir dans la documentation et les métadonnées ... Une politique implémentant cette vision Une stratégie d’implémentation pour cette politique I'm not sure about my understanding of these terms, can someone confirm/infirm me that: - vision is something very high level/strategic-politic stuff - policy are a set of concrete steps to execute do something real from the vision. - strategy is how-when-who we execute the policy on a day to day basis.  Stratégie: on met des échéances précises à court, moyen et long terme

20 Partage des responsabilités Le collecteur:
L’étiquetage est correct, aussi complet que possible et lisible Les méthodes de collecte sont largement documentées Les remarques sont claires et non-ambiguës ... For examples, locations should be recorded on the field and not at the end of the day (too much done in the past). This is less critical for taxonomic information, can generally be re-analyzed later.

21 Partage des responsabilités Le conservateur: responsabilité à long-terme
Qualité des retranscriptions dans la base de données  Des tests de validation sont exécutées régulièrement et documentés.  Les données sont sauvegardées et archivées Les versions précédentes sont systématiquement conservées Assurer le respect (vie privées, propriété intellectuelle, sensibilité et tradition des peuples indigènes, ...) Fournir une documentation de qualité (incluant les problèmes connus) Les retours utilisateurs sont pris en compte ...           Responsabilité de maintenance, mais aussi la responsabilité morale d’améliorer la qualité des données (si possible) pour de futurs utilisateurs et usages. Responsability of maintaining and improving the data. Good documentation : allows use to determine fitness-for-use User feedback: taken into account in a timely manner Earlier versions: to allow return to "uncleaned" data.

22 Partage des responsabilités L’utilisateur:
Informer les conservateurs: Erreurs et omissions dans les données et la documentation Définir les priorités futures .... A l’usage:  Déterminer si les donnés sont adaptées à l’usage prévu et ne pas les utiliser de façon non-adéquate. It's often only the user that will identify  errors and outliers previously unnoticed. It's only when data is combined with other datasets that errors become obvious. setting future priorities: for example, report other fields that should be collected

23 Exactitude et précision
Exactitude = véracité de l’information Précision Statistique Numérique These terms are regularly confused. Accuracy describes how close is the measured value to the actual "true" value. these terms apply to geographic or non-geographic data. Statistical : closeness with which repeated observations conform to themselves Numerical: number of significant digits  Exactitude faible Haute précision Haute exactitude Basse précision Haute exactitude Haute précision

24 Erreur et incertitude Erreur : englobe imprécision et données inexactes Aléatoire ou systématique Inutile de tenter de lui échapper (mesure, calcule, entregistre et documente) Incertitude Toujours présente (difficulté: comprendre, décrire et enregistrer) Nous en dit plus sur l’observateur que sur les données elles-mêmes ! Systematic error = bias. One example is the use of an incorrect geographic datum, that can leads to a 400meters error in some cases. Don't try to avoid: error is inescapable, so it should be considered as an inherent part of data. That will fit some uses, but won't fit others

25 Adéquation à l’usage et métadonnées
”Données sur les données" contenu, accessibilité, complétude, ... A propos du dataset ou de l’enregistrement Documentation de l’erreur Documentation des procédures de validation, de nettoyage et de correction appliquées The user needs metadata in order to understand the quality of data and determine fitness-for its specific use - Record-level: uncertainty of a specific field, such as lat/lon document error: uncertainties, known errors, bias - last point:  avoid work duplication in an ideal situation, allow to rollback to original (sometimes a corrected error was NOT an error) Les métadonnées doivent être suffisament riches pour permettre l’usage des données par des tiers sans devoir se référer à la source de ces données.

26 risque de propagation des erreurs
Données taxonomiques Souvent: nom = point d’entrée risque de propagation des erreurs Erreurs possibles: Identification incorrectes Erreurs orthographiques Mauvais format We generally think about scientific names, but we shouldn't forgot common names. point of entry => means if we have  an error here, all returned data is invalid (propagation of errors). Wrong identifications will need the help of a taxonomist to be solved. For others, we can mitigate the problems with IT solutions or cleaning and validation techniques

27 Données taxonomiques De quoi parle-t-on ?
Noms (scientifique, vernaculaire, rang, hiérarchie, …) Status (synonymes, nom valide, …) Références (auteur, date et lieu) Détermination (par qui et quand ?) Champs relatifs à la qualité (certitude, …)

28 Données taxonomiques Erreurs courantes
Données manquantes Valeurs incorrectes Valeurs non-atomiques “Domain schizophrenia” Valeurs dupliquées Données inconsistantes Exemples: Données manquantes: sous-espèce sans espèce Valeurs incorrectes: check for transposition of key strokes, values in wrong column, '??' values, phonetic values, ... Non-atomic values : for example, 'subsp. bicostasa' in one single field Schizophrenia species: 'globulus?' => uncertainty is in the species column. Duplicates: several names refer to the same real-world concept (mispellings, synomys errors, several valid names,...) Données inconsistantes :  Occurs when merging two databases using different lists.

29 Données spatiales Introduction
Un des aspects cruciaux pour déterminer l’adéquation à l’usage des données primaires de biodiversité: Modélisation de la distribution des espèces Sélections des zones à protéger Gestion de l’environnement et des ressouces ... Detailed uses in "Uses of primary-species occurrence-data" by Arthur Chapman, 2005.

30 Données spatiales De quoi s’agit-il ?
Latitude et longitude ? Aire ! Point + rayon Boite englobante Polyline Référence de grille Species occurrences are often thought of erroneously as points represented by latitude and longitude. In fact no occurrence happens at a point, it always occupies an area. That area may be represented in many different ways: point/radius: coordinates with an distance to express uncertainty (a circle) Bounding box: two coordinates (a rectangle) Polygon: coordinates for a more complex geometry (protected area, administrative boundary) Polyline: list of coordinates for nodes in a linear feature (road, river) Grid reference: coordinates that imply a bounding box if you know the rules to reconstruct it

31 Données basées sur une grille (cheklists)

32 Données spatiales Quelques définitions
Géo-référence: un code documentant une position sur la surface de la terre, exprimé suivant un SRS (spatial reference system. En pratique; souvent lat/lon Géoréférencer / géocoder : le procédé qui consiste à assigner une référence géographique à un enregistrement donné. Datum Synonym de géoréférence: coordonnées ou référence géographique with legacy data, georeferencing is often done at a later date - retrospective georeferencing.  Quality of spatial data on legacy records is generally not very good. There's also the problem of locality changing names, the lack of proper equipment, the tendancy to do the georeferencing at the end of the day (when back in the lab...)

33 Données spatiales Système géodésique (datum)
On the left we show what a datum is: the combination of a spheroid representing the earth AND the position of this spheroid along the center of the earth. It gives Origin and Orientation for latitudes and longitudes. On the right, we show the error if we apply an incorrect datum to our data. Errors form a few centimeters to 3 km

34 Données spatiales A propos du GPS
Technologie basée sur la triangulation, min. 4 satellites nécessaires Historiquement, nombre de satellites pas toujours suffisant Avant Mai 2000, selective availability (100m au mieux) Differential GPS, WAAS, LAAS, et Realtime Differential GPS utilisent des stations terrestres don’t la position est connue avec précision. (jusqu’a 1cm de précision) L’altitude GPS fait référence à l’ellipsoide utilisé, pas au mean Mean Sea Level. More and more used, but limitations are generally not well known. Now, we can  generally reach 7 satellites in most places on earth. selective availability: intentional, varying errors introduced to deby an enemy using civilian receivers for precision weapons guidance. Bill Clinton disabled this feature. Maintenant, on est plutot autour des 10 mètres dans des endroits dégagés avec 4 satellites. On peut faire des moyennes pour préciser (certains appareils le font) VERY HIGH PRECISION is not often used, because of costs and there is no need in this field of study. GPS Height: difference is variable and difficult to estimate. In australia, varies between - 35 to + 80 meters.

35 Données spatiales Erreurs courantes
Inversion des coordonnées Valeur(s) zero Système géodésique/datum inconnu SRS inadapté Fausse impression de précision / problèmes de conversion. Example: false sense of precision when converting GIS data from one SRS to another (a long list of decimals, but which are not significant)

36 Données brutes du GBIF (occurrences des USA)
Note we can see visually very common issues. - 0/0 coordinates. - Reversed coordinates (mirror over China) (lighter) mirror west of Chile in south pacific ocean

37 Données de collecte et de collecteur sont constituées de:
date de collecte Informations supplémentaires: habitat, sol, conditions météorologiques… La pertinence dépend du type de jeu de données: Collection statique (musée) : nom et ID du collecteur, date, habitat, méthode de capture ... Observations: +durée d’observation, zone, période de la journée, activité, sexe du spécimen observé… Sondage exhaustif: +méthode, taille de la grille, fréquence, si des spécimens de référence ont été collecté (+références)

38 Données de collecte et de collecteur Facteurs
Exactitude: nom de collecteurs, date,… Cohérence: utilisation d’une terminologie Complétude Terminologie: pour les sols, habitats, … Complétude: très rare pour des champs tels que « floraison » ou espèce associés… => L’étude des habitats est difficile si on a seulement ce type de données

39 Données descriptives Morphologiques, phénologiques, …
Qualité très variable Souvent de données s’appliquant au niveau taxonomique et pas au niveau du spécimen Complétude: généralement impossible à atteindre sur un même spécimen Cohérence: attributs non consistants FLOWER_COLOUR = MAUVE FLOWER_COLOUR= violet clair Données descriptives: de plus en plus courantes Qualité variable: données impossibles a observer car historiques, trop couteuses, percu de facon subjective (couleur, abondance, …) For a given specimen, we cannot record at the same time flower and fruit data. FLOWER_COLOUR example: variation in form AND semantic

40 Questions Merci

41 Références Basé principalement sur les différentes présentations et publications d’Arthur Chapman Image « point d’interrogation » par Milos Milosevic ) Crop Wild Relatives:  Andy Jarvis(1), Samy Gaiji (2), Julian Ramirez (1) and Emmanuel Zapata (1) 1.    The International Center for Tropical Agriculture (CIAT) 2.    The Global Biodiversity Information Facility Secretariat (GBIF) Accuracy VS precision slide:  Beach picture by Lali Masrieta : River: Johan J.Ingles-Le Nobel Stream:  bterrycompton Chapman, A.D. and J. Wieczorek (eds) Principes de la bonne pratique sur le géoréférencement, version 1.0. Trad. Chenin, C. Copenhague: Global Biodiversity Information Facility, 95 pp. Disponible en ligne sur 


Télécharger ppt "Introduction à la qualité des données et à l’adéquation à l’usage"

Présentations similaires


Annonces Google