1 Contrôle des données stations
GPS 20/11/ Objectifs et état des lieux Objectifs: –Contrôler la qualité des données stations des agences avant intégration et diffusion sur le site du Sandre (format et encodage, informations primordiales: code station, cours d’eau,…) –S’assurer de l’utilisation de la dernière version d’autres référentiels (administratif, hydrographique,…) Expérimentation d’un ensemble de contrôles sur un jeu de données : –Données de 7 circonscriptions administratives de bassins: les 6 de Métropole + 1 DOM (Réunion) du mois d’août 2012 –19355 données analysées
GPS 20/11/ Les contrôles Les types de contrôles: –Format de fichiers: XML, encodage UTF8 –Les données attributaires: renseignements des code et libellé station, des dates de création/arrêt, coordonnées et projection, des codes cours d’eau, tronçon hydro, masse d’eau, commune, point de prélèvement –L’interaction avec les référentiels associés: administratif, hydrographique, masse d’eau -> assurance de l’utilisation de la dernière version –La géographie: situation par rapport aux circonscription de bassin, commune, cours d’eau, tronçon hydrographique, masse d’eau Améliorer la qualité globale des données.
GPS 20/11/ Exemples de tests effectués Format / encodage des données: –881 fichiers analysés sur ont un problème de format (5%) –42 fichiers ont un problème d’encodage (0,20%) Etape primordiale à l’intégration des données: XML conforme + encodage UTF-8 (non prise en compte des données ne respectant pas ces 2 critères dans la phase de test) Données attributaires: –code station: 5062 codes vides sur (26%) –coordonnées et projection non-conformes: 182/19355 (<1%) 2 critères importants (non prise en compte des données ne respectant pas ces 2 critères dans la phase de test) –dates de création / arrêt: 1645 erreurs (date arrêt < date de création), soit près de 20% –cours d’eau: 78 stations non associées à un cours d’eau (<1%) –tronçon hydrographique: 2802 stations non associées à un tronçon hydro (>30%) –commune: 6 stations non associée à une commune (<0,1%) –point de prélèvement: code, dates, coordonnées données incomplètes
GPS 20/11/ Exemples de tests effectués Interaction avec les autres référentiels: –Administratif: communes (0% erreur) –Hydrographique: cours d’eau, tronçon hydrographique (1% d’erreur pour les cours d’eau, >7% d’erreur pour les tronçons) –Masse d’eau: pas souvent renseigné (17,5%), ou pas bon format (<25%) Veiller à l’utilisation des derniers codes Géographie: –circonscription administrative de bassin (1%) station incluse dans le –commune (13% d’erreur) bon ou la bonne commune? –cours d’eau calcul de la distance entre une –tronçon hydrographique station et son cours d’eau / tronçon –masse d’eau hydro / masse d’eau: détermination d’une distance seuil (50/100m)
GPS 20/11/ Exemples de tests effectués Exemple: 450m Distance station / cours d’eau Distance station / tronçon hydro Distance station / masse d’eau 15m Association station / cours d’eau validée Association station / cours d’eau rejetée: station trop éloignée, ou associée à un mauvais cours d’eau
GPS 20/11/ Bilan Validation des données variables suivant les critères Critères primordiaux: –accès aux données au bon format (XML, encodage UTF8) –champs indispensables : code station (nombre important de code manquant) –étendue temporelle –bonne situation géographique de la station : coordonnées et projection adéquate, et commune, cours d’eau associés –interaction avec les autres référentiels (administratif, masse d’eau, hydrographique,…) actualisés
GPS 20/11/ Annexe 1 – Contrôles effectués
GPS 20/11/ Annexes
GPS 20/11/ Annexes
GPS 20/11/ Annexes
GPS 20/11/ Annexes
GPS 20/11/ Annexe 2 – Contrôles proposés
GPS 20/11/ Annexe 2 – Contrôles proposés
GPS 20/11/ Annexe 2 – Contrôles proposés
GPS 20/11/ Annexe 2 – Contrôles proposés
GPS 20/11/ Annexe 2 – Contrôles proposés
GPS 20/11/ Annexe 2 – Contrôles proposés
GPS 20/11/ Annexe 2 – Contrôles proposés