La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Comment faciliter la ré-utilisation des données du Système d’information sur l’Eau Laurent Coudercy, Onema Pierre Lagarde, BRGM 24 juin 2016.

Présentations similaires


Présentation au sujet: "Comment faciliter la ré-utilisation des données du Système d’information sur l’Eau Laurent Coudercy, Onema Pierre Lagarde, BRGM 24 juin 2016."— Transcription de la présentation:

1 Comment faciliter la ré-utilisation des données du Système d’information sur l’Eau Laurent Coudercy, Onema Pierre Lagarde, BRGM 24 juin 2016

2 Le SIE, un système d’information partenarial, de plus de 20 ans Application SIE …

3 Les données sur l’eau

4 J’ai une idée ! J’ai une super idée d’application mobile J’ai besoin de données sur l’eau Et y’a pleins de trucs sur eaufrance

5 Je cherche les données !

6 Et des services Web !

7 Le constat Emis lors du hackathon 2014 sur le SIE et issus de réflexions diverses Ma courbe d’apprentissage

8 hub’eau.fr, dans le cadre d’un PIA

9 La problématique : comment passer des données lisibles par le SIE Application SIE SIE ?

10 La problématique : comment passer des données lisibles par le SIE Application SIE SIE à des données lisibles par tous

11 dans le SIE Application SIE flux accès près de chez soi fichiers hub’eau difficultés d’usage consultation grand public professionnels relations entre machines hubeau.fr

12

13 les 4 thèmes disponibles actuellement taille et espèces poissonsservices publics d’eau et d’assainissement niveau des nappeschimie des cours d’eau

14 Un hackathon à mi parcours (1 er juin 2016) pour tester et corriger les API hubeau.fr

15

16

17 Big Data et Hub’eau … … Réferentie ls SIE Quadrige SIE Naiades SIE Ades SIE SIE 200 types de données200 types de données 40 ans de données40 ans de données 40 millions de données/an40 millions de données/an www.hubeau.fr api.hubeau.fr Accès unifié et adapté Hackathon Juin Infrastructure BRGM

18 Les objectifs Hub’eau sur les 4V Volume Intégrer toutes les données sur l’eau en France en gérant la mise à l’échelle des infrastructures techniques et des applications Variété Velocity Veracity Etre capable de gérer la diversité des données définies dans le cadre du SIE (plusieurs centaines de concepts, dizaine de modèles de données,…) Pouvoir intégrer les données au fil de leur publication par le SIE que ce soit des données mise à jour annuelle ou quotidiennement Intégrer des données externes comme les statistiques des utilisateurs Faire confiance au processus qualité du SIE

19 Les verrous de l’accès aux données distribuées Comment exploiter l’interopérabilité et l’organisation distribuée des données du SIE avec les besoins d’accès rapide de HUB’EAU ? Comment (re)mettre à disposition les données à jour diffusées par les producteurs du SIE et les croiser ?

20 Les solutions envisagées Stratégie de proxy Stratégie de BD Centrale Projet SIPE/SICE Projet SEEE

21 Approche retenue Combiner les deux stratégies en : Exploiter les services d’accès aux données du SIE et leur normalisation Mettre en œuvre des mécanismes pour « absorber » les données Eau continuellement et les conserver dans un cache local sans les dénaturer de leur structuration Ne pas chercher à « structurer » une base centrale imposée mais accepter les données en tant que telles

22 > 22 Architecture applicative Ecosystème Hadoop V2.X

23 Le processus Big Data dans Hub’Eau

24 Exemple du processus Données piscicoles

25 Exemples de traitements opérés Transformation Lignes / Colonnes pour simplifier l’accès Précalcule le croisement des données avec les référentiels géographiques et non géographiques (UDF Hive) Réalise les produits cartésiens pour optimiser les traitements (dénormalisation) (UDF Hive + Spark ) « Sélection » des données pour l’API (UDF Hive) Indexation pour la recherche de l’API (Sol’R)

26 Un data lake pour aller plus loin Etape 1 : Mettre en oeuvre un environnement BigData en capacité de collecter, stocker et traiter simplement toutes les données sur l’eau Etape 2 : Constituer le data lake et partager les expériences dans le domaine « Big Data » Etape 3 : Ajouter des données en « temps réel » Etape 4 : Explorer les données avec des technologies de science des données (Machine Learning)

27 Conclusion Les données sur l’eau sont un domaine pour le Big Data HUB’EAU montre que le Big Data peut être une réponse à des verrous bloquants Des technologies récentes avec des challenges techniques et organisationnels importants Un sujet / terrain très prometteur pour les datascientits


Télécharger ppt "Comment faciliter la ré-utilisation des données du Système d’information sur l’Eau Laurent Coudercy, Onema Pierre Lagarde, BRGM 24 juin 2016."

Présentations similaires


Annonces Google