Concilier data scientists et environnement de production 23 novembre 2016
Présentation Groupe JEMS Présent à PARIS LONDRES NEW YORK Fondé en 2002 30 M€ de CA *prévisions 2016 310 collaborateurs
ORGANISATION DE DONNEES Nos Périmètres d’Intervention Social Analytics Connaissance Client Datavisualisation Digital Marketing Modèles prédictifs Meta Data Enhancement DatawareHouse Offload Référentiels ETL COLLECTE & ORGANISATION DE DONNEES ANALYSE & VALORISATION DATA ENGINEER INFRASTRUCTURES Hadoop Virtualisation Stockage DEVELOPPEMENT & TRAITEMENT DATA SCIENTIST Map Reduce Spark Streaming Machine Learning
L’architecture datalake Données Référentielles Besoins Utilisateurs Requêtage -------------------------Sources Externes ------------------------- Datalake Exposition des données Requêtage ad’hoc Intégration Données Brutes DataSets Algorithme & Calcul API Rest PorTail sécurisé Vues Métiers Reporting -------------------------Sources Internes ------------------------- Requetage De donnees API Rest Stockage Historisation Nettoyage / Consolidation / Sémantisation / Rejets / Enrichissement Meta Données Enrichissement Référentiels + Data Discovery Agrégats Calculs Croisements ODBC Alimentation en Batch et/ou en Temps Réel DataManagement (Qualité, Traçabilité, Gouvernance)
Agrégats Calculs Croisements Agrégats Calculs Croisements Zoom sur les vues métiers + Vue Métier Agrégats Calculs Croisements Vue métier Vision 360° DataSets + Vue Métier Agrégats Calculs Croisements Vue Métier Orienté Datascience Nettoyage / Consolidation / Sémantisation / Rejets / Enrichissement Meta Données Enrichissement Référentiels + Vue Métier Agrégats Calculs Croisements Fabrication de segments Edition de fichiers
Positionnement de la Datascience Données Référentielles Besoins Utilisateurs Requêtage -------------------------Sources Externes ------------------------- Datalake Exposition des données Requêtage ad’hoc Intégration Données Brutes DataSet Algorithme & Calcul API Rest PorTail sécurisé Vue Métier Reporting -------------------------Sources Internes ------------------------- Requetage De donnees API Rest Stockage Historisation Nettoyage / Consolidation / Sémantisation / Rejets / Enrichissement Meta Données Enrichissement Référentiels + Data Discovery Agrégats Calculs Croisements ODBC Alimentation en Batch et/ou en Temps Réel DataManagement (Qualité, Traçabilité, Gouvernance)
Les besoins des datascientists Un environnement analytique et exploratoire : le datalab Une approche expérimentale orientée recherche / innovation Le DataLab est un vecteur de diffusion de la démarche Big Data au sein des entreprises Les objectifs du datalab Créer les conditions pour un accès libre aux données afin de favoriser l'innovation en matière d'analyse Créer des prototypes et des modèles d'analyse pour expérimenter des données Offrir une capacité à transformer des données volumineuses en analyse métier Références Projet Multi-Branches et Multi-Client
Les dilemnes du Datalab Comment libérer l’accès aux données ? Sans risquer la perte des données Comment lancer des traitements d’exploration de données volumineux ? Sans mettre en péril les traitements de production En créant un environnement dédié au datalab MAIS Comment garantir la fraîcheur des données ? Comment industrialiser la mise en production des algorithmes ? Le data scientist est un expert en modèles mathématiques spécifiques (machine learning, statistiques) et informatique. Il doit comprendre rapidement le domaine métier dans lequel il évolue. Le tout pour traiter au mieux les données dont il dispose et en tirer une plus-value essentielle au métier. Le data scientist doit connaître deux domaines mathématiques : Le machine learning ou apprentissage automatique, les statistiques. Le machine learning: Le data scientist donne la faculté d’apprendre à la machine au fur et à mesure des expériences et de l’ajout de données. Les statistiques: La data scientist mesure des datas. Dans ce but, il doit comprendre comment interpréter les indicateurs trouvés, et pouvoir juger de leur pertinence. De plus, des échantillonnages représentatifs sont souvent nécessaires pour accélérer les premières étapes d’analyse. l’informatique: C’est un peu le laboratoire du data scientist, l’informatique doit être un domaine bien compris car le traitement des données et l’utilisation de certains outils doivent être le plus efficaces possibles. le métier: Le data scientist va devoir trouver des croisements (corrélations) de données à exploiter pour augmenter un bénéfice, diminuer une perte, déceler une maladie,anomalie … Dans ce but il doit analyser des données complexes. Une connaissance approfondie du métier est donc nécessaire. Connaître les paramètres importants du churn, Savoir mesurer une campagne marketing réussi et dans quelle mesure selon les segments de clients, Et plein d’autres thématiques métiers …
Stockage / Calcul / requêtage Choix des utilisateurs Identifier un socle commun a tous les environnements Stockage / Calcul / requêtage Data Management Data Discovery Data Reporting Socle technique Structurant Front-End Choix des utilisateurs DATALAB Data discovery & Advanced Analytics / Transformations simples / Visualisation / Création de Dataset / algorithmes Analyse expérimentale DEVELOPPEMENT Développement / Monitoring / Gestion des erreurs / Optimisation du code Industrialisation RECETTE / PRE PRODUCTION Valider les développements, les résultats et la performance Recette & tests Expliquer les 4 environnements PRODUCTION Intégration continue / monitoring des traitements / gestion des erreurs Production
par mirroring des volumes MapR-FS Récupération des données fraîches Read Only Read Write MAJ DES DONNEES DATALAB Données brutes Dataset Vue Métier Espace de travail Mise à jour des données par mirroring des volumes MapR-FS (natif) DEVELOPPEMENT RECETTE / PRE PRODUCTION > Réécriture Pas de développement PRODUCTION Données brutes Dataset Vue Métier
Le mirroring avec MapR Flexible Rapide Sécurisé Facile Choix des volumes Le miroir peut être partiel Actif / Actif Rapide Pas d’impact sur les performances Block-level (8KB) deltas Compression automatique Sécurisé Consistance des données Facile Pas de logiciel complémentaire requis Moins de 2 minutes à paramétrer More coming with CloudSync and real-time master/master replication for tables
Les étapes de création et d’industrialisation d’un algorithme Identification des sources Collecte des données (si besoin) Création du code et algorithme Optimisation et industrialisation Déploiement en production DATASCIENTIST DATASCIENTIST DATAENGINEER DATAENGINEER
par mirroring des volumes MapR-FS Industrialiser les algorithmes Read Only Read Write Algorithme & Calcul MAJ DES DONNEES DATALAB Données brutes Dataset Vue Métier Espace de travail Réécriture / Optimisation / Industrialisation Mise à jour des données par mirroring des volumes MapR-FS (natif) DEVELOPPEMENT Livraison Industrialisée RECETTE / PRE PRODUCTION > Réécriture Livraison industrialisée PRODUCTION Données brutes Dataset Vue Métier
Conclusion Dédier un environnement pour la datascience Assurer de la fraicheur des données sans développement grâce au mirroring MAPR Définir le périmètre de responsabilité du datascientist et du dataengineer en fonction de leurs compétences Mettre en place un outil de data management Choisir un outil de data discovery avec les datascientists Références Projet Multi-Branches et Multi-Client
Sommaire Questions Réponses