Concilier data scientists et environnement de production

Slides:



Advertisements
Présentations similaires
Thématiques, démarches et attentes particulières
Advertisements

Page 1 La problématique du décideur La solution du « décisionnel » Les outils existants Mener un projet décisionnel Démo on line Sommaire.
Comment ça marche ? Les sciences pour répondre aux questions de notre société Santé Alimentation Énergie Habitat Sciences de l'Ingénieur.
Le socle commun : des pistes pour la technologie Plan de la présentation : - Introduction - Contexte (socle commun et document eduscol) - Repérage des.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
Autrans 1 er & 2 juin /05/15. Journées prospectives LPSC – Autrans 1 er & 2 juin thèmes retenus par le CU Organisation des projets au LPSC.
Xen et l' Art de la Virtualization Antoine Nivard Responsable technique Adéquat région Ouest Responsable de Site francophone de XEN Computer.
Vers les usages... Le projet EnvOLE séminaire EOLE novembre 2006, Dijon Accueil Orientations Architecture Socle > EnvOLE Services > Centre de ressources.
Adopter le KM mix pour obtenir ou renforcer le leadership Préparé par: Ilham ELKORCHI Meriem NASIRI Mohammed BENMRAH Encadré par: Ouidad AMRANI.
Séquence 1 : Problème posé : A quoi sert une éolienne et de quels éléments est elle constituée ? énergie renouvelable classe de 4° Analyse de l'OT.
Les cinq domaines du socle Les compétences : - en CAP, BEP et bac pro - en Mathématiques pour le cycle 4 - en Physique-Chimie pour le cycle 4.
AG managers.
Cartographie d’une compétence système et
Le big data: un changement radical pour les sociétés
“Administration” du projet : Gestion documentaire Achats
De la cellule à l’animal entier en passant par les tissus…
Révolution numérique Données partagées Open data
D M A I C DEFINIR MESURER ANALYSER AMELIORER CONTROLER
Métiers des télécommunications
Des questions pour poursuivre la réflexion

Créer un collectif de travail, construire et animer un réseau
Les axes directeurs de la rénovation
SOMMAIRE 1: ORALE 2: Les 3 systèmes de gestion de base de donnés 3:ORACLE DATA BASE 4:MY SQL 5:Oppen Office.org Base 6:Concurrence Conclusion.
Nouveaux programmes Éducation Musicale BO spécial août 2008
BILAN D’ACTIVITES SEMESTRIEL 2014
BTS PILOTAGE de PROCÉDÉS
L’ organization comme fonction de gestion
Ouverture des données et des codes et innovation
Marketing opérationnel et stratégique
Profils d’emplois JT du 24 septembre 2001
Plans d’expériences: Plans de mélanges
C MOBILITÉ PROGRAMME INNOVATION RECHERCHE CONNAISSANCE MOBILITÉ
le plan de continuité d’activité ( le pca )
Green IT & Cloud L’empreinte écologique de vos actions numériques & règles juridiques. Désiré BRUCKMANN.
Méthodologie de la recherche Programme du module.
Et la vie lycéenne Vous présentent.
CeMEB La plateforme MBB
Son importance & son architecture de référence
CeMEB La plateforme MBB
Renaud Duysens (L’Oréal Libramont s.a.)
GOUVERNANCE DES SYSTEMES D’INFORMATION IS governance.
Conception des SIG Entre construction théorique et mise en œuvre opérationnelle.
Plan d'urbanisation Version / 02 / Nov Mai 2013 Passation des marchés Sommaire Une vision unifiée de l'urbanisation et de l'approche.
Chapitre2: SGBD et Datawarehouse. On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle.
COPIL EAUFRANCE Anne Macaire
Intégration des données secondaires pour les indicateurs ODD
Cadre institutionnel et gestion des ressources des SSN
Nouveaux programmes de Bac pro
17 mars 2015.
Analyse Fonctionnelle Structurelle Comportement des systèmes Mécanique
Le département QIF Qualité, Innovation, Fiabilité
Cécile Germain-Renaud – LRI
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Qualité : Validation des méthodes
PLATE FORME DE GESTION ÉLECTRONIQUE DE DOCUMENTS Présenté par: Amine LARIBI.
Autour du projet de l'équipe pédagogique de la classe de …
Les systèmes d’information de la branche retraite
DMP Comité opérationnel de déploiement Ille et Vilaine
LE LEADERSHIP. L’idée que nous nous faisons de ce que sont la direction d’une entreprise et le personnage qui l’exerce a considérablement évolué À PARTIR.
Mathématiques.
2nde et enseignement de spécialité 1ère
TITRE Interlocuteur date
International Featured Standards Réalisé par : - BEN SALAH Nisrine - FATHI Doaae Encadré par : Mr. TAZI Abdelali Université Sidi Mohammed Ben Abdellah.
Tableau de bord d’un système de recommandation
Mathématiques.
Innovation et son rôle dans l‘entreprise Préparé par : Mariem Bransi Sihem … Classe :
Evaluation et SGB(m) : quels enjeux et quelles possibilités ?
Mathématiques.
UX DESIGN User exprérience en anglais Expérience Utilisateur en français Concevoir, Créer, dessiner UX DESIGN, consiste à penser et concevoir un site web.
Transcription de la présentation:

Concilier data scientists et environnement de production 23 novembre 2016

Présentation Groupe JEMS Présent à PARIS LONDRES NEW YORK Fondé en 2002 30 M€ de CA *prévisions 2016 310 collaborateurs

ORGANISATION DE DONNEES Nos Périmètres d’Intervention Social Analytics Connaissance Client Datavisualisation Digital Marketing Modèles prédictifs Meta Data Enhancement DatawareHouse Offload Référentiels ETL COLLECTE & ORGANISATION DE DONNEES ANALYSE & VALORISATION DATA ENGINEER INFRASTRUCTURES Hadoop Virtualisation Stockage DEVELOPPEMENT & TRAITEMENT DATA SCIENTIST Map Reduce Spark Streaming Machine Learning

L’architecture datalake Données Référentielles Besoins Utilisateurs Requêtage -------------------------Sources Externes ------------------------- Datalake Exposition des données Requêtage ad’hoc Intégration Données Brutes DataSets Algorithme & Calcul API Rest PorTail sécurisé Vues Métiers Reporting -------------------------Sources Internes ------------------------- Requetage De donnees API Rest Stockage Historisation Nettoyage / Consolidation / Sémantisation / Rejets / Enrichissement Meta Données Enrichissement Référentiels + Data Discovery Agrégats Calculs Croisements ODBC Alimentation en Batch et/ou en Temps Réel DataManagement (Qualité, Traçabilité, Gouvernance)

Agrégats Calculs Croisements Agrégats Calculs Croisements Zoom sur les vues métiers + Vue Métier Agrégats Calculs Croisements Vue métier Vision 360° DataSets + Vue Métier Agrégats Calculs Croisements Vue Métier Orienté Datascience Nettoyage / Consolidation / Sémantisation / Rejets / Enrichissement Meta Données Enrichissement Référentiels + Vue Métier Agrégats Calculs Croisements Fabrication de segments Edition de fichiers

Positionnement de la Datascience Données Référentielles Besoins Utilisateurs Requêtage -------------------------Sources Externes ------------------------- Datalake Exposition des données Requêtage ad’hoc Intégration Données Brutes DataSet Algorithme & Calcul API Rest PorTail sécurisé Vue Métier Reporting -------------------------Sources Internes ------------------------- Requetage De donnees API Rest Stockage Historisation Nettoyage / Consolidation / Sémantisation / Rejets / Enrichissement Meta Données Enrichissement Référentiels + Data Discovery Agrégats Calculs Croisements ODBC Alimentation en Batch et/ou en Temps Réel DataManagement (Qualité, Traçabilité, Gouvernance)

Les besoins des datascientists Un environnement analytique et exploratoire : le datalab Une approche expérimentale orientée recherche / innovation Le DataLab est un vecteur de diffusion de la démarche Big Data au sein des entreprises Les objectifs du datalab Créer les conditions pour un accès libre aux données afin de favoriser l'innovation en matière d'analyse Créer des prototypes et des modèles d'analyse pour expérimenter des données Offrir une capacité à transformer des données volumineuses en analyse métier Références Projet Multi-Branches et Multi-Client

Les dilemnes du Datalab Comment libérer l’accès aux données ? Sans risquer la perte des données Comment lancer des traitements d’exploration de données volumineux ? Sans mettre en péril les traitements de production En créant un environnement dédié au datalab MAIS Comment garantir la fraîcheur des données ? Comment industrialiser la mise en production des algorithmes ? Le data scientist est un expert en modèles mathématiques spécifiques (machine learning, statistiques) et informatique. Il doit comprendre rapidement le domaine métier dans lequel il évolue. Le tout pour traiter au mieux les données dont il dispose et en tirer une plus-value essentielle au métier. Le data scientist doit connaître deux domaines mathématiques : Le machine learning ou apprentissage automatique, les statistiques. Le machine learning: Le data scientist donne la faculté d’apprendre à la machine au fur et à mesure des expériences et de l’ajout de données. Les statistiques: La data scientist mesure des datas. Dans ce but, il doit comprendre comment interpréter les indicateurs trouvés, et pouvoir juger de leur pertinence. De plus, des échantillonnages représentatifs sont souvent nécessaires pour accélérer les premières étapes d’analyse. l’informatique: C’est un peu le laboratoire du data scientist, l’informatique doit être un domaine bien compris car le traitement des données et l’utilisation de certains outils doivent être le plus efficaces possibles. le métier: Le data scientist va devoir trouver des croisements (corrélations) de données à exploiter pour augmenter un bénéfice, diminuer une perte, déceler une maladie,anomalie … Dans ce but il doit analyser des données complexes. Une connaissance approfondie du métier est donc nécessaire. Connaître les paramètres importants du churn, Savoir mesurer une campagne marketing réussi et dans quelle mesure selon les segments de clients, Et plein d’autres thématiques métiers …

Stockage / Calcul / requêtage Choix des utilisateurs Identifier un socle commun a tous les environnements Stockage / Calcul / requêtage Data Management Data Discovery Data Reporting Socle technique Structurant Front-End Choix des utilisateurs DATALAB Data discovery & Advanced Analytics / Transformations simples / Visualisation / Création de Dataset / algorithmes Analyse expérimentale DEVELOPPEMENT Développement / Monitoring / Gestion des erreurs / Optimisation du code Industrialisation RECETTE / PRE PRODUCTION Valider les développements, les résultats et la performance Recette & tests Expliquer les 4 environnements PRODUCTION Intégration continue / monitoring des traitements / gestion des erreurs Production

par mirroring des volumes MapR-FS Récupération des données fraîches Read Only Read Write MAJ DES DONNEES DATALAB Données brutes Dataset Vue Métier Espace de travail Mise à jour des données par mirroring des volumes MapR-FS (natif) DEVELOPPEMENT RECETTE / PRE PRODUCTION > Réécriture Pas de développement PRODUCTION Données brutes Dataset Vue Métier

Le mirroring avec MapR Flexible Rapide Sécurisé Facile Choix des volumes Le miroir peut être partiel Actif / Actif Rapide Pas d’impact sur les performances Block-level (8KB) deltas Compression automatique Sécurisé Consistance des données Facile Pas de logiciel complémentaire requis Moins de 2 minutes à paramétrer More coming with CloudSync and real-time master/master replication for tables

Les étapes de création et d’industrialisation d’un algorithme Identification des sources Collecte des données (si besoin) Création du code et algorithme Optimisation et industrialisation Déploiement en production DATASCIENTIST DATASCIENTIST DATAENGINEER DATAENGINEER

par mirroring des volumes MapR-FS Industrialiser les algorithmes Read Only Read Write Algorithme & Calcul MAJ DES DONNEES DATALAB Données brutes Dataset Vue Métier Espace de travail Réécriture / Optimisation / Industrialisation Mise à jour des données par mirroring des volumes MapR-FS (natif) DEVELOPPEMENT Livraison Industrialisée RECETTE / PRE PRODUCTION > Réécriture Livraison industrialisée PRODUCTION Données brutes Dataset Vue Métier

Conclusion Dédier un environnement pour la datascience Assurer de la fraicheur des données sans développement grâce au mirroring MAPR Définir le périmètre de responsabilité du datascientist et du dataengineer en fonction de leurs compétences Mettre en place un outil de data management Choisir un outil de data discovery avec les datascientists Références Projet Multi-Branches et Multi-Client

Sommaire Questions Réponses