Son importance & son architecture de référence Le BIG DATA : Son importance & son architecture de référence Salon MED IT le 29 Novembre 2017
1- La donnée est plus chère que le pétrole
Une transformation impressionnante !!! 12,3 milliards de dollars Une transformation impressionnante !!! 1,5 milliards de dollars 1 milliards de dollars
L’exploitation du pétrole
Existe-t-il d’autres richesses qui peuvent nous rendre aussi riches ? Selon LESECHOS.fr : Les GAFA, valent plus que Total, Sanofi, BNP Paribas et les 37 autres entreprises du CAC 40 Facebook vaut 4 fois la valeur de TOTAL en bourse. Plus de 400 milliards $ en bourse aujourd’hui VS 92 Milliards $ pour TOTAL Année de création : Facebook : 2004 VS 1927 pour TOTAL Facebook vend des données et Total vend du pétrole
La valeur de la donnée vaut plus chère que celle du pétrole « La connaissance vaut davantage que les matières premières » L’économie de la connaissance vous permet d’avoir une croissance infinie car elle est basée sur une matière 1ère infinie, à savoir, « la donnée ». Dr. Idriss Aberkane
Comment exploiter cette richesse ?
La solution est trouvée chez la plus grosse référence BIGDATA en Europe Présent à PARIS LONDRES NEW YORK JEMS-Datafactory 30 M€ de CA *prévisions 2017 Fondé en 2002
2- La donnée possède sa propre raffinerie
DATALAKE DE PRODUCTION
L’ARCHITECTURE DATALAKE Données Référentielles Besoins Utilisateurs Requêtage -------------------------Sources Externes ------------------------- Datalake Exposition des données Requêtage ad’hoc Intégration RAWDATA Datatable Algorithme & Calcul API Rest PorTail sécurisé Vues Métiers Reporting -------------------------Sources Internes ------------------------- Requetage De donnees API Rest Stockage Historisation Nettoyage / Consolidation / Sémantisation / Rejets / Enrichissement Meta Données Enrichissement Référentiels + Data Discovery Agrégats Calculs Croisements ODBC Alimentation en Batch et/ou en Temps Réel DataManagement (Qualité, Traçabilité, Gouvernance)
L’ARCHITECTURE DATALAKE Données Référentielles Besoins Utilisateurs Requêtage -------------------------Sources Externes ------------------------- Datalake Exposition des données Requêtage ad’hoc Intégration RAWDATA Datatable Algorithme & Calcul API Rest PorTail sécurisé Vues Métiers Reporting -------------------------Sources Internes ------------------------- Requetage De donnees API Rest Stockage Historisation Nettoyage / Consolidation / Sémantisation / Rejets / Enrichissement Meta Données Enrichissement Référentiels + Data Discovery Agrégats Calculs Croisements ODBC Alimentation en Batch et/ou en Temps Réel DataManagement (Qualité, Traçabilité, Gouvernance)
Publisher MAPR-stream ZOOM SUR L’INGESTION DES DONNEES 1 PRODUCER INIT HUB OMNICHANNEL Broker INCR récurrent INCR Publisher Consumer JMS / Publisher MAPR-stream Topic JMS Real Time Big Data Platform Source en temps réel JMS Output JMS Input HUB OMNICHANNEL (JSON) (JSON) Dépôt manuel INIT (JSON) 3 Consumer MAPR-stream CONSUMER Sources en mode batch (TXT) DM CRM Real Time Big Data Platform (TXT) Autres sources Data Lake récurrent … Enterprise Storage MapR-FS Database MapR-DB JSON Event Streaming MapR-Streams INIT (JSON) INCR (TXT) (JSON) Vision des flux entrants dans le Data Lake Vision INIT batch Vision RUN batch ou temps réel Zone de Transfert (JSON) 6 noeuds 4 2 RAWDATA STREAM
LES ACTEURS
Les différents acteurs BIGDATA Architect BIG DATA Identification du socle technique ( le choix des technologies) Etudier et gérer le dimensionnement de la plateforme Assurer le maintient applicatif de toutes les applications Data Engineer La mise en place des flux d’ingestions et de traitements des données Optimisation et industrialisation des algorithmes Déploiement en production Data Scientist L’exploitation des données La création du modèle de référence applicatif sur les données (algorithme) avec les descriptions Spécification des règles d’implémentation des données Représentant DLK en PROD La gestion d’exploitation de toutes les applications liées à DLK en production.
Les bonnes pratiques à adopter
Les 5 facteurs clés pour réussir un projet BIGDATA Etudier et choisir le socle technique de votre plateforme 1 Penser à la stabilité la plateforme 2 Construire et définir le périmètre de responsabilité des acteurs en fonction de leurs compétences Penser à l’exploitation de vos projets en production 3 Oublier la modélisation classique des données et dénormaliser au maximum vos Datasets. Penser aux performances Penser à la Data Gouvernance 4 Mettre en place un outil de data management 5 Innover Créer de la valeur
QUELQUES REFERENCES
GESTION DE LA FRAUDE CONFIDENTIEL Projet : Lutte anti-Fraude ciblée. Taille : 5 ETP // 700 jours (en cours) Description : Notre client ferroviaire souhaite optimiser son système anti-Fraude aux resquilleurs (248 millions d’euros de perte annuelle), en mettant en œuvre une architecture permettant de collecter l’ensemble des indicateurs (Capteurs machine + les Flux des passages par station + Les paiements effectués) en temps réel et obtenir une puissance de calcul afin de cibler les stations victimes. Mise à jour des systèmes sources en instaurant le temps réel, mise en place du datalake, implémentation des algorithmes développés par les datascientists, mise en œuvre d’une console de monitoring et système d’alerte pour les agents dédies au contrôle afin d’intervenir à la minute qui suit. Technologies : Talend, MapR, Qlik, Spark Streaming,Python ROI : Limitation de la fraude, 190 Millions d’euros d’économie par an. CONFIDENTIEL
CONNAISSANCE CLIENT CONFIDENTIEL Projet : Mise en place d’un DataLake Marketing – Vision 360° Taille : 11 ETP // 900 jours (en cours) Description & Objectifs : Notre client, leader de la vente de cosmétique, est actuellement en train de revoir son programme d’animation client pour l’ensemble des pays d’Europe et du Moyen Orient, l’objectif de cette réécriture des parcours clients est d’offrir une expérience unique et sur mesure en se basant sur une connaissance approfondie des clients et surtout en uniformisant l’ensemble des canaux de communication. Uses cases : optimisation parcours client, conseils aux clients multi-canaux, nouveaux services commercialisés auprès des créateurs, … Technologies : Talend, MapR, Qlik, Java, Spark, Scala, Dataiku, R, Python ROI : Croissance prévisionnelle de 20% niveau monde CONFIDENTIEL
MERCI POUR VOTRE ATTENTION Hicham BOUR-RHA hbour-rha@jems-group MERCI POUR VOTRE ATTENTION Hicham BOUR-RHA hbour-rha@jems-group.com RDV AU STAND 76