COMMENT LE DATA MINING A INFLUENCÉ L’ÉVOLUTION DES ARCHITECTURES BIG DATA ? JULIEN BLAIZE Product Manager SPAD 07/04/2016.

Slides:

Advertisements

Présentations similaires

GEF 435 Principes des systèmes dexploitation Les systèmes dexploitation en général (Tanenbaum 1.1 et 1.3)

Advertisements

Exposés logiciels, systèmes et réseaux

« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.

A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.

Classification et prédiction

Sensibilisation à l’Algorithmique

Sensibilisation à l’Algorithmique et structure de données

Module Systèmes dexploitation Chapitre 6 Communication Interprocessus Partie III École Normale Supérieure Tétouan Département Informatique

Excel 2007 et les services Excel. Pourquoi Excel ? Outil privilégié danalyse des données issues des bases multidimensionnelles Ergonomie connue des outils.

Sujet BL1 : Simulateur de comportement réactif Bernard Clément Barelli Nicolas Maitrehut Loïc Ould Sidina Mahi Encadrant : Mr Michel Buffa.

Le Grid Computing Par Frédéric ARLHAC & Jérôme MATTERA.

Le Grid Computing et son utilisation dans les entreprises et les industries Laurent CANTONE Résoul UNAL.

Novembre 2012 BIENVENUE Markus Jaton Régis Le Coultre Michaël Sandoz Christophe Greppin Fabien Dutoit.

Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.

Lutilisation de la Cloudwatt-box Emmanuel Keller, CTO OpenSearchServer.

Quel serveur pour vous?.

Méthode des k plus proches voisins

Groupe 1: Classes de même intervalle

DataLab® Toute la connaissance client en quelques minutes

Développement d’un réseau social professionnel

Crystal Reports COPYRIGHT © 2007 BUSINESS OBJECTS SA. TOUS DROITS RÉSERVÉS. DIAPOSITIVE 2 Informatique - Déclaration de positionnement Crystal Reports.

Optimisation et parallélisation de code pour processeur à instructions SIMD multimedia François Ferrand.

Hiérarchie de la mémoire

Gestion de Fichiers Tri Interne Efficace et Tri Externe.

Concurrent Versatile Versions

Présentation de l’outil INDICO

Les systèmes multiplateformes

Le forage de données ou data mining

BIGDATA Stella Kemgang Samuel Quettier Dzung Nguyen Cyrille Meli

Développement dapplication avec base de données Semaine 10 : WCF avec Entité Framework Automne 2013.

8INF856 Programmation sur architectures parallèles

November 2012 BIENVENUE Markus Jaton Régis Le Coultre Michaël Sandoz Christophe Greppin Fabien Dutoit.

Réalisé par : Mr IRZIM Hédi Mr JRAD Firas

Modèles et protocoles de cohérence des données en environnement volatil Grid Data Service IRISA (Rennes), LIP (Lyon) et LIP6 (Paris) Loïc Cudennec Superviseurs.

Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.

1 Enterprise Europe Network : réseau européen d’appui aux PME Pascal Gautier ) La CCI.

Fast and Furious Decision Tree Induction

Fast and Furious Decision Tree Induction Projet 4INFO 1 Andra BLAJ Nicolas DESFEUX Emeline ESCOLIVET Simon MANDEMENT Renaud PHILIPPE Gareth THIVEUX Encadreurs.

Introduction au Génie Logiciel

D. E ZEGOUR Institut National d ’Informatique

Extrait du Referentiel BTS Systèmes numériques Options : Informatique et réseaux et Électronique et communication S1 à S9 Définition des savoirs et savoir-faire.

GF-11: Tri Interne Efficace et Tri Externe

Logiciel libre ou commercial? Benjamin Thominet, le 31/01/2004.

Un service de partage de données pour DIET : GDS basé sur JuxMem Mathieu Jan Projet PARIS Lyon, 5 décembre 2003.

Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.

Synthèse d’images et Rendu Réaliste Compression Progressive de Modèles 3D DOMENGET Bruno DUMAS Benjamin EISTI.

21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.

Intégration des Tableaux Multidimensionnels en Pig pour

Module 2 : Planification de l'installation de SQL Server

MINI‐PROJET DE GROUPE REALISE DANS LE CADRE DU COURS DE GEN

Lellouche Aaron ITIC Paris

HEPIX N. Neyroud 1.

Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.

développeur informatique

Comment choisir son MCU (ou autre DSP, FPGA …) ?

RAPIDO SITUATION ▪France & Europe MÉTIER ▪Construction de véhicules automobiles (2910Z) NOMBRE D’EMPLOYÉS ▪600 CHIFFRE D’AFFAIRES SOLUTION.

Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.

6 ème Edition des Morocco Awards DOSSIER DE CANDIDATURE 2015 Numéro et Date de dépôt de la marque candidate : _______________________________ Le(s) produit.

Algorithmes parallèles

Raison d'être de la structure de fichiers : Les premiers travaux : Début des années 1960 : En 1963 : Près de 10 ans plus tard... (à peu près 1973) : Durant.

Les bascules et registres

Café In: A quoi ca sert la recherche sur la programmation? Comment peut on faire travailler des ordinateurs ensemble? Ludovic Henrio SCALE TeamSCALE Team.

Le Pitch appliqué au recrutement

Vaissie p. – MONGE A. - HUSSON F.

BABAR Georges Vasseur CEA Saclay, DSM/IRFU/SPP Workshop sur l’analyse des données au centre de calcul de Lyon 17 avril 2008.

Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.

Hadoop distributions Hadoop Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées.

1 Interne Orange Accédez à votre système d'information depuis votre terminal mobile Nomalys.

Transcription de la présentation:

COMMENT LE DATA MINING A INFLUENCÉ L’ÉVOLUTION DES ARCHITECTURES BIG DATA ? JULIEN BLAIZE Product Manager SPAD 07/04/2016

COHERIS - EDITEUR DE SOLUTIONS CRM & BUSINESS ANALYTICS CA M€ 147 collaborateurs 86 PAYS CLIENTS LEADERS SUR LEUR MARCHÉ 22 % investi en R&D Cotée sur Euronext 25 % à l’international Label Entreprise Innovante Lauréat Trophée de l’innovation Big Data

1PARLONS INFORMATIQUE 2PARLONS STATISTIQUE 3ET ÇA CHANGE QUOI POUR MOI ? 3

PARLONS INFORMATIQUE 1 4

PARADIGMES D’ACCÈS AUX DONNÉES  Données partagées  Les données sont stockées dans un endroit unique  Plusieurs processeurs accèdent à la même RAM/au même disque en parallèle  Les processeurs échangent des données dans la RAM/le disque  Exemple : fonctionnement de votre ordinateur personnel multi-cœurs  Données distribuées  Un réseau d’ordinateurs qui travaillent ensemble  Les données sont réparties entre les machines  Les machines échangent des messages par le réseau  Exemple : le projet SETI qui recherche les extras-terrestre en utilisant les ordinateurs personnels 5

CONSTAT BIG DATA LL es 3 V VV olume : de plus en plus de données VV itesse : les données changent de plus en plus rapidement VV ariété : de multiples formes nouvelles de données apparaissent EE xplosion du volume des données, elles ne peuvent plus être stockées sur une seule machine. OO n ne peut plus utiliser le paradigme des données partagées SS i on utilise le paradigme des données distribuées on fait voyager de plus en plus de données sur le réseau jusqu’à saturation. II l faut trouver une alternative 6

2 IDÉES NOVATRICES ET COMPLÉMENTAIRES  Jeffrey Dean et Sanjay Ghemahat (2004, Google)  Plutôt que de déplacer les données par le réseau, déplaçons le code  Création du framework Map/Reduce (Inspiré de LISP)  Simplifie le développement d’applications massivement parallèles.  Doug Cutting et Michael J. Cafarella (2006, Apache)  Travaillent sur Nutch et créent un système de fichiers distribués (NDFS).  Après la publication de Dean et Ghemahat, ils créent Hadoop qui permet de faire fonctionner des applications Map/Reduce sur leur système de fichiers distribués.  NDFS devient HDFS (Hadoop Distributed File System)  Hadoop : une solution accessible à tous pour traiter le V de Volume. 7

FONCTIONNEMENT DE MAP/REDUCE M1M1 M2M2 M3M3 Code R1R1 R2R2 i1 i2 i3 o1 o2 a b c d Données en entrée MappersReducers Copie du code Données en sortie HDFS Cluster de machines rd1 rd2 Shuffle 8

EXEMPLE SIMPLISTE (1/2)  Calcul de la moyenne en Map/Reduce  On veut calculer la moyenne du salaire des hommes et celui des femmes  C’est simple à paralléliser car on peut faire une moyenne de moyennes  Les statistiques nécessaires sont la moyenne et le poids des individus M1M1 M2M2 R1R1 R2R2 ♂ [µ;30] ♀ [µ;42] ♂ [µ;22] ♀ [µ;18] ♂ [µ;52] ♀ [µ;60] 30 ♂ 42 ♀ ♂ [µ;30] ♂ [µ;22] ♀ [µ;42] ♀ [µ;18] 22 ♂ 18 ♀ 9

EXEMPLE SIMPLISTE (2/2)  Calcul de la médiane en Map/Reduce  Traditionnellement on a besoin d’avoir tous les individus triés  On ne peut pas agréger facilement des médianes  Quelle sont les statistiques nécessaires ?  Conclusion  Certains algorithmes sont évidents à programmer en mémoire distribuée  D’autres algorithmes demandent beaucoup plus de travail. 10

PARLONS STATISTIQUES 2 11

APACHE MAHOUT  Une librairie dédiée à l’écriture d’algorithmes pour Hadoop. ( depuis 2008)  Bénéficient de Map/Reduce:  Filtrage collaboratif  Bayésien naïf  Forêt aléatoire  ACP (fait avec une SVD stochastique)  Streaming K-means (Shingler et al)  Latent Dirichlet Allocation  …  Fonctionnent dans l’architecture mais sur une seule machine (échec ?)  Régression logistique (par SGD)  Perceptron multicouches  … 12

NAISSANCE D’UNE ALTERNATIVE “RDDs are motivated by two types of applications that current computing frameworks handle inefficiently: iterative algorithms and interactive data mining tools.” (M. Zaharia et al, Berkeley)  RDD : Resilient Distributed Datasets  Des données distribuées que l’on peut accéder « presque » comme des données partagées.  On ne doit plus adapter les algorithmes de datamining à Map/Reduce mais on adapte la lecture des données aux besoins des algorithmes. 13

QUELLE DIFFÉRENCE AVEC HADOOP ? P1P1 tmp1input P2P2 tmp1 P2P2 output P1P1 input P2P2 P2P2 output  Les algorithmes se compose de tâches qui s’enchainent et réutilisent les résultats intermédiaires précédents  Hadoop stocke les résultats intermédiaires sur disque  Spark utilise un cache pour accélérer les traitements= In Memory 14

SPARK  Promesse d’un gain de performance jusqu’à X100  Librairie Mlib dédié au machine learning.  Librairie GraphX pour l’analyse de Graph.  Plus d’algorithmes déjà disponible dans Mlib que dans Mahout qui a commencé avant.  Aujourd’hui un des projets open-source les plus actifs dans le monde du Big Data. 15

SYNTHÈSE  Les avancées portées par les informaticiens dans le monde du Big Data ont apporté un premier lot d’outils aux statisticiens avec Map/Reduce et Hadoop. Mais tous les algorithmes ne pouvaient pas être adaptés.  Spark qui s’adapte mieux aux besoins des algorithmes de datamining marque une nouvelle avancée importante.  Comment ces outils modifient ils notre façon de travailler ? 16

ET ÇA CHANGE QUOI POUR MOI ? 3 17

QUELS GAINS POUR LES STATISTICIENS ?  Quelques gains évidents de la parallélisation et de Map/Reduce.  Nous pouvons facilement paralléliser l’application d’un modèle déjà construit sur un échantillon.  Si on peut construire un modèle sur 1 seule machine on peut faire la validation croisée en parallèle sur d’autres machines.  Recherche plus rapide des paramètres optimaux d’une méthode. 18

ÉVOLUTION DES OUTILS (1/2)  J’ai un outil habituel pour mes besoins de datamining  J’ai accès à un entrepôt Big Data Hadoop sur lequel j’ai installé Spark.  Comment faire tourner mes algorithmes R sur les données Big Data ?  Il y a des solutions payantes (vous les trouverez facilement)  Il existe R Map/Reduce ou SparkR (R on Spark).  Il est possible de programmer en Scala, Java, Python,… directement dans Spark.  Par exemple SPAD  Par exemple SPAD R (je suis pas là pour faire de la pub) 19

ÉVOLUTION DES OUTILS (2/2)  On a alors le choix des algorithmes  1 - Ceux inclus dans l’architecture Big Data installée (par ex :Mahout ou Spark).  2 - Ceux de l’outil (ici R) qui tourneront probablement sur un seul nœud du cluster et sur un échantillon.  3 - Développer nous-mêmes nos fonctions Map/Reduce … ?  Le commun des mortels ira vers le choix 1. 20

EXEMPLE : UNE TYPOLOGIE  Mise en classes des continues  Analyse des Correspondances Multiples  Kmeans sur les individus pour obtenir une sous population pour ma CAH (par ex : 200 points)  Classification Ascendante Hiérarchique  Description des classes de la CAH  Mise en classes des continues Outil classiqueSpark  Ah non, finalement une ACP stochastique et abandon des nominales  Kmeans sur les individus pour obtenir une sous population pour ma CAH (par ex : 200 points)  Pas de CAH du coup seulement Kmeans  Description des classes des Kmeans (inutile) 21

SYNDROME DE L’AUTOROUTE  Le volume des données et l’architecture utilisée pour le gérer doivent ils restreindre nos possibilités ?  On va vite vers un endroit habituel et connu de tous.  On prend le temps de chercher et on peut trouver des choses intéressantes. 22

PROBLÈME DE LA BOITE NOIRE  Une grande partie des algorithmes implémentés dans ce type de Framework sont beaucoup plus complexes à interpréter.  Méthodes stochastiques  Méthodes ensemblistes (Forêts aléatoires plutôt qu’Arbre de décision)  Doit-on faire le choix de la qualité d’un modèle au détriment de son interprétation ?  Comment critiquer ou comparer la pertinence de résultats dont on ne pourra pas expliquer le calcul ? 23

EN CONCLUSION  Les besoins spécifiques du datamining prennent de l’importance dans les architectures Big Data et deviennent un moteur d’innovation.  Il est déjà possible d’analyser des données Big Data et les ajouts de méthodes connues dans ces architectures est rapide.  Il ne tient qu’à nous éditeurs ou chercheurs de contribuer plus.  Il faut garder un œil critique sur le véritable besoin d’utiliser l’ensemble des données.  Un échantillon peut-il donner d’aussi bons résultats ?  Le 2éme V (Vitesse) du Big Data nous laisse penser que les données analysées sont de toute façon un échantillon de ce que l’on aura dans 1 mois, 1 semaine. 24

BIBLIOGRAPHIE  Map-Reduce for Machine Learning on Multicore (C. T. Chu et al)  Fast and Accurate k-Means For Large Datasets (Shindler et al)  Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing (M. Zaharia et al)   dit-hadoop-1re-partie/ 25

VOTRE CONTACT :JULIEN BLAIZE COHERIS, 4, RUE DU PORT AUX VINS