Institut Galilée Séminaire Business Analytics, 18/01/2013 Enjeux, Réalités et Impacts dans les organisations Reda GOMERY, Directeur BI, Keyrus.

Institut Galilée Séminaire Business Analytics, 18/01/2013 Enjeux, Réalités et Impacts dans les organisations Reda GOMERY, Directeur BI, Keyrus

Enjeux : une prolifération constante des données
Big data – Présentation Enjeux : une prolifération constante des données Ordinateurs Bases de données (*)1,8 Zo Internet …de données stockées en 2011 Puces 48% 800 Md Go …de données générées sur internet en 2010 …de croissance des données prévue Sur la seule année 2012 Réseaux sociaux Capteurs 50 à 75% RFID Appareils numériques …de croissance annuelles des données non structurées Moyens de paiement Videos Mobilité * Estimations de différents analystes type IDC

Enjeux : L’augmentation des capacités analytiques
Big data – Les apports business Enjeux : L’augmentation des capacités analytiques L’analyse des données brutes pour des analyses plus fines L’accès aux données non-structurées permet d’enrichir les analyses quantitatives de la BI traditionnelles avec des informations de contexte, de contenu, afin d’en comprendre le sens et d’en extraire des séquences ou des phénomènes Par exemple, on pourra, analyser les contacts clients avec le call center en explorant le contenu des s, des appels vocaux, et mixer ces informations avec la navigation sur le site internet, l’étude des messages échangés sur les réseaux sociaux (facebook, twitter, linkedin, …) pour comprendre les tendances : de quels produits parle-t-on le plus? Est-ce en bien ou en mal? Quels seraient les nouveautés intéressantes?... La détection de phénomènes et séquences (patterns) En explorant une grande masse d’information, l’analyse big data a le potentiel de faire émerger des phénomènes récurrents conduisant à des résultats souhaités Par exemple, on pourra analyser la navigation d’un client sur internet qui le conduit à effectuer un achat, ou encore, on pourra déterminer quels sont les influenceurs qu’il faut cibler pour réduire des coûts de communication. 5

Enjeux : L’augmentation des capacités techniques
Big data – Les apports business Enjeux : L’augmentation des capacités techniques Très hautes performances Les systèmes big data en s’intégrant au SI offre des capacités à gérer de très gros volumes de données et peuvent à ce titre être également utilisés pour la BI traditionnelle et permettre d’excellent temps de réponse aux requêtes complexes parcourant un important volume de données. D’autre part, en effectuant des traitements d’analyses directement en base de données, l’étape d’extraction des données de l’entrepôt vers un espace d’analyse est supprimée, ce qui permet de réduire les délais de mise à disposition des données d’analyse et d’augmenter la fréquence des itérations. Temps réel : Des analyses supportant la mise en place d’alertes et de recommandations sur combinaisons d’événements Les analyses big data permettent alors d’implémenter dans les systèmes, des moteurs temps réel de recommandations et d’alertes qui aident les opérationnels à prendre les bonnes décisions

Enjeux : Applications sectorielles
Big data – Les apports business Enjeux : Applications sectorielles Amazon.com est un des pionniers des recommandations produits basées sur le big data en analysant l’historique des achats, les notes des produits, les webs logs et les commentaires laissés sur son site. Quelques autres exemples de cas métier : Attrition client basée sur les données du call center, du help desk, de trafic du site web TELECOM Mesure de la e-réputation et analyse de tendances basées sur les données des réseaux sociaux MARKETING Optimisation du support technique basée sur l’analyse du contenu des tickets de helpdesk croisé avec le contenu public disponible sur les forums techniques SUPPORT IT Système de prévention et surveillance épidémiologique basé sur des déclarations de médecins et le social web SANTE Recherche scientifique : extraire de l’information de très grands volumes de données (images, textes) SCIENCE Optimisation de la production d’énergie basé sur la collecte de compteurs intelligents, des prévisions météo, … ENERGIE Analyse des données échangées sur des réseaux de jeu pour déterminer les orientations futures du produit GAMING Analyse des patterns à partir des mouvements unitaires d’un compte et croisements avec des données externes pour déterminer les bons emprunteurs FINANCES

Réalités : Concept BIG DATA et questions dans les entreprises
Big data – Présentation Réalités : Concept BIG DATA et questions dans les entreprises « Big Data » est le terme communément appliqué aux grands ensembles de données qu’il devient difficile en raison de leur volume, velocité ou variété/complexité (données non- structurées) de capturer, gérer et traiter efficacement avec les outils logiciels classiques. Volume Velocité Variété Qui est concerné par le Big Data ? Quelle est la valeur pour l’Entreprise ? Comment identifier les usages ? Quels sont les coûts ? Comment le décliner ? Quels sont les impacts? Selon un récent sondage IDC, 73% déclarent se préparer à « faire des choses qu’il était impossible de faire jusqu’ici…

Réalités : D’un cercle vertueux à une chaine infernale
La remise en cause du modèle classique Réalités : D’un cercle vertueux à une chaine infernale L’état de l’art Des besoins métiers et des cas d’usage bien identifiés Une catégorisation des besoins: reporting opérationnel, reporting décisionnel, reporting stratégique Des spécifications et des développements pour répondre aux besoins exprimés Un architecture en trois couches: ODS, DWH, DM Un modèle dénormalisé et optimisé Des outils rapides à mettre en œuvre et souples Réactivité et maitrise de l’évolution des besoins La vraie vie Un manque de visibilité sur les cas d’usages et les besoins Une méconnaissance des données existantes Des applications en difficulté: traitements de rafraichissement trop long/des requêtes et rapport lents/Nombre importants de requête en simultané Une modélisation décisionnelle qui atteint ses limites Des données cloisonnées et des applications en silos Des problèmes de cohérence et de qualité des données Des projets en dérive, des utilisateurs mécontents DW

Réalités : De nouvelles donnes
La remise en cause du modèle classique Réalités : De nouvelles donnes Une augmentation constante voire l’explosion du patrimoine de données de l’entreprise Une exploitation de nouvelles sources de données (réseaux sociaux) et de données non structurées Une évolution des habitudes de consommation de l’information « Web 2.0 » De nouveaux usages (BI mobile, BI temps réel…) Un besoin de transversalité en forte progression Des exigences accrues en terme de réactivité Des transformations fonctionnelles et sectorielles profondes (ex: capteurs intelligents dans le secteur de l’énergie) Le renforcement des rôles de « data analyst », « data scientist » Le développement de l’acquisition de données externes et de providers de données

Sources traditionnelles
Big data – Présentation Impacts : Les différences entre Data warehouse traditionnel et Analyses Big data Les environnements d’analyses Big data ne visent pas à remplacer la BI/data warehouse traditionnels mais à les compléter, ils doivent être totalement intégrés en permettant de faire émerger des phénomènes depuis des données brutes : DATA WAREHOUSE (BI traditionnelle) PLATEFORME BIG DATA Sources de données essentiellement internes, connues et structurées Modèles de données stables La majorité des données sont des données historiques De nombreux rapports produits de manière récurrente Nombreuses sources externes Importants volumes de données non-structurées Besoin d’itérations rapides pour expérimenter des hypothèses L’analyse est faite sur des données qui restent dans leur état brut Sources traditionnelles Nouvelles sources

Solutions : Le mot qui fait le Buzz
Le développement du concept de Big Data Solutions : Le mot qui fait le Buzz « Big Data » est le terme communément appliqué aux grands ensembles de données qu’il devient difficile en raison de leur volume, velocité ou variété/complexité (données non-structurées) de capturer, gérer et traiter efficacement avec les outils logiciels classiques. Nos clients mettent en avant: La nécessité croissante d’analyser les données cœur de métier ainsi que l’attente d’une plus grande vitesse de collecte, de restitution voire de création de nouveaux modèles de la part des métiers. Et la capacité à traiter de grands volumes de données. La variété et la vélocité sont rarement un enjeux pour le décisionnel Les directions informatiques perçoivent ce nouveau type de besoins d’analyse de la part des métiers: Certains ont déjà implémenté une base de données en colonne spécialisée pour les environnements décisionnels La plupart ont identifié les innovations tel que les appliances comme un levier pour la gestion de leur données Ils perçoivent les bénéfices induits du Big Data pour l’IT Efficacité du SI, meilleurs contrôle des données, une refonte technique mais aussi potentiellement méthodologique de la BI

Des bases de données standards aux appliances hautes performances
Solutions : Des bases de données standards aux appliances hautes performances Depuis les années 80, le marché des bases de données d’entreprises a peu évolué Pourtant ce ne sont pas les innovations qui manquent: NoSQL (Not Only SQL) MPP (Massively Parallel Processing) Stockage in memory bases de données en colonnes, … L’acquisition des éditeurs spécialisés par les grands éditeurs (IBM/Netezza, EMC/Greenplum, …) permet d’accélérer l’évolution des bases de données et les outils d’analyses et l’essor des Appliances décisionnelles.

Solutions : Acteurs du marché et solutions retenues
Appliances: Etat du marché Solutions : Acteurs du marché et solutions retenues IBM Netezza Solution MPP (traitements massivement parallèles) Installation Appliance seule Offre initiale depuis 2000 ; version actuelle depuis 2004 Teradata Offre initiale depuis 1983 ; version actuelle depuis 2009 EMC Greenplum Appliance et Software, (stockage colonne et hybride) Offre initiale depuis 2005 HP Vertica Base de données en mode colonne Oracle Exadata Appliance Data WareHouse Stockage mixte (flash et disque), mode colonne et compression Version 11g Exadata depuis 2008 SAP HANA Configuration mixte appliance et software Offre initiale depuis 2011 HP Analytics SAS Solution MPP In m emory Solution MPP In m emory Offre initiale depuis 2011

Solutions : Hadoop, MapReduce et extensions
Big data – Panorama des éditeurs Solutions : Hadoop, MapReduce et extensions MapReduce est un framework de développement inventé par Google pour effectuer des calculs parallèles. MapReduce se décompose en 2 étapes : Dans l'étape Map le nœud à qui est soumis un problème, le découpe en sous-problèmes, et les délègue à d'autre nœuds (qui peuvent en faire de même récursivement). Les sous-problèmes sont ensuite traités par les différents nœuds à l'aide de la fonction Map qui à un couple (clé, valeur) associe un ensemble de nouveaux couples (clé, valeur). Vient ensuite l'étape Reduce, où les nœuds les plus bas font remonter leurs résultats au nœud parent qui les avait sollicités. Celui-ci calcule un résultat partiel à l'aide de la fonction Reduce (réduction) qui associe toutes les valeurs correspondant à la même clé à une unique paire (clé, valeur). Puis il remonte l'information à son tour. Hadoop est un framework Java open source destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données sur du matériel banalisé. L’écosystème Hadoop est composé de : Hadoop Common, HDFS, MapReduce, ZooKeeper, Avro, Chukwa, HBase, Hive, Mahout, Flume, Pig… Hadoop est utilisé par des entreprises comme eBay, Apple, Fox interactive Media, Disney, … Informatica est un des leaders de l’intégration de données. HParser est un environnement de transformation de données (gestionnaire de données) optimisé pour Hadoop. Ce logiciel d'analyse sans code et convivial permet le traitement de tout format de fichier dans Hadoop, avec adaptabilité et efficacité. PowerExchange For SocialMedia permet l’extraction des données des principaux réseaux sociaux. MapReduce

ApplianceS – Notre vision
Solutions Un paysage fractionné : Derrière le terme Appliance existe en fait un paysage où les offres sont non alignées et ne permettent pas une comparaison simple : certaines Appliance sont des bundle commerciaux, d’autres sont des softwares virtualisés, et même déployables en mode « Cloud » Les cas d’usages du marché : Les retours d’expérience accessibles sont aujourd’hui ceux de mise en œuvre de nouveaux cas d’usage, et non d’amélioration continue d’un SI Décisionnel. Pour tirer des performances améliorées du déploiement d’une Appliance, les retours d’expérience montrent qu’il est nécessaire de travailler sur les logiques de traitements (en imports ou internes) De plus certaines limites de l’exercice suivante doivent être gardées à l’esprit : L’aspect coût reste au niveau « grande orientation », De nombreuses configurations existent pour chaque outil et le choix du matériel est essentiel. Il n’est donc pas possible d’établir de base de comparaison stable De plus, la méthode d’appel d’offre et la mise en concurrence des offreurs est source d’une grande variabilité dans les prix obtenus (par rapport aux prix catalogues). L’aspect performance subit le même sort : la performance dépend du serveur … et donc du prix. En conséquence, nous avons évalué ces critères sur la base des technologies sous-jacentes et de nos retours d’expérience sur de telles comparaisons. Cependant, une comparaison mesurée, quantifiée, devrait être faite dans le cadre de POCs

Les projets d’appliances BI
Points d’attention Marketing Trop d’entreprises tentent de faire partie de cette tendance Les messages et bénéfices clés sont noyés dans ce “bruit” Présenté comme une solution à tous les problèmes BI Ressources et compétences analytiques Qui peut comprendre ce volume de données? Qui a les compétences techniques ? Qui valide les modèles et les conclusions des analyses? Mutation des profils technologiques Nouveau processus de fabrication de la BI Nouveautés technologiques  montée en compétence Rationalisation (scalabillité) Technologies Beaucoup de nouvelles innovations plus ou moins matures, peu de retours d’expérience Coûts élevés (Hardware, Software, compétences) Trouver le bon indicateur de ROI pour justifier l’investissement Intégration au sein du SID intégration de BD Une adaptation des processus ETL existants Impact sur les outils de requêtage

Positionnement :Une offre complète pour vos projets Big Data
BIG DATA – L’ offre Keyrus Positionnement :Une offre complète pour vos projets Big Data Maîtrise totale des projets Big Data R&D, Conseil, POCs Evaluation de technologie Frameworks, Best practices Focus sur Text analytics, Web analytics, SMA, SNA, CEP, Unstructured DI VLDB & HPC Platform Ingénierie et Management Infrastructures. Partenariats stratégiques Haut niveau de partenariat avec les éditeurs clés : Oracle Exadata, Microsoft, EMC Greenplum, IBM Netezza, IBM BigInsights, SAP HANA, Informatica. Engagements stratégiques Engagement technique fort avec les technologies : In Memory (SAP Hana) et Appliance EMC Greenplum. Création de frameworks (Double Verify). Maquette Informatica 9 avec les connecteurs PowerExchange Social Media. Large offre d’infrastructures Cloud Plusieurs offres d’infrastructures en mode Cloud : Infrastructure Cloud partagée. Remaniement, déploiement et migration. Cloud sécurité, monitoring et supports.

Client DoubleVerify - Focus sur une réalisation 2012
30/03/2017 BIG DATA – L’ offre Keyrus Client DoubleVerify - Focus sur une réalisation 2012 Réalisation du projet Big Data de DoubleVerify Mise en place de l’architecture via la conduite du POC DoubleVerify est un leader mondiale de la vérification des médias online. DoubleVerify permet aux entreprises d’avoir de la transparence sur leur campagne de communication online. Véritable interface entre les annonceurs web et les services Marketing d’entreprise, DoubleVerify permet d’assurer la qualité de l’ image de marque des sociétés sur Internet que ce soit dans les échanges des réseaux sociaux, les publicités, les emplacements et leurs fréquences d’apparition. Le projet Le projet confié à Keyrus consiste à mettre en place l’ensemble de la solution d’analyse. La méthodologie de projet Agile était la plus adaptée pour ce projet. Qu’est ce qu’une vérification ? Online advertising verification (def.) – Un système qui s'assure et vérifie que l'exposition des médias correspond bien aux spécifications en terme d'image, de fréquence d'apparition et de positionnement. Composant de l’architecture Performance & scalabilité MPP DB - Vertica Stockage en colonne. Scalabilité. ETL - Python scripting Framework spécifique : chargement par fichier, templates ELT, intégrité référentiel, chargement incremental et plus. Parallélisme, 0 dépendance. Maintenabilité : logging, error handling etc. Tests unitaires et d’intégrations automatisés. Reporting tool - Cognos 10 Reporting Dashboard. Analyse Ad- hoc . Integration avec les outils utilisant le SDK. MPP- Based DWH that can process 1.5 – 2 billon records (~1.5 TB) a day close to real time. Providing the ability to analyze raw data and aggregated data at a high resolution, with good performance. Redesigning and developing DoubleVerify’s core business engine responsible for the verification process, combining a user-friendly reporting platform that provides both external and internal reporting requirements. Fail – safe, easy to maintain, scalable high – quality solution based on BI best practices. 22 servers in production cluster (per server = 12 cores, 64GB RAM, 2.8TB diskspace on 8+2 drives). 90% of all data is just 4 raw columns (and 50% is one). URLs compress 1:4, numbers+dates 1/20–1/200 (cardinality…). Scan a full day’s raw data – 1TB in 2 minutes. Raw / Daily ratios = 1/20 rows, 1/200 physical storage “Slim” / Daily ratios = 1/180 rows + physical storage, Load speed: up to 10B/day. titre du document

Client vente-privee.com - Focus sur une réalisation 2011
30/03/2017 BIG DATA – L’ offre Keyrus Client vente-privee.com - Focus sur une réalisation 2011 Migration vers architecture BigData GreenPlum Mise en place de l’architecture et conduite du POC Spécialiste depuis plus de 20 ans du déstockage dans l'univers de la mode et de la maison, vente-privée.com s’est transformé en leader du commerce en ligne, en tant que pionnier sur un nouveau mode de consommation ; les ventes événementielles sur Internet de produits grandes marques (prêt-à-porter, accessoires de mode, équipement de la maison, jouets, high-tech, etc) Chiffres clés : 1,1 milliard d’Euro de CA en Europe. 41 millions de produits vendus, croissance annuelle de 15%. Contexte Après 3 années de fonctionnement, pour faire face à l’augmentation de la volumétrie liée à la croissance de l’entreprise, Vente privée souhaite migrer son infrastructure décisionnelle afin de pouvoir répondre aux attentes des utilisateurs dans les années à venir : Croissance importante des volumes de stockage. Nouveaux besoins et usages de la BI par les utilisateurs finaux de plus en plus nombreux. Gestion de la qualité des données. Utilisateurs Reporting & OLAP Platform VP Data Centers ELT Processes Framework Ad-Hoc Dashboards Reports MPP Solution Déploiement de la solution Constat Objectifs Projet L’objectif principal est l’amélioration de la performance au niveau de la persistance des données. L’objectif secondaire est que cette migration technique ne doit pas impacter les rapports déployés. Apports fonctionnels Aucun apport fonctionnel n’est directement visé. Dans le cadre du projet, les reportings doivent rester stables. Cependant, l’augmentation de performance permettra de débloquer les demandes de nouveaux reportings (mis en suspens pour ne pas mettre en danger l’existant). Méthodologie Conduite d’un POC sur l’architecture vente-privee.com (Informatica, Microsoft) avec les Appliances de GreenPlum, Microsoft et Teradata. Déploiement de la solution finale en Production. La technologie GreenPlum a permis d’atteindre les objectifs fixés en termes de performances et en termes d’innocuité sur les reporting existants. Ouverture aux mondes de la Big Data pour les services Marketing de vente-privée.com. L’intégration des données des réseaux sociaux est actuellement à l’étude. titre du document

Client Outremertelecom - Focus sur une réalisation 2011
30/03/2017 BIG DATA – L’ offre Keyrus Client Outremertelecom - Focus sur une réalisation 2011 2011 : Migration vers architecture BigData GreenPlum Mise en place de l’architecture et conduite du POC Premier opérateur alternatif de télécommunication des départements d'outremer, Outremer Telecom développe des solutions fiables, performantes et compétitives en matière de téléphonie fixe et mobile, de services Internet et Data, pour les particuliers et les entreprises. Outremer Telecom propose ses activités en Guadeloupe, en Guyane, à la Martinique, à la Réunion et en Ile de France, et jouit d’une forte croissance, notamment dans le mobile. Chiffres clés : 190 M€ de chiffre d’affaire. abonnés mobile. Mise en place d’une architecture de stockage Netezza adaptée en termes de performances: 3 To de données. Couverture fonctionnelle atteinte : chargement quotidien et le stockage des tickets bruts de communication. Simplification des tâches d’administration par rapport au SI BI pré-existant. Déploiement de la solution Constat Contexte Le système décisionnel existant est peu fiable et ne répond pas à l’ensemble des besoins : Pas de Modèle Conceptuel de Données. Faible sécurisation des données. Ne permet pas de combiner, croiser et construire l’ensemble des indicateurs souhaités Manque d’évolutivité, aucune documentation. Temps de chargement long et performances de restitution inadaptée. Le projet L’objectif est de refondre le système décisionnel existant à travers une approche globale permettant de préparer le suivi de l’ensemble de l’activité de télécommunication: Refonte du modèle de données Data warehouse. Mise en place de véritable Datamarts métiers permettant de construire les indicateurs stratégiques : Client, Vente, Revenu, Communication, Crédit Management, Fidélisation, Recouvrement. Apport majeur : capacité à tenir la charge sur des volumétries fortes à très fortes, avec des performances plus que satisfaisante Retour d’expérience : « un traitement de plusieurs heures avec SQL Server réduit à 4 minutes et 35 secondes ». Maintien des performances suite à l’accroissement vertigineux des volumes liés aux mobiles depuis 2007 (nombre de communications). Scalabilité démontrée, après un projet mené en précurseur (2007). En termes de conduite de projet, l’assurance des performances apportée par Netezza permet de se focaliser sur les besoins décisionnels métiers client : il n’est pas besoin de les limiter par d’immenses précautions lors des phases de recueil des besoins. titre du document

Merci pour votre attention

Institut Galilée Séminaire Business Analytics, 18/01/2013 Enjeux, Réalités et Impacts dans les organisations Reda GOMERY, Directeur BI, Keyrus.

Présentations similaires

Présentation au sujet: "Institut Galilée Séminaire Business Analytics, 18/01/2013 Enjeux, Réalités et Impacts dans les organisations Reda GOMERY, Directeur BI, Keyrus."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Institut Galilée Séminaire Business Analytics, 18/01/2013 Enjeux, Réalités et Impacts dans les organisations Reda GOMERY, Directeur BI, Keyrus.

Présentations similaires

Présentation au sujet: "Institut Galilée Séminaire Business Analytics, 18/01/2013 Enjeux, Réalités et Impacts dans les organisations Reda GOMERY, Directeur BI, Keyrus."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back