La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

INSTITUT GALILÉE SÉMINAIRE BUSINESS ANALYTICS, 18/01/2013 ENJEUX, RÉALITÉS ET IMPACTS DANS LES ORGANISATIONS REDA GOMERY, DIRECTEUR BI, KEYRUS.

Présentations similaires


Présentation au sujet: "INSTITUT GALILÉE SÉMINAIRE BUSINESS ANALYTICS, 18/01/2013 ENJEUX, RÉALITÉS ET IMPACTS DANS LES ORGANISATIONS REDA GOMERY, DIRECTEUR BI, KEYRUS."— Transcription de la présentation:

1 INSTITUT GALILÉE SÉMINAIRE BUSINESS ANALYTICS, 18/01/2013 ENJEUX, RÉALITÉS ET IMPACTS DANS LES ORGANISATIONS REDA GOMERY, DIRECTEUR BI, KEYRUS

2 2 © Keyrus - All rights reserved Enjeux : une prolifération constante des données BIG DATA – PRÉSENTATION …de données stockées en 2011 (*) 1,8 Zo …de données générées sur internet en Md Go …de croissance des données prévue Sur la seule année % …de croissance annuelles des données non structurées 50 à 75% * Estimations de différents analystes type IDC

3 3 © Keyrus - All rights reserved Enjeux : Laugmentation des capacités analytiques BIG DATA – LES APPORTS BUSINESS Lanalyse des données brutes pour des analyses plus fines Laccès aux données non-structurées permet denrichir les analyses quantitatives de la BI traditionnelles avec des informations de contexte, de contenu, afin den comprendre le sens et den extraire des séquences ou des phénomènes Par exemple, on pourra, analyser les contacts clients avec le call center en explorant le contenu des s, des appels vocaux, et mixer ces informations avec la navigation sur le site internet, létude des messages échangés sur les réseaux sociaux (facebook, twitter, linkedin, …) pour comprendre les tendances : de quels produits parle-t-on le plus? Est-ce en bien ou en mal? Quels seraient les nouveautés intéressantes?... La détection de phénomènes et séquences (patterns) En explorant une grande masse dinformation, lanalyse big data a le potentiel de faire émerger des phénomènes récurrents conduisant à des résultats souhaités Par exemple, on pourra analyser la navigation dun client sur internet qui le conduit à effectuer un achat, ou encore, on pourra déterminer quels sont les influenceurs quil faut cibler pour réduire des coûts de communication. 5

4 4 © Keyrus - All rights reserved Enjeux : Laugmentation des capacités techniques BIG DATA – LES APPORTS BUSINESS Très hautes performances Les systèmes big data en sintégrant au SI offre des capacités à gérer de très gros volumes de données et peuvent à ce titre être également utilisés pour la BI traditionnelle et permettre dexcellent temps de réponse aux requêtes complexes parcourant un important volume de données. Dautre part, en effectuant des traitements danalyses directement en base de données, létape dextraction des données de lentrepôt vers un espace danalyse est supprimée, ce qui permet de réduire les délais de mise à disposition des données danalyse et daugmenter la fréquence des itérations. Temps réel : Des analyses supportant la mise en place dalertes et de recommandations sur combinaisons dévénements Les analyses big data permettent alors dimplémenter dans les systèmes, des moteurs temps réel de recommandations et dalertes qui aident les opérationnels à prendre les bonnes décisions

5 5 © Keyrus - All rights reserved Enjeux : Applications sectorielles BIG DATA – LES APPORTS BUSINESS Amazon.com est un des pionniers des recommandations produits basées sur le big data en analysant lhistorique des achats, les notes des produits, les webs logs et les commentaires laissés sur son site. Quelques autres exemples de cas métier :

6 6 © Keyrus - All rights reserved Réalités : Concept BIG DATA et questions dans les entreprises BIG DATA – PRÉSENTATION « Big Data » est le terme communément appliqué aux grands ensembles de données quil devient difficile en raison de leur volume, velocité ou variété/complexité (données non- structurées) de capturer, gérer et traiter efficacement avec les outils logiciels classiques. Velocité Variété Volume Qui est concerné par le Big Data ? Quelle est la valeur pour lEntreprise ? Comment identifier les usages ? Quels sont les coûts ? Comment le décliner ? Quels sont les impacts? Selon un récent sondage IDC, 73% déclarent se préparer à « faire des choses quil était impossible de faire jusquici… Selon un récent sondage IDC, 73% déclarent se préparer à « faire des choses quil était impossible de faire jusquici…

7 7 © Keyrus - All rights reserved Réalités : Dun cercle vertueux à une chaine infernale LA REMISE EN CAUSE DU MODÈLE CLASSIQUE Létat de lart Des besoins métiers et des cas dusage bien identifiés Une catégorisation des besoins: reporting opérationnel, reporting décisionnel, reporting stratégique Des spécifications et des développements pour répondre aux besoins exprimés Un architecture en trois couches: ODS, DWH, DM Un modèle dénormalisé et optimisé Des outils rapides à mettre en œuvre et souples Réactivité et maitrise de lévolution des besoins La vraie vie Un manque de visibilité sur les cas dusages et les besoins Une méconnaissance des données existantes Des applications en difficulté: traitements de rafraichissement trop long/des requêtes et rapport lents/Nombre importants de requête en simultané Une modélisation décisionnelle qui atteint ses limites Des données cloisonnées et des applications en silos Des problèmes de cohérence et de qualité des données Des projets en dérive, des utilisateurs mécontents DW

8 8 © Keyrus - All rights reserved Réalités : De nouvelles donnes LA REMISE EN CAUSE DU MODÈLE CLASSIQUE Une augmentation constante voire lexplosion du patrimoine de données de lentreprise Une exploitation de nouvelles sources de données (réseaux sociaux) et de données non structurées Une évolution des habitudes de consommation de linformation « Web 2.0 » De nouveaux usages (BI mobile, BI temps réel…) Un besoin de transversalité en forte progression Des exigences accrues en terme de réactivité Des transformations fonctionnelles et sectorielles profondes (ex: capteurs intelligents dans le secteur de lénergie) Le renforcement des rôles de « data analyst », « data scientist » Le développement de lacquisition de données externes et de providers de données

9 9 © Keyrus - All rights reserved DATA WAREHOUSE (BI traditionnelle) DATA WAREHOUSE (BI traditionnelle) Impacts : Les différences entre Data warehouse traditionnel et Analyses Big data BIG DATA – PRÉSENTATION Les environnements danalyses Big data ne visent pas à remplacer la BI/data warehouse traditionnels mais à les compléter, ils doivent être totalement intégrés en permettant de faire émerger des phénomènes depuis des données brutes : Sources traditionnellesNouvelles sources Sources de données essentiellement internes, connues et structurées Modèles de données stables La majorité des données sont des données historiques De nombreux rapports produits de manière récurrente Sources de données essentiellement internes, connues et structurées Modèles de données stables La majorité des données sont des données historiques De nombreux rapports produits de manière récurrente PLATEFORME BIG DATA Nombreuses sources externes Importants volumes de données non-structurées Besoin ditérations rapides pour expérimenter des hypothèses Lanalyse est faite sur des données qui restent dans leur état brut Nombreuses sources externes Importants volumes de données non-structurées Besoin ditérations rapides pour expérimenter des hypothèses Lanalyse est faite sur des données qui restent dans leur état brut

10 10 © Keyrus - All rights reserved Solutions : Le mot qui fait le Buzz LE DÉVELOPPEMENT DU CONCEPT DE BIG DATA Nos clients mettent en avant: La nécessité croissante danalyser les données cœur de métier ainsi que lattente dune plus grande vitesse de collecte, de restitution voire de création de nouveaux modèles de la part des métiers. Et la capacité à traiter de grands volumes de données. La variété et la vélocité sont rarement un enjeux pour le décisionnel Les directions informatiques perçoivent ce nouveau type de besoins danalyse de la part des métiers: Certains ont déjà implémenté une base de données en colonne spécialisée pour les environnements décisionnels La plupart ont identifié les innovations tel que les appliances comme un levier pour la gestion de leur données Ils perçoivent les bénéfices induits du Big Data pour lIT Efficacité du SI, meilleurs contrôle des données, une refonte technique mais aussi potentiellement méthodologique de la BI « Big Data » est le terme communément appliqué aux grands ensembles de données quil devient difficile en raison de leur volume, velocité ou variété/complexité (données non-structurées) de capturer, gérer et traiter efficacement avec les outils logiciels classiques.

11 11 © Keyrus - All rights reserved Solutions : Des bases de données standards aux appliances hautes performances DES BASES DE DONNÉES STANDARDS AUX APPLIANCES HAUTES PERFORMANCES Depuis les années 80, le marché des bases de données dentreprises a peu évolué Pourtant ce ne sont pas les innovations qui manquent: NoSQL (Not Only SQL) MPP (Massively Parallel Processing) Stockage in memory bases de données en colonnes, … Lacquisition des éditeurs spécialisés par les grands éditeurs (IBM/Netezza, EMC/Greenplum, …) permet daccélérer lévolution des bases de données et les outils danalyses et lessor des Appliances décisionnelles.

12 12 © Keyrus - All rights reserved Solutions : Acteurs du marché et solutions retenues APPLIANCES: ETAT DU MARCHÉ Solution MPP In m emory Solution MPP In m emory Offre initiale depuis 2011

13 13 © Keyrus - All rights reserved Solutions : Hadoop, MapReduce et extensions BIG DATA – PANORAMA DES ÉDITEURS MapReduce est un framework de développement inventé par Google pour effectuer des calculs parallèles. MapReduce se décompose en 2 étapes : Dans l'étape Map le nœud à qui est soumis un problème, le découpe en sous-problèmes, et les délègue à d'autre nœuds (qui peuvent en faire de même récursivement). Les sous-problèmes sont ensuite traités par les différents nœuds à l'aide de la fonction Map qui à un couple (clé, valeur) associe un ensemble de nouveaux couples (clé, valeur). Vient ensuite l'étape Reduce, où les nœuds les plus bas font remonter leurs résultats au nœud parent qui les avait sollicités. Celui-ci calcule un résultat partiel à l'aide de la fonction Reduce (réduction) qui associe toutes les valeurs correspondant à la même clé à une unique paire (clé, valeur). Puis il remonte l'information à son tour. Hadoop est un framework Java open source destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données sur du matériel banalisé. Lécosystème Hadoop est composé de : Hadoop Common, HDFS, MapReduce, ZooKeeper, Avro, Chukwa, HBase, Hive, Mahout, Flume, Pig… Hadoop est utilisé par des entreprises comme eBay, Apple, Fox interactive Media, Disney, … Informatica est un des leaders de lintégration de données. HParser est un environnement de transformation de données (gestionnaire de données) optimisé pour Hadoop. Ce logiciel d'analyse sans code et convivial permet le traitement de tout format de fichier dans Hadoop, avec adaptabilité et efficacité. PowerExchange For SocialMedia permet lextraction des données des principaux réseaux sociaux. MapReduce

14 14 © Keyrus - All rights reserved Solutions APPLIANCES – NOTRE VISION Un paysage fractionné : Derrière le terme Appliance existe en fait un paysage où les offres sont non alignées et ne permettent pas une comparaison simple : certaines Appliance sont des bundle commerciaux, dautres sont des softwares virtualisés, et même déployables en mode « Cloud » Les cas dusages du marché : Les retours dexpérience accessibles sont aujourdhui ceux de mise en œuvre de nouveaux cas dusage, et non damélioration continue dun SI Décisionnel. Pour tirer des performances améliorées du déploiement dune Appliance, les retours dexpérience montrent quil est nécessaire de travailler sur les logiques de traitements (en imports ou internes) De plus certaines limites de lexercice suivante doivent être gardées à lesprit : Laspect coût reste au niveau « grande orientation », De nombreuses configurations existent pour chaque outil et le choix du matériel est essentiel. Il nest donc pas possible détablir de base de comparaison stable De plus, la méthode dappel doffre et la mise en concurrence des offreurs est source dune grande variabilité dans les prix obtenus (par rapport aux prix catalogues). Laspect performance subit le même sort : la performance dépend du serveur … et donc du prix. En conséquence, nous avons évalué ces critères sur la base des technologies sous-jacentes et de nos retours dexpérience sur de telles comparaisons. Cependant, une comparaison mesurée, quantifiée, devrait être faite dans le cadre de POCs De plus certaines limites de lexercice suivante doivent être gardées à lesprit : Laspect coût reste au niveau « grande orientation », De nombreuses configurations existent pour chaque outil et le choix du matériel est essentiel. Il nest donc pas possible détablir de base de comparaison stable De plus, la méthode dappel doffre et la mise en concurrence des offreurs est source dune grande variabilité dans les prix obtenus (par rapport aux prix catalogues). Laspect performance subit le même sort : la performance dépend du serveur … et donc du prix. En conséquence, nous avons évalué ces critères sur la base des technologies sous-jacentes et de nos retours dexpérience sur de telles comparaisons. Cependant, une comparaison mesurée, quantifiée, devrait être faite dans le cadre de POCs

15 15 © Keyrus - All rights reserved Points dattention LES PROJETS DAPPLIANCES BI Marketing Trop dentreprises tentent de faire partie de cette tendance Les messages et bénéfices clés sont noyés dans ce bruit Présenté comme une solution à tous les problèmes BI Ressources et compétences analytiques Qui peut comprendre ce volume de données? Qui a les compétences techniques ? Qui valide les modèles et les conclusions des analyses? Mutation des profils technologiques Nouveau processus de fabrication de la BI Nouveautés technologiques montée en compétence Rationalisation (scalabillité) Technologies Beaucoup de nouvelles innovations plus ou moins matures, peu de retours dexpérience Coûts élevés (Hardware, Software, compétences) Trouver le bon indicateur de ROI pour justifier linvestissement Intégration au sein du SID intégration de BD Une adaptation des processus ETL existants Impact sur les outils de requêtage

16 16 © Keyrus - All rights reserved BIG DATA – L OFFRE KEYRUS Positionnement :Une offre complète pour vos projets Big Data

17 17 © Keyrus - All rights reserved Client DoubleVerify - Focus sur une réalisation 2012 BIG DATA – L OFFRE KEYRUS Composant de larchitecture MPP- Based DWH that can process 1.5 – 2 billon records (~1.5 TB) a day close to real time. Providing the ability to analyze raw data and aggregated data at a high resolution, with good performance. Redesigning and developing DoubleVerifys core business engine responsible for the verification process, combining a user-friendly reporting platform that provides both external and internal reporting requirements. Fail – safe, easy to maintain, scalable high – quality solution based on BI best practices. 22 servers in production cluster (per server = 12 cores, 64GB RAM, 2.8TB diskspace on 8+2 drives). 90% of all data is just 4 raw columns (and 50% is one). URLs compress 1:4, numbers+dates 1/20–1/200 (cardinality…). Scan a full days raw data – 1TB in 2 minutes. Raw / Daily ratios = 1/20 rows, 1/200 physical storage Slim / Daily ratios = 1/180 rows + physical storage, Load speed: up to 10B/day. Performance & scalabilité Mise en place de larchitecture via la conduite du POC DoubleVerify est un leader mondiale de la vérification des médias online. DoubleVerify permet aux entreprises davoir de la transparence sur leur campagne de communication online. Véritable interface entre les annonceurs web et les services Marketing dentreprise, DoubleVerify permet dassurer la qualité de l image de marque des sociétés sur Internet que ce soit dans les échanges des réseaux sociaux, les publicités, les emplacements et leurs fréquences dapparition. Le projet Le projet confié à Keyrus consiste à mettre en place lensemble de la solution danalyse. La méthodologie de projet Agile était la plus adaptée pour ce projet. Quest ce quune vérification ? Online advertising verification (def.) – Un système qui s'assure et vérifie que l'exposition des médias correspond bien aux spécifications en terme d'image, de fréquence d'apparition et de positionnement. MPP DB - Vertica Stockage en colonne. Scalabilité. ETL - Python scripting Framework spécifique : chargement par fichier, templates ELT, intégrité référentiel, chargement incremental et plus. Parallélisme, 0 dépendance. Maintenabilité : logging, error handling etc. Tests unitaires et dintégrations automatisés. Reporting tool - Cognos 10 Reporting Dashboard. Analyse Ad- hoc. Integration avec les outils utilisant le SDK. Réalisation du projet Big Data de DoubleVerify

18 18 © Keyrus - All rights reserved Objectifs Projet Lobjectif principal est lamélioration de la performance au niveau de la persistance des données. Lobjectif secondaire est que cette migration technique ne doit pas impacter les rapports déployés. Apports fonctionnels Aucun apport fonctionnel nest directement visé. Dans le cadre du projet, les reportings doivent rester stables. Cependant, laugmentation de performance permettra de débloquer les demandes de nouveaux reportings (mis en suspens pour ne pas mettre en danger lexistant). Méthodologie Conduite dun POC sur larchitecture vente-privee.com (Informatica, Microsoft) avec les Appliances de GreenPlum, Microsoft et Teradata. Déploiement de la solution finale en Production. Spécialiste depuis plus de 20 ans du déstockage dans l'univers de la mode et de la maison, vente-privée.com sest transformé en leader du commerce en ligne, en tant que pionnier sur un nouveau mode de consommation ; les ventes événementielles sur Internet de produits grandes marques (prêt-à- porter, accessoires de mode, équipement de la maison, jouets, high-tech, etc) Chiffres clés : 1,1 milliard dEuro de CA en Europe. 41 millions de produits vendus, croissance annuelle de 15%. Contexte Après 3 années de fonctionnement, pour faire face à laugmentation de la volumétrie liée à la croissance de lentreprise, Vente privée souhaite migrer son infrastructure décisionnelle afin de pouvoir répondre aux attentes des utilisateurs dans les années à venir : Croissance importante des volumes de stockage. Nouveaux besoins et usages de la BI par les utilisateurs finaux de plus en plus nombreux. Gestion de la qualité des données. Client vente-privee.com - Focus sur une réalisation 2011 BIG DATA – L OFFRE KEYRUS Déploiement de la solution La technologie GreenPlum a permis datteindre les objectifs fixés en termes de performances et en termes dinnocuité sur les reporting existants. Ouverture aux mondes de la Big Data pour les services Marketing de vente- privée.com. Lintégration des données des réseaux sociaux est actuellement à létude. Constat Mise en place de larchitecture et conduite du POC Migration vers architecture BigData GreenPlum Utilisateurs Reporting & OLAP Platform VP Data Centers ELT Processes Framework Ad- Hoc Dashb oards Report s MPP Solution

19 19 © Keyrus - All rights reserved Contexte Le système décisionnel existant est peu fiable et ne répond pas à lensemble des besoins : Pas de Modèle Conceptuel de Données. Faible sécurisation des données. Ne permet pas de combiner, croiser et construire lensemble des indicateurs souhaités Manque dévolutivité, aucune documentation. Temps de chargement long et performances de restitution inadaptée. Le projet Lobjectif est de refondre le système décisionnel existant à travers une approche globale permettant de préparer le suivi de lensemble de lactivité de télécommunication: Refonte du modèle de données Data warehouse. Mise en place de véritable Datamarts métiers permettant de construire les indicateurs stratégiques : Client, Vente, Revenu, Communication, Crédit Management, Fidélisation, Recouvrement. Premier opérateur alternatif de télécommunication des départements d'outremer, Outremer Telecom développe des solutions fiables, performantes et compétitives en matière de téléphonie fixe et mobile, de services Internet et Data, pour les particuliers et les entreprises. Outremer Telecom propose ses activités en Guadeloupe, en Guyane, à la Martinique, à la Réunion et en Ile de France, et jouit dune forte croissance, notamment dans le mobile. Chiffres clés : 190 M de chiffre daffaire abonnés mobile. Client Outremertelecom - Focus sur une réalisation 2011 BIG DATA – L OFFRE KEYRUS Déploiement de la solution Apport majeur : capacité à tenir la charge sur des volumétries fortes à très fortes, avec des performances plus que satisfaisante Retour dexpérience : « un traitement de plusieurs heures avec SQL Server réduit à 4 minutes et 35 secondes ». Maintien des performances suite à laccroissement vertigineux des volumes liés aux mobiles depuis 2007 (nombre de communications). Scalabilité démontrée, après un projet mené en précurseur (2007). En termes de conduite de projet, lassurance des performances apportée par Netezza permet de se focaliser sur les besoins décisionnels métiers client : il nest pas besoin de les limiter par dimmenses précautions lors des phases de recueil des besoins. Constat Mise en place de larchitecture et conduite du POC 2011 : Migration vers architecture BigData GreenPlum Mise en place dune architecture de stockage Netezza adaptée en termes de performances: 3 To de données. Couverture fonctionnelle atteinte : chargement quotidien et le stockage des tickets bruts de communication. Simplification des tâches dadministration par rapport au SI BI pré-existant.

20 20 © Keyrus - All rights reserved Merci pour votre attention


Télécharger ppt "INSTITUT GALILÉE SÉMINAIRE BUSINESS ANALYTICS, 18/01/2013 ENJEUX, RÉALITÉS ET IMPACTS DANS LES ORGANISATIONS REDA GOMERY, DIRECTEUR BI, KEYRUS."

Présentations similaires


Annonces Google