Défis et pistes de solutions Data Warehousing Défis et pistes de solutions
Yazid Grim Gestionaire de produit BI (PCG Canada) Spécialiste en cycle de vie logiciel en BI Spécialiste en produits Microsoft BI 7 ans d’éxperience en BI et DW (consultation) 10 ans d’éxperience en TI Ingéniorat en Informatique (SI) à l’INI (2000-2005)
Agenda Mise en contexte: le monde a changé… Rappel: la mission d’un Data Warehouse Les problématiques actuelles du Data Warehousing Des pistes de solutions Q&R
… Et les entreprises aussi Le monde a changé… … Et les entreprises aussi
Le monde a changé + de données (Internet) + d’innovations + de clients + de compétition + de maturité + de consommation + de régulations + d’innovations + personne compétentes + défis - de frontières - de droit à l’erreur - de limites…
Mission du DW Stockage de données pour du reporting Mémoire « passive » d’entreprise Source pour les analystes Outil de prédiction Nouveau modèle d’affaire (Google, Facebook, …) … TEMPS
Stocker des données qui seront utilisées pour de la prise de décision Mission du DW Stocker des données qui seront utilisées pour de la prise de décision
Stocker des données qui seront utilisées pour de la prise de décision Mission du DW Stocker des données qui seront utilisées pour de la prise de décision
Les défis du Data Warehousing Données / Utilisateurs / Gestion d’entreprise
Volumétrie des données
Volumétrie des données "...notre PME accumule plus 50Go de données par mois dans son DW..." "...notre infrastructure ne tient plus la route avec des tables de faits de 500 Millions de lignes..." "...on veut analyser l'achalandage des utilisateurs mais ça représente plus 3 millions de passages par jour" "...notre process ETL prend plus de 24h..."
Volumétrie des données Architectures matérielles ne peuvent plus supporter les charges des DW (stockage et traitement) Architectures logicielles désuètes Les SGBD relationnels montrent leurs limites Le paradigme E-T-L ne répond plus au besoin initial Nos méthodes de modélisation n’ont pas été pensés pour de tels volumes de données
BI pour tous Le BI pour les décideurs n’existe plus…
BI pour tous Data-Driven businesses Nouvelles façon de gérer les entreprises Exige que tous les employés prennent des décisions à leur niveau Offre les outils nécessaires pour ce faire
BI pour tous Les travailleurs en entreprises sont: Mieux formés Plus responsables Plus instruits Plus désireux d’exceller dans leur travail Plus « branchés »
BI pour tous Real-Time BI / Operational BI Utilisé dans les grosses entreprises manufacturières et les compagnies financières. Quand des décisions importantes doivent être prises chaque seconde par beaucoup de personnes… Brise le modèle asynchrone des ETL classiques
TI vs. Business
TI vs Business
TI vs. Business Processus d’entreprise changent beaucoup trop vite pour les TI Les méthodes agiles ne règlent que partiellement le problème BI et DW sont devenus trop important pour les laisser aller à leur rythme
Éléments de solution Ce qui se fait actuellement pour pallier aux problèmes
Cloud Computing L’infrastructure en tant que service
Cloud Computing Permet d’héberger des données et du traitement dans des environnements spécialisés Réduit le TCO en infrastructure Met à disposition une capacité de traitements phénoménale
Nouvelle génération de matériel Plus vite, plus efficace, moins cher
Nouvelle génération de hardware SSD Nouvelle génération d’OS Nouvelles générations de RAM Nouvelles technologies (SAN, DFS) Nouveaux processeurs
Architectures distribuées Diviser pour régner
Architectures distribuées Permet de mettre à profit des machines de faible puissance pour des traitements complexes sur de gros volumes de données Mets en réseau stockage, RAM et processeur pour gérer la charge Initiative de Google
Le mouvement NoSQL L’alternative venue du Web
Mouvement NoSQL Nouvelle génération d’outils de stockage née avec les grosses compagnies du Web Aux antipodes des règles de CODD Inventés pour répondre aux besoins des géants du Web (Google, Facebook, Twitter, Ebay,…) Récemment adopté pour des besoins BI en entreprise Principe simple: stocker des fichiers avec un SGF distribué Permet de gérer des Péta Bytes (index de recherche de Google)
Mouvement NoSQL
Columnar Databases Pensé pour les DW
Columnar Databases
Columnar Databases Bénéfices: Taux élevé de compression au niveau colonne (1:4) On ne lit que ce qu’on a besoin On retrouve l’information de manière efficace
Outils de visualisation de données De plus en plus matures
Outils de visualisation Permettent de traiter des volumes importants de données Plus simples d’utilisation Un marché encore jeune mais avec des leaders émergents
Outils de visualisation de données Ex: Tableau Software
Conclusion
Questions / Contact Mohamed.yazid.grim@gmail.com www.yazidgrim.com
Widescreen Test Pattern (16:9) Aspect Ratio Test (Should appear circular) 4x3 16x9