Télécharger la présentation
1
Business Intelligence Présentation
2
Sommaire Le système d’information Décisionnel Les modèles de données
Le Data Mining L’offre BI de Microsoft Les nouveautés avec SQL Server 2012
3
La BI pour qui ? Pourquoi ?
4
La chaine décisionnelle
Outils BI Proactif Interactif Passif Data Mining OLAP Reporting Adhoc Reporting de masse Rendu Présentation Exploration Découverte
5
Définitions – Vocabulaire
Infocentre = Base de données dédiée à l’analyse d’une application A l’origine des “copies” de base de production Staging Area : Espace de stockage temporaire des données provenant des différentes sources. C’est un lieu où l’on va pouvoir stocker des données qui arrivent à des moments différents. C’est une zone d’attente, une “salle d’embarquement”. ODS (Operating Data Store) Lieu où vont être effectuées les transformations, les croisements, etc. C’est l’étape juste avant l’alimentation du Datawarehouse et il utilise, comme source la Staging Area. Le modèle de données de l'ODS est un modèle relationnel classique assez proche des modèles de production Ce « sas » assure l'isolation des mondes "opérationnel" et "décisionnel" (performances, exploitabilité...) Datawarehouse = Entrepôt de données, destiné à centraliser, nettoyer, et uniformiser les données de l’entreprise à des fins de reporting et d’analyse. Il stocke l’historique des données avec la granularité la plus fine, Data Mart : Entrepôt de données dédié à un métier particulier. Il est situé en aval du Datawarehouse
6
Architecture cible Modélisation Source OLTP Infocentre (Miroir OLTP)
Stockage Multidimensionnel Staging Area ODS DataWarehouse Data Mart1 Data Mart2 Restitution OLAP Cubes Reporting Custom Outils Clients (Excel, Proclarity…) Data Mining
7
Typologie et périmètre des projets décisionnels
Un SID (système d’information décisionnel), c’est : « un système permettant aux utilisateurs de l’entreprise de disposer d’informations pertinentes et d’outils d’analyse puissants pour les aider à prendre les bonnes décisions au bon moment » (Bill Inmon) Un projet décisionnel est réussi quand l’utilisateur dit : « J’ai l’information, elle est sûre, je la comprends, donc je l’utilise » Bill Inmon est reconnu comme le père du Datawarehouse Pour lui il existe un seul gros Datawarehouse et des Datamart par métier. Ralph Kimball quand à lui dit que tous les datamarts forment le Datawarehouse. Bill Inmon : You have a corporate environment that is normalized, no duplication, no aggregation... a pure environment that contain the historical information. And based on this corporate environment, you create a star each time you have a business Need. Very clean Building star schema is very fast once the EDW (Corporate environment) is built. Very costly (at the beginning) If not done properly, it can take a while before the end user see data... and your project might be killed by user that think they are paying for nothing. Kimball : There is no corporate environment, you have a need, you create a star for it... you try to reuse some dimension by making them "Conform dimension"... Very fast to develop, End users can see their data very fast Cost less to develop You have to keep a detailed star schema... in case you need to build new aggregate tables. Each star takes the data in the operationals source system.
8
Modélisation BI KIMBALL : Inmon’s: Lequel Choisir?
Tables de fait , Tables de Dimensions Stockage dénormalisé des données Inmon’s: S ’appuie sur une modélisation en BD relationnelle complexe Les données sont stockées dans la 3éme Forme Normale (3NF) Lequel Choisir? Traditionnellement la modélisation Kimbal est utilisée Kimball permet un Feedback rapide / demandes métier
9
La pierre angulaire d’un système décisionnel
Le modèle de donnée OLTP (Online Transaction Processing ) Reporting opérationnel OLAP (Online Analytical Processing ) Pilotage métier et entreprise OLTP Dénormalisé OLAP Normalisé
10
OLTP VS OLAP OLTP OLAP Time-critical In-place data update
Current data (‘Snapshot’) Functional transaction focus Store details only Only keeps company internal data Small delays tolerable Append only Historical and current data Reporting (information delivery) focus Store summary + details (e.g. counts and aggregates) Warehouse also keeps external data (e.g. customer demographics)
11
Les modèle de données ROLAP
Schéma en étoile Gain en espace de stockage Performance d’interrogations affectées Schéma en flocon Schéma en étoile : Pour chaque dimension, une relation de même nom dont les attributs sont dérivés des paramètres et attributs faibles de la dimension, dont la clé primaire correspond à la granularité la plus fine Pour chaque fait, une relation de même nom dont les attributs représentent les mesures et des clés étrangères référençant les dimensions liées au fait, dont la clé est la combinaison des clés étrangères ou une clé artificielle Schéma en flocon : La normalisation des tables de dimension, fait apparaître explicitement les hiérarchies Economie de jointures à l'interrogation Perte en espace de stockage
12
Les technologies Multidimensionnelles
ROLAP: Le cube contient les: Metadata HOLAP: Le cube contient les: Metadata, les aggregats MOLAP: Le cube contient les: Metadata, les aggregats et les données Le mode ROLAP permet d'économiser l'espace de stockage si vous utilisez des ensembles de données volumineux fréquemment interrogés, notamment des données purement historiques Avantage de MOLAP : Performances à l'exécution due au stockage optimisé, à l'indexation multidimensionnelle et à la mise en cache, Calcul automatisé des agrégats de plus haut niveau des données. Inconvénients de MOLAP : L'étape de transformation (charge de données) peut être longue particulièrement sur de grands volumes de données. Pour pallier à cela on utilise le chargement incrémental. Difficulté avec des dimensions à très haute cardinalité (millions de membres). Certains outils de MOLAP (par exemple Essbase) sont à dix dimensions (dépend de la complexité et cardinalité des dimensions, du nombre de faits stockés). D'autres outils de MOLAP (par exemple, SSAS ou IBM TM1) peut manipuler des centaines de dimensions. Redondance d'information ROLAP = Base de données relationnelle + SQL avancé MOLAP = Base de données dimensionnelle + Serveur de traitement OLAP HOLAP = Rolap pour les données détaillées + Molap pour les données sommaires DOLAP = Fichier sur le poste client + Client de traitement OLAP
13
Crédit Accordé (Oui/Non)
Le Data Mining QU'EST-CE QUE LE DATA MINING ? C’est l'exploration et l'analyse de grandes quantités de données afin de découvrir des formes et des règles significatives en utilisant des moyens automatiques ou semi-automatiques. Crédit Accordé (Oui/Non) Statut Age Sexe Basé sur des méthodes mathématiques +/- complexes : Méthodes de tri : Les algorithmes de Data Mining Technique: Statistique Résultat: Prédiction, estimation, classification
14
Les Algorithmes de Data Mining
-Naive Bayes -Arbre de décision -Réseaux de neurones -Réseaux Bayesiens -Régression logistique Classification - Arbre de décision -Régression linéaire -Réseaux de neurones -Régression logistique Estimation Clustering Cluster - Time Series Forecast -Règles d’Association -Arbre de décision Association Analyse supervisée (Y=fct(x1,x2…xn)) Analyse Non-supervisée (pas de sortie à classer) Sans le savoir, vous utilisez le Data Mining tous les jours! Eg: Mozilla Thunderbird et Microsoft Outlook utilisent le classifier Naive Bayes pour filtrer les spam de vos mails.
15
Exemple de Data Mining:
Entreprise : banque Activité : prêts hypothécaires Problème : accepter ou refuser une demande de crédit ? Solution: Analyser les données historiques : solvabilité observée lors des anciens crédits pour prévoir la solvabilité des Nouveaux demandeurs de crédit Crédits anciens (Oui/Non) Sexe=M Statut=M Age=60 … Crédit=Oui Modèle Arbre de Décision Prédire nouvelle Demande de crédit Statut=D Age=45 Crédit =?
16
Quelques possibilités d'utilisation
Marketing Quel profil de client cibler lors d’une campagne marketing ? Quels clients sont susceptibles de réagir à une promotion déterminée ? (CRM) Quels produits offrir à quels clients ? (Eg: Amazone) Finances Quels produits financiers proposer à quels clients ? Comment détecter une faillite prochaine ? (Crise Boursière) Télécommunications Quels clients sont susceptibles de nous quitter ? Quel est le profil des clients très rentables, et des clients pas ou peu rentables ?
17
L’offre BI de Microsoft
Data Mining Reporting OLAP Base de Données SQL Server 2008 R2 SSAS SSAS, XLs 2010 SSRS SSIS Gartner Magic Quadrant BI : Janvier 2011 Denali : Community Technology Preview 3 (CTP3) Haute disponibilité améliorée In-Memory column Un plus grand nombre de partition (15,000 partitions) Outils de développement en ligne Reporting Services Project “Crescent” PowerPivot Data Quality Services Master Data Services Enhancements …
18
Architecture fonctionnelle avec Microsoft BI
Data Mining
19
SQL Server Management Studio
SQL Server Management Studio est un environnement intégré qui permet d'avoir accès, de configurer, de gérer, d'administrer et de développer tous les composants de SQL Server. SQL Server Management Studio associe un groupe d'outils graphiques à des éditeurs de script T-SQL, MDX, …
20
SQL Server Integration Services
Au-delà du simple transfert des données d’une source vers une destination, l’ETL sert à : Ordonnancer des taches Nettoyer les données transférées Augmenter la puissance de traitement pour faire face à l’accroissement constant des volumes de données Prendre en charge la totalité de la chaîne de traitement, c’est-à-dire d’être à même de mettre à jour les cubes OLAP construits à partir des entrepôts de données mis à jour À l’aide d’outils de débogage, les développeurs peuvent définir des points d’arrêts sur les packages, les conteneurs, les événements de tâches et les observateurs de données pour surveiller les données pendant leur passage dans le flux. Extraire Transformer Charger
21
SQL Server Reporting Services
SQL Server Reporting Services est un outil de génération de rapports d’entreprise. Le générateur de rapports, autorise les utilisateurs à : Créer leurs propres rapports : reporting Had-hoc avec ReportBuilder S’abonner à des rapports (Pull/Push) Exporter les rapports en différents formats Pull : On-Demand Push : On Event Based
22
SQL Server Analysis Services
SQL Server Analysis Services permet de concevoir, de créer et de gérer des structures multidimensionnelles qui contiennent des données agrégées provenant d'autres sources de données
23
Le Data Mining avec Xls 2010 il s’agit d’utiliser de manière transparente et naturelle de puissants outils statistiques. Des analyses prédictives rendues possibles directement depuis Excel 2007 grâce à l’add-in nommé « SQL Server 2008 Datamining pour Excel.»
24
Portail Collaboratif (SharePoint 2010)
Les technologies SharePoint apportent : Un portail d’entreprise qui intègrent tous les composants de Microsoft Business Intelligence : rapports, analyses, tableaux de bord, Scorecards, feuilles Excel, … La BI collaborative pour agir après l’analyse. Des fonctionnalités clés telles que la recherche, la gestion de contenu, la collaboration, la visualisation de feuilles Excel en mode web. Devant la multiplication des documents échangés dans l’entreprise, des rapports décisionnels et des différents portails applicatifs, la nécessité d’un point d’entrée unique pour faire converger les informations et pour simplifier l’accès à tous les utilisateurs est aujourd’hui un impératif.
25
Microsoft SQL Server 2012 : Denali
High Availability Scalability and Performance Security & Manageability Web & Breadth Business Intelligence EDIM Windows Server Core Support partitions/table User-Defined Server Roles PHP Driver Unified Semantic Model Data Lineage Reliable & Integrated Failover Detection Column store DataWarehouse SQL Studio Semantic Platform Crescent Impact Analysis Application Centric Failover In-memory BI for corporate Fast FileStream Contained Database Authentication LocalDB SSIS Server Multiple Readable Secondaries Win32 access to database files Alerting Database Replay UTF-16 Data Quality Unified Semantic Model: The model can be shared among all the tools, helping migration from one tool to another. For example, a PowerPivot workbook built by a business user can be used as a starting point by a BI professional building an Analysis Services application For existing Analysis Services cubes, When you upgrade your Analysis Services project or server to SQL Server “Denali”, every cube automatically becomes a BI Semantic Model Crescent: un nouvel outil de manipulation de données, qui permet à l’utilisateur de construire étape par étape sa présentation Alerting : Create Data Alerts within Reporting Services Reports, Report authors maintain control over available data for alerting, Users can create alerts directly on the data visible in reports Sysprep for AS: SQL Server Sysprep vous permet de préparer une instance autonome de SQL Server sur un ordinateur et de terminer la configuration ultérieurement. In-memory BI for corporate PowerPivot Enhancements Reporting as SharePoint Shared Service Sysprep for AS Online Operations Audit Enhancements Paging for result sets Enhanced MDS Fast Full Text PowerPivot Enhancements HA for StreamInsight Management Pack for High Availability FileTable Full Globe Spatial Support AlwaysOn Reporting as SharePoint Shared Service Backup Secondaries DAC Enhancements ODBC for Linux SSMS Enhancements JDBC 4.0 driver
26
Merci …
27
Unified Semantic Model
28
Projet Crescent : Power View
29
Projet Crescent : Power View
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.