Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Les systèmes d’informations :
De la DI (Data Integration) à la BI (Business Intelligence) 11 avril 2017
2
Le système d’information
Description : Un système d'information (noté SI) représente l'ensemble des éléments participant à la gestion, au stockage, au traitement, au transport et à la diffusion de l‘information au sein d'une organisation. (réf. Wikipédia) Le système d’information d’une entreprise correspond à l’ensemble de ses différents systèmes contenant une partie de ses données (ERP, systèmes propriétaires, base de connaissance…)
3
Le système d’information
Ma vie d’étudiant Films Cours Sport Fêtes Etudiant Jeux Video Musique
4
Le système d’information
But des systèmes d’information : Optimisation des coûts Modernisation du SI préoccupation permanente des entreprises. Leviers potentiels au service des directions et des différents métiers de l'entreprise. « Une entreprise ne gère bien que ce qu’elle peut mesurer »
5
Le système d’information
Système Décisionnel de Ma vie d’étudiant:
6
Le système d’information
Système Décisionnel de Ma vie d’étudiant:
7
Du système d’information au système décisionnel
L'information est omniprésente dans toutes les organisations. Gestion d'entreprise (finance, stocks,…) Transport (disponibilités et réservations, rotation des matériels …) Laboratoires (résultats d'expériences, données tirées d'échantillons, publications …) Administration (état civil, casier judiciaire, fiscalité …) L’enseignement (élèves, notes, emplois du temps, affectation de salles…) Personnel (carnet d'adresses, comptes, cave, bd-cd-mp3-thèque …). Données organisées afin de les interpréter sans ambiguïté Structurer ces données par une modélisation spécifique, mais aussi à une très bonne compréhension du domaine concerné Une fois le modèle défini, l'exploitation des données requiert la maîtrise d'outils qui permettront d'interroger de manière rapide et efficace ce capital informationnel.
8
Le système d’information
Il existe principalement 2 types de SI : Systèmes opérationnels : ODS (Operational Data Store) Objectif = Disposer d’une image des opérations traitées dans le système d’information transactionnel de l’entreprise Impact = Opérationnels, contrôleurs de gestion Systèmes décisionnels : Datawarehouse Objectif = Expliquer, Comprendre et Anticiper par une analyse descendante sur les données la situation de l’entreprise. Moyens = Mesure de la performance, tableaux de bord de pilotage Impact = Décideurs, haut management, contrôleurs de gestion
9
Décisionnels : Datawarehouse
Comparatif ODS / Datawarehouse Décisionnels : Datawarehouse Entrepôt de données unique basé sur un SGBDr Déconnecté du système de production (pas d ’impact sur les performances de celui-ci) Modèle de données spécifique et adapté aux besoins d’analyses Opérationnels : ODS Séparé ou non du système de production Modèle de données issu du système transactionnel Peut être basé sur un SGBD hiérarchique (cas de nombreux ERP)
10
Comparatif des données disponibles dans un ODS / Datawarehouse
Comparatif ODS / Datawarehouse Comparatif des données disponibles dans un ODS / Datawarehouse Décisionnels : Datawarehouse Vision synthétique & agrégée de l’information, voir les données globalement, puis descendre dans le détails Sélection des données sensibles à intégrer Conservation d’un historique pour pouvoir tracer une évolution des donnés sur une période plus ou moins longue Indicateurs définis en commun pour tous les secteurs de l'entreprise Opérationnels : ODS Vision beaucoup plus détaillée Sélection des données intégrées moins stricte Visualisation d’une image à un instant t Peu d’historique Indicateurs définis de façon plus autonome (règle de gestion non partagée entre les différents services)
11
Comparatif des données disponibles dans un ODS / Datawarehouse
Comparatif ODS / Datawarehouse Comparatif des données disponibles dans un ODS / Datawarehouse Degré de partage des résultats dans l’entreprise Historique Degré de partage des résultats dans l’entreprise Historique DWH ODS Niveau de détail Niveau de détail
12
Comparatif ODS / Datawarehouse Résumé
Utilisation Personnalisée et sélective Aggrégée et Partagée Résultats obtenus Listing Rapport analytique Partage des résultats Non : Analyse Personnelle Oui : Analyse partageable Découpage fonctionnels Non : Dépend de la "discipline" des utilisateurs Orienté "projet" Données disponibles Toutes les données de l'environnement de production (ERP par exemple) Données potentiellement agrégées provenant de sources multiples Liberté d'action Totale Restreinte Sources de données Unique Multiple Préparation des données Quasi-instantanée ; directement descendue de la poduction Traitement en batch majoritairement durant la nuit Temps de réponse Dépend de la requête écrite par l'utilisateur Dépend du rapport et de la préparation des données en amont
13
Comparatif ODS / Datawarehouse quelques exemples du marché
Décisionnels : Datawarehouse Business Objects Microstrategy Cognos SAS Opérationnels : ODS Outils natifs des systèmes de production Crystal (suite intégrée dans Business Objects)
14
Modélisation des Systèmes Décisionnels Datawarehouse
Le système décisionnel Modélisation des Systèmes Décisionnels Datawarehouse Objectifs Mettre à disposition des utilisateurs des indicateurs relatifs à l’activité de l’entreprise Autoriser une exploration personnalisée à travers les données Non adapté pour du « listing » de masse Données plus ou moins agrégées Règles essentielles pour la réussite d’un DWH Déconnecté du système de production (impacts performances) Un entrepôt de données unique pour l’ensemble de l’entreprise (SGBDr) Pas d’informations superflues, seules les données essentielles doivent être intégrées Les données obsolètes doivent être purgées
15
Le système décisionnel
Croisement des données : Ventes européennes Couts de distribution comparés au CA Analyse du stock Ventes Article Temps Article Temps Couts Client Ventes Article Temps Magasin Stock Compagnie Région
16
Analyse multi-dimensionnelle, OLAP, ROLAP, MOLAP, ...
Le système décisionnel Analyse multi-dimensionnelle, OLAP, ROLAP, MOLAP, ... Différents types d’analyse Dépendent de la technique de modélisation + outils utilisés Concept d’analyse multi-dimensionnelle Croisement des attributs de toutes les axes d’analyse du modèle (ou dimensions) Résolution dynamique des requêtes quel que soit l’axe analyse choisi Plusieurs moteurs d’analyse : OLAP = On Line Analytical Processing ROLAP = (Relational OLAP) OLAP sur un SGBDr MOLAP = (Multidimensionnal OLAP) Cube
17
Base de données “Datawarehouse”
Le système décisionnel Base de données “Datawarehouse” Sélection et organisation des données Ensemble des données nécessaires et suffisantes pour l’ensemble des projets => organisées dans un seul MCD pour l’ensemble des données de l’entreprise Historique Conservation des données relative au business et aux besoins de chaque activité de l’entreprise Evolution Intégration possible de nouvelles données pour chaque nouveau projet traité
18
Le système décisionnel
Quelques définitions Attribut Propriété suivant laquelle on désire caractériser l’information, correspond à un concept modélisé Hiérarchie Ensemble d’attributs proposés sur un rapport Table de référence (ou lookup) Table du modèle contenant des attributs (cf. code - libelle...) Colonne de fait Colonne contenant l’information numérique que l’on désire exploiter (sur laquelle va se baser l’indicateur) Table de fait Table contenant une ou plusieurs colonnes de fait
19
Quelques définitions (suite)
Le système décisionnel Quelques définitions (suite) Dimension: Axe d’étude, d’analyse; regroupement des attributs de même domaine Modèle multi-dimensionnel / flocon: Contour fonctionnel d’un projet regroupant les dimensions et les tables de faits Exemple : Table de fait Article Temps Magasin Stock Compagnie Région Dimensions
20
Modèles décisionnels Modèle étoile : (Star schema)
Le système décisionnel Modèles décisionnels Modèle étoile : (Star schema) Une Table de fait centrale entourées des tables de dimensions Modèle Flocon : (Snowflake schema) Une Table de fait centrale entourées des tables de dimensions éclatées
21
Modélisation multidimensionnelle
Le système décisionnel Modélisation multidimensionnelle Objectif : Réaliser un modèle de données qui puisse être exploité par un outil OLAP afin de mettre à disposition des utilisateurs des rapports analytiques Méthode (générale): Positionner la (les) table(s) de fait au centre du modèle Identifier sur chaque table de fait les colonnes de fait qui donneront lieu à des indicateurs Identifier les axes d’analyse permettant de caractériser les données de fait Détailler les axes d’analyse Exemple : Modélisation en étoile - Mise en situation
22
Cycle d’alimentation d’un DW
Data intégration Cycle d’alimentation d’un DW Questions préalables: Quelles sont les sources et cible de données ? Quelle est la fréquence de rafraîchissement désirée ? Alimentation -1- Extraction des données source -2- Formatage et transcodification des données -3- Alimentation des systèmes cible Amélioration des performances -1- Dénormalisation -2- Agrégation -3- Index -4- Partitionnement des données Validation des données
23
Fréquence de rafraîchissement
Questions préalables Questions préalables Sources de données Identification lors de l’analyse des systèmes sources Où trouver les bonnes informations Comment récupérer ces données ? Moyen de communication, de transfert des données ? Fréquence de rafraîchissement Quand les données doivent être chargées ? Disponibilité des différentes sources A quelle fréquence ? Quotidienne, hebdomadaire, mensuelle ? Laps de temps pour charger les données, marge ?
24
Alimentation : - 1 - Extraction des données sources
Alimentation du système d’information Alimentation : Extraction des données sources La qualité des données du système cible dépend de la qualité des données en amont Plusieurs solutions techniques: Extraction « traditionnelle » sur fichiers plats Outil d ’extraction/intégration : ETL (Extract Transform and Load) ex : Datastage, Informatica, ODI… EAI (Enterprise Application Integration) ex : Webmethods… ESB (communication web basée sur le XML,JMS…) Les sources d’information peuvent être très diverses : Système de production (commandes, factures, stock, clients, …) Lignes de fabrication (Rebuts, cadences de production, ...) Feuilles de calcul type Excel (Objectifs de vente, ...) Statistiques de consultation d’un site Web, étude de concurrence...
25
Cycle d’alimentation d’un DW
Data intégration Cycle d’alimentation d’un DW Questions préalables: Quelles sont les sources et cible de données ? Quelle est la fréquence de rafraîchissement désirée ? Alimentation -1- Extraction des données source -2- Formatage et transcodification des données -3- Alimentation des systèmes cible Amélioration des performances -1- Dénormalisation -2- Agrégation -3- Index -4- Partitionnement des données Validation des données
26
Alimentation : - 1 - Transfert du système source
Alimentation du système d’information Alimentation : Transfert du système source Processus « traditionnel » Envoi des données par FTP si l ’extraction a été faite dans un fichier texte Montage NSF ETL Connexion directe à la base source puis rapatriement des données par connexion de type ODBC/JDBC, connexion propre au SGBD (connexion Oracle par exemple) Traitements généralement de nuits (en // des sauvegardes)
27
Alimentation : - 3 - Chargement
Alimentation du système d’information Alimentation : Formatage et transcodification des données Alimentation : Chargement Chargement des fichiers à plat Via une commande de type import ou loader (import dans le SGBD). Déterminer les tables ciblées Les contraintes d’intégrité sur un DWH sont INUTILES et SUPERFLUES Mieux vaut pouvoir caractériser l’information tardivement plutôt que de la perdre Gains au niveau des performances, avantages pour la maintenance (parallélisme, processus de reprises)
28
Alimentation : - 3 - Chargement
Alimentation du système d’information Alimentation : Chargement SQL LOADER
29
Alimentation : - 3 - Chargement
Alimentation du système d’information Alimentation : Chargement # # <File>: Inventory_imp.sh # <Project>: DW Skedina # <Author>: PR (Philippe ROYER) # <Created>: # <Comments>: Inventory table import script # <Modifs>: SL Modifications Snapshot_date and Company for Commissionaire # <Modifs>: PR NUM_LOT & LOCATION columns size reduction # <Modifs>: ORACLE MIGRATION - Updated by Pbriais date sqlldr userid=$1/$2 control=$SCRIPTS/imports/ctl/inventory.ctl log=$SCRIPTS/imports/log/inventory.log errors= SILENT=ALL direct=y sqlplus <<EOF $1/$2 execute ins_upd('INVENTORY','INVENTORY_TMP'); exit EOF Script Shell exécuté tout les soirs par exemple -- Control file for Oracle SQL Loader LOAD DATAINFILE '$DATA/Inventory.txt'INTO TABLE INVENTORY_TMP APPEND (SHORT_ITEM POSITION(1:8), BUS_UNIT_ID POSITION(9:20), SNAPSHOT_DATE POSITION(632:641) DATE "YYYY-MM-DD", LOCATION POSITION(21:30), NUM_LOT POSITION(41:41), COMPANY POSITION(608:612), ON_HAND_QTY POSITION(268:284), IN_TRANSIT_QTY POSITION(591:607), ITEM POSITION(76:89)) Procedure PLSQL
30
Alimentation : - 3 - Chargement
Utilisation d’un ETL
31
Cycle d’alimentation d’un DW
Data intégration Cycle d’alimentation d’un DW Questions préalables: Quelles sont les sources et cible de données ? Quelle est la fréquence de rafraîchissement désirée ? Alimentation -1- Extraction des données source -2- Formatage et transcodification des données -3- Alimentation des systèmes cible Amélioration des performances -1- Dénormalisation -2- Agrégation -3- Index -4- Partitionnement des données Validation des données
32
- 1 - Amélioration des Performances
Amélioration des performances - DW - 1 - Amélioration des Performances Basées sur la connaissance de l’utilisation finale du projet Dépend des populations utilisatrices Prendre en considération les performances d’exécution de rapports mais aussi la fenêtre de temps disponible pour le chargement
33
Amélioration des Performances Avant propos : notion de Granulosité
Amélioration des performances - DW Amélioration des Performances Avant propos : notion de Granulosité Dans le modèle de données: Plus on se rapproche de la table de fait sur chaque axe : Le niveau de détail augmente La finesse augmente Nombre de lignes affichées par le rapport augmente La granulosité diminue (le grain devient plus fin) Factures Jour Mois Année Granulosité élevée Granulosité faible
34
Amélioration des performances – DW
Alimentation : Agrégation Exemple de SQL : create table OL_M_WINCAT( MONTH_ID INTEGER, WIN_CATEGORY CHAR(1), REVENUE FLOAT, CAS FLOAT); insert into OL_M_WINCAT select a1.MONTH_ID, a3.WIN_CATEGORY, (SUM (a1.REVENUE )), (SUM (a1.CAS )) from ORDER_LINES_TCUR a1, ITEM a3 where a3.ITEM = a1.ITEM group by a1.MONTH_ID, a3.WIN_CATEGORY; commit;
35
Alimentation : - 2 - Agrégation
Amélioration des performances - DW Alimentation : Agrégation DROP INDEX INSERT des lignes a charger en mode BULK CREATE INDEX
36
Alimentation : - 3 - Index
Amélioration des performances - Index Alimentation : Index Alimentation : Index Objectif : Amélioration des performances de recherche sur une table. A créer sur une ou plusieurs colonnes Différents types d’index préconisés suivant les cas de figure. Mis à jour lors du chargement des données
37
Alimentation : - 3 - Index
Amélioration des performances - Index Alimentation : Index Alimentation : Index BTREE index BITMAP index
38
Alimentation : - 4 - Partitionnement
Amélioration des performances - Partitionnement Alimentation : Partitionnement Objectif : Découper une table de volumétrie élevée en N tables plus petites Comment: Une table maître comprenant: Une clef de partitionnement Une référence à N tables filles N tables filles contenant les données Solutions techniques de deux type : Au niveau du SGBD Fonctionnalité de l’outil OLAP
39
Cycle d’alimentation d’un DW
Data intégration Cycle d’alimentation d’un DW Questions préalables: Quelles sont les sources et cible de données ? Quelle est la fréquence de rafraîchissement désirée ? Alimentation -1- Extraction des données source -2- Formatage et transcodification des données -3- Alimentation des systèmes cible Amélioration des performances -1- Dénormalisation -2- Agrégation -3- Index -4- Partitionnement des données Validation des données
40
Validation des données
Confirmer que mon DW me renvois bien les bonnes informations (pas de glissement non maitrisés) Utiliser une triangulation afin de vérifier les chiffres Toujours rechercher les données à comparer au plus près du fait générateur Répéter régulièrement l’opération (tous les mois) Systèmes intermédiaire Systèmes intermédiaire Réplication ETL Systèmes intermédiaire DW Source Validation
41
Amélioration des performances - Partitionnement
Historique Un DW n’est pas une restitution de la vision du système de production Permet de retracer toutes les évolutions des systèmes sources (pas de MAJ) - Quelle était ma vision il y a une semaine ? (Audit - Réglementaire) Semaine S Source DW ETL ID Valeur 1 Evoli ID Valeur 1 Evoli Semaine S+1 Source DW ETL ID Valeur Semaine 1 Evoli S Pyroli S+1 ID Valeur 1 Pyroli
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.