Data warehouse  Motivations et architecture  Conception de la BD support  Alimentation du DW  Exploitation OLAP  Conclusion.

Slides:



Advertisements
Présentations similaires
Vue d’ensemble du Data warehousing et de la technologie OLAP
Advertisements

SGBDR : LA GESTION DES VUES
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Data warehouse Motivations et architecture Conception de la BD support
LE DATA WAREHOUSE.
1 J. PHILIPP d'après G. Gardarin SGBDR : la gestion des vues l 1. Contexte l 2. Vues externes l 3. Interrogation des vues l 4. Mises à jour des vues l.
Data warehouse Motivations et architecture Conception de la BD support
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Cours 11 Entrepôts de données
Page 1 La problématique du décideur La solution du « décisionnel » Les outils existants Mener un projet décisionnel Démo on line Sommaire.
Les systèmes d'information 1- Une pratique quotidienne 2- Les données 3- Approche conceptuelle 4- Notion de serveur 5- Conception d'un système d'information.
Adopter le KM mix pour obtenir ou renforcer le leadership Préparé par: Ilham ELKORCHI Meriem NASIRI Mohammed BENMRAH Encadré par: Ouidad AMRANI.
Introduction Bases de Données NoSQL Principe de base Avantages/Inconvénients L’évolution du Web 2.0 et actuellement Web 3.0, a montrée l’insuffisance des.
STAGE INGENIEUR ETUDES & DEVELOPPEMENT Business Intelligence Saint-Avertin (37550) Créée en 1990, Umanis est le leader français en Data (Big Data, Business.
Un système autonomique basé sur des bases de connaissances pour améliorer les performances d’un entrepôt de données Réalisé par : OUSSAFI MOHAMMED HOURRI.
ANNEE ACADEMIQUE Institut Supérieur Emmanuelle D’Alzon de Butembo COURS: THEORIE DE BASE DE DONNEES : 45H PROMOTION: G2 Gestion Informatique.
Système d’aide à la décision Business Intelligence
Les Bases de données Définition Architecture d’un SGBD
Système d’aide à la décision Business Intelligence
Haute École Roi Baudouin CATÉGORIE ÉCONOMIQUE INFORMATIQUE DE GESTION
Module de gestion des tournées de livraison
Systèmes d’Information
Environnement du développement de BD ORACLE REPORTS 10g
Microsoft SQL Server La Base de Données des plates formes Windows NT
Introduction aux Systèmes de Gestion de Bases de données
ملخص Initiation à la sgbdr
Initiation aux bases de données et à la programmation événementielle
Développer une Relation Client
Evolutions de la plate-forme Windows NT et BackOffice en entreprise
Base de données: Généralité IFT6800 Jian-Yun Nie.
Introduction Bases de données Accès Internet (Web)
Technologies d’intelligence d’affaires
1 Présentation projet Base de Données & Langage SQL Bakary DIABY, Insa Rouen Promo. MS-ESD 16/17.
Technologies de l’intelligence d’affaires
Spécificités du Data Mining
Technologies de l’intelligence d’affaires Séance 12
SQL LID – INTERROGATIN DES DONNEES
SEGMENTATION STRATEGIQUE ET AVANTAGE CONCURRENCIEL
Conception et développement d’une application web pour la gestion d’un tour opérateur Réalisé par : Mohamed Yosri YAHYAOUI Encadrés par: El Ayeb Faycel.
1 La gestion par activités (ABM) pour mieux gérer les coûts et les processus dans l’organisation. S o l u t i o n s `
Plan d'urbanisation Version / 02 / Nov Mai 2013 Passation des marchés Sommaire Une vision unifiée de l'urbanisation et de l'approche.
Data warehouse  Motivations et architecture  Conception de la BD support  Alimentation du DW  Exploitation OLAP  Conclusion.
Bases de données sous Access. Initiation aux bases de données  Structure d’une base de données.
Conception d’un modèle d’analyse multidimensionnelle de données spatialement continues (SOLAP raster) Analyse de hotspots de criminalité Jean-Paul Kasprzyk,
Chapitre2: SGBD et Datawarehouse. On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle.
Integrated Business intelligence
Business Intelligence
MPR - Le concept de réseau - 06
1. LE LANGAGE SQL DDL Version 2 - Janvier Le langage SQL-DDL
18 Bases de données parallèles et réparties
Le département QIF Qualité, Innovation, Fiabilité
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Les entrepôts de données : DataWarehouse
1 CHAPITRE: GESTION DES STOCKS. 2 Plan Plan IntroductionDéfinitionNature du stockLes niveaux des stocks Suivi du stock: Méthodes d’approvisionnement Conclusion.
Data warehouse Motivations et architecture Conception de la BD support
Moteurs de recherches Data mining Nizar Jegham.
Daniel Leduc Lise Pouliot Sylvain Bourdeau
1. Organiser le système d’information commerciale 1.1. Le contenu
Bases – Banques Entrepôts de données
TITRE Interlocuteur date
Systèmes d’Information et Application
Le modèle comptable et l’entreprise industrielle
Evaluation et SGB(m) : quels enjeux et quelles possibilités ?
Gérer l’information et des prestations à des fins organisationnelles
Le modèle comptable et l’entreprise industrielle
2018 presentation MONITORING & REPORTING ANALYTICS
DONNÉE DE BASE QM Manuel de formation. Agenda 2  Introduction  Objectif de la formation  Données de base QM: Caractéristique de contrôle Catalogue.
Business Intelligence en ACube OLAP et Reporting avec ACubeOLAP et GRaM.
Cube OLAP.
Transcription de la présentation:

Data warehouse  Motivations et architecture  Conception de la BD support  Alimentation du DW  Exploitation OLAP  Conclusion

Aides à la décision 1. OLTP et OLAP Introduction DW DW OLTP ETL Appli. Reports & Analysis DM OLAP Appli.

Explosion de l ’OLAP  Facteurs économiques & technologiques Introduction DW

Motivations des entreprises  Besoin des entreprises accéder à toutes les données de l’entreprise regrouper les informations disséminées analyser et prendre des décisions rapidement (OLAP)  Exemples d'applications concernées Grande distribution : marketing, maintenance,... produits à succès, modes, habitudes d’achat préférences par secteurs géographiques Bancaire : suivi des clients, gestion de portefeuilles mailing ciblés pour le marketing Télécommunications : pannes, fraudes, mobiles,... classification des clients, détection fraudes, fuites de clients Introduction DW

Datawarehouse : définition  Entrepôt de données Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans l’entreprise.  Trois fonctions essentielles : collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision

Architecture type Introduction DW

2. Concevoir le DW  Export de données des sources Hétérogènes et variées Fichiers, BD patrimoniales, Web, … Définition des vues exportées  Définition d'un schéma global Intègre les données utiles S'appuie sur le modèle relationnel  Nécessité d'une gestion de méta-données Description des sources Description des vues exportées Description du schéma global Conception DW

Organisation par sujet  Les données sont organisées par sujets majeurs: Clients, produits, ventes, …  Sujet = faits + dimensions Collecte les données utiles sur un sujet Exemple: ventes Synthétise une vue simple des événements à analyser Exemple: Ventes (N°, produit, période, magasin, ) Détaille la vue selon les dimensions Exemple: Produits(IDprod, description, couleur, taille, …) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, année, trimestre, mois, jour) Conception DW

Schémas en étoile  Une table de faits encadrées par N tables de dimensions IDper année trimestre mois jour Periodes IDmag nom ville département pays Magasins Table de faits “ventes” produit magasin unités_vendues montant_ventes taxes_ventes IDprod description couleur taille fournisseur Produits periode Conception DW

Schémas en flocons  Raffinement du schéma étoile avec des tables normalisées par dimensions  Avantages Évite les redondances Conduit aux constellations (plusieurs tables de faits à dimensions partagées) IDprod description couleur taille IDfour Produits IDfour description type Adresse Fournisseurs Ventes Conception DW

Conception du schéma intégré  Isoler les faits à étudier Schéma des tables de faits  Définir les dimensions Axes d'analyse  Normaliser les dimensions Éclater en plusieurs tables liés par contraintes référentielles  Intégrer l'ensemble Plusieurs tables de faits partagent quelques tables de dimension (constellation d’étoiles) Conception DW

Bilan conception  Le datawarehouse regroupe, historise, résume les données de l'entreprise  Le concepteur définit schéma exportés et intégrés des choix fondamentaux ! Ciblage essentiel !  Le datamart c’est plus ciblé et plus petit.  Questions ? Peut-on ajouter des données au niveau de l ’entrepôt ? Conception DW

3. Alimenter le DW  ETL = Extracteur+Intégrateur Extract + Transform + Load  Extraction Depuis les bases sources ou les journaux Différentes techniques Push = règles (triggers) Pull = requêtes (queries) Périodique et répétée Dater ou marquer les données envoyées Difficulté Ne pas perturber les applications OLTP L'alimentation

Transformation  Accès unifiés aux données Unification des modèles Traduction de fichiers, BD réseaux, annuaires en tables Evolution vers XML (modèle d'échange) plus riche Unification des accès Rowset, SQL limité, SQL complet, …  Mapping plus ou moins sophistiqué Unification des noms Appeler pareil les mêmes choses et différemment les choses différentes Application des "business rules" Elimination des doubles Jointure, projection, agrégation (SUM, AVG)  Cleaning des données L'alimentation

Data Cleaning  Valeurs manquantes (nulles) Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne  Valeurs erronées ou inconsistantes Générées en présence de bruits Détecter par une analyse de voisinage Écart par rapport à la moyenne Factorisation en groupes (outliers) Remplacer par une valeur fixe ou par la moyenne  Inspection manuelle de certaines données possible L'alimentation

Chargement  Pas de mise à jour Insertion de nouvelles données Archivage de données anciennes  De gros volumes Périodicité parfois longue Chargement en blocs (bulk load) Mise à jour des index et résumés  Problèmes Cohabitation avec l'OLAP ? Procédures de reprises ? L'alimentation

4. Gérer l'entrepôt  Base relationnelle Support de larges volumes (qq 100 gigas à qq téras) Historisation des données (fenêtres) Importance des agrégats et chargements en blocs  Base spécialisée Base multidimensionnelle Combinaison des deux  Machine support parallèle Multiprocesseurs Mémoire partagée, cluster, bus partagé, etc. Le multidimensionnel

 Dimensions: Temps Géographie Produits Clients Canaux de ventes.....  Indicateurs: Nombre d’unités vendues CA Coût Marge.....

Cube de données NumFou NumPro Date F1 F2 P1P2P Le multidimensionnel

Le data cube et les dimensions Axe d'analyse: Le temps (Année, trimestre, mois, semaine) Variables analysées: Nb unités, CA, marge... Axe d'analyse: La géographie (Pays - région - ville) Axe d'analyse: Les produits (classe, produit) Axes d'analyse: dimensions Variables analysées: indicateurs Le multidimensionnel

La granularité des dimensions Jours Années TrimestresMois Temps PaysRégionsVilles Géographie GammesTypesNuméros Produits Marques Le multidimensionnel

Exemple  Montant des ventes fonction de (Mois, région, Produit) Produit Région Mois Type Région Année Catégorie Pays Trimestre Produit Ville Mois Semaine Magasin Jour Granularité des dimensions : Le multidimensionnel

France Sud MarseilleNiceLyon EstOuest CA Projection en 2 dimensions Réduction selon 1 dimension Zoom selon une dimension Coupe d ’un cube Produits Région Produits Temps en mois CA Produits Temps en semaines pour une région donnée La navigation multidimensionnelle CA Le multidimensionnel

L'algèbre des cubes  Roll up : Agréger selon une dimension Semaine  Mois  Drill down : Détailler selon une dimension Mois  Semaine  Slice et Dice: Sélection et projection selon 1 axe Mois = ; Projeter(Région, Produit)  Pivot : Tourne le cube pour visualiser une face (Région,Produit)  (Région, Mois) Le multidimensionnel

Les vues d'un cube  Partant d'un cube 3D, il est possible d'agréger selon une dimension tournante  On obtient un treillis de vues (calculable en SQL) NumPro, NumFou, Date NumPro, DateNumPro, NumFouNumFou, Date NumProNumFou Date Le multidimensionnel

Extension de SQL  ROLLUP: SELECT FROM GROUP BY ROLLUP(column_list);  Crée des agrégats à n+1 niveaux, n étant le nombre de colonne de groupage n, n-1, n-2,…0 colonnes  CUBE: SELECT FROM GROUP BY CUBE(column_list);  Crée 2n combinaisons d'agrégats, n étant le nombre de colonne de groupage Implémentation

Exemple CUBE  SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal, Magasin WITH CUBE Implémentation

Exemple ROLLUP  SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal,Magasin WITH ROLLUP Implémentation

Quelques outils OLAP  Oracle OLAP API = Datacube Express = Analyse Report = Reporting  Business Object BusinessQuery = Requêtage BusinessObject = Requêtage + Analyse + Reporting WebIntelligence = Datacube  Cognos Impromptu = Reporting Powerplay = Datacube Query = Requêtage  Hyperion ESS Base = Base MOLAP ESS Analysis= Analyse + Datacube Implémentation

6. Le marché du BI Data PRO Users Survey BI= Business Intelligence Conclusion

Les Data Trucs  Datawarehouse entrepôt des données historisées de l'entreprise  Datamart magasin de données ciblé sur un sujet précis  Datamining exploration des données afin de découvrir des connaissances  Datacube cube de présentation d'unités selon 3 dimensions  Datawebhouse entrepôt des données collectées sur le web Conclusion