Data warehouse Motivations et architecture Conception de la BD support

Slides:



Advertisements
Présentations similaires
Les technologies décisionnelles et le portail
Advertisements

19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
le croisement des réseaux et
Vue d’ensemble du Data warehousing et de la technologie OLAP
TP 3-4 BD21.
SGBDR : LA GESTION DES VUES
NFE 107 : Urbanisation et architecture des systèmes d'information
VI. Analyse des solutions techniques
Projet DataLab Préparé pour le CNN François Bancilhon Data Publica.
MRP, MRP II, ERP : Finalités et particularités de chacun.
Contrôles d'accès aux données
Principes de persistance dans les applications orienté objet
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
– Les entrepôts de données et lanalyse en ligne – Versaille, le 19 Juin 2006.
Systèmes de Gestion de Bases de Données (Relationnelles)
Chap 4 Les bases de données et le modèle relationnel
Intégration ActiveXML - Xyleme
VI. Analyse des solutions techniques
Systèmes d'information décisionnels
Universté de la Manouba
Modèle d’entrepôt de données à base de règles
Les concepts et les méthodes des bases de données
Présentation sur PowerPlay
Informatique décisionnelle
OLAP IED Sommaire Introduction Opérations typiques Langages Architectures.
DATA WAREHOUSE - DATA MINING
Les systèmes d’informations : Etude de cas
Optimisation de requêtes
Data warehouse Motivations et architecture Conception de la BD support
Principes et mise en œuvre du modèle OLAP
Module 9 : Transfert de données. Vue d'ensemble Présentation du transfert de données Outils d'importation et d'exportation de données disponibles dans.
SOLUTION DE BUSINESS INTELLIGENCE
OLAP Par Myriam Corrales Yaqueline Corrales INF7115 – Base de données
ASKIT v2.0 Gestion de l’ASCII DAUVERGNE Sébastien DEZE Simon Master 1 Informatique.
P2. Le modèle multidimensionnel est bien adapté pour mesurer des données que l’on peut exprimer comme cela. Le modèle OLAP STD - Notes1.
LE DATA WAREHOUSE.
1 Mini projet sur les entrepôts de données. 2 Un DW dans les télécoms Sujets – suivi du marché: lignes installées/ désinstallées, services et options.
Visualisation d’un entrepôt de données Pré soutenance technique
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
1 J. PHILIPP d'après G. Gardarin SGBDR : la gestion des vues l 1. Contexte l 2. Vues externes l 3. Interrogation des vues l 4. Mises à jour des vues l.
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
Quinio1 Bases de données : modèlisation et SGBD Séance 3 B Quinio.
Module 1 : Vue d'ensemble de Microsoft SQL Server
Réunion GafoDonnées: Equipe SIG/IRIT 24/25 janvier 2002
Intégration des Tableaux Multidimensionnels en Pig pour
Bases de données avancées UV 19722
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Alti Copyright All rights reserved.. 2 ALTI Copyright All rights reserved. Sommaire Architecture BI 1 Entrepôt de données 2 Acquisition de.
Des fonctions d’oubli intelligentes dans les entrepôts de données
Présentation et compétences
Séminaire LINCOLN – MICROSOFT
Mise en place d’un entrepôt de données
Présentation de projet
Les outils Multidimensionnels SAS ® 9 Atelier Technique SAS ® Eric WOLFF Jeudi 2 juin 2005.
Data warehouse pour le Data mining
Systèmes d'information décisionnels
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Analyse, élaboration et exploitation d’une Base de Données
Cours 11 Entrepôts de données
Les entrepôts de données
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
1 Les entrepôts de données. 2 Modélisation Entité/Association Avantages: Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
module SIE depuis 2011 et IAMD depuis l’an dernier ! Gestion de Masse de Données (GMD) Introduction Adrien Coulet
Data warehouse  Motivations et architecture  Conception de la BD support  Alimentation du DW  Exploitation OLAP  Conclusion.
Data warehouse  Motivations et architecture  Conception de la BD support  Alimentation du DW  Exploitation OLAP  Conclusion.
Data warehouse Motivations et architecture Conception de la BD support
Transcription de la présentation:

Data warehouse Motivations et architecture Conception de la BD support Alimentation du DW Exploitation OLAP Conclusion

1. OLTP et OLAP Reports & Analysis Appli. Appli. Appli. DW OLTP ETL Aides à la décision DM Introduction DW 3 1

Explosion de l ’OLAP Facteurs économiques & technologiques Introduction DW 3

Motivations des entreprises Besoin des entreprises accéder à toutes les données de l’entreprise regrouper les informations disséminées analyser et prendre des décisions rapidement (OLAP) Exemples d'applications concernées Grande distribution : marketing, maintenance, ... produits à succès, modes, habitudes d’achat préférences par secteurs géographiques Bancaire : suivi des clients, gestion de portefeuilles mailing ciblés pour le marketing Télécommunications : pannes, fraudes, mobiles, ... classification des clients, détection fraudes, fuites de clients Introduction DW 2

Datawarehouse : définition Entrepôt de données Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans l’entreprise. Trois fonctions essentielles : collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision Introduction DW 8

Architecture type Introduction DW 11

2. Concevoir le DW Export de données des sources Hétérogènes et variées Fichiers, BD patrimoniales, Web, … Définition des vues exportées Définition d'un schéma global Intègre les données utiles S'appuie sur le modèle relationnel Nécessité d'une gestion de méta-données Description des sources Description des vues exportées Description du schéma global Conception DW

Organisation par sujet Les données sont organisées par sujets majeurs: Clients, produits, ventes, … Sujet = faits + dimensions Collecte les données utiles sur un sujet Exemple: ventes Synthétise une vue simple des événements à analyser Exemple: Ventes (N°, produit, période, magasin, ) Détaille la vue selon les dimensions Exemple: Produits(IDprod, description, couleur, taille, …) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, année, trimestre, mois, jour) Conception DW

Schémas en étoile Une table de faits encadrées par N tables de dimensions Produits IDprod description couleur taille fournisseur Periodes Table de faits “ventes” IDper année trimestre mois jour periode produit Magasins magasin IDmag nom ville département pays unités_vendues montant_ventes taxes_ventes Conception DW

Schémas en flocons Raffinement du schéma étoile avec des tables normalisées par dimensions Avantages Évite les redondances Conduit aux constellations (plusieurs tables de faits à dimensions partagées) Produits Fournisseurs IDprod description couleur taille IDfour IDfour description type Adresse Ventes Conception DW

Conception du schéma intégré Isoler les faits à étudier Schéma des tables de faits Définir les dimensions Axes d'analyse Normaliser les dimensions Éclater en plusieurs tables liés par contraintes référentielles Intégrer l'ensemble Plusieurs tables de faits partagent quelques tables de dimension (constellation d’étoiles) Conception DW

Bilan conception Le datawarehouse regroupe, historise, résume les données de l'entreprise Le concepteur définit schéma exportés et intégrés des choix fondamentaux ! Ciblage essentiel ! Le datamart c’est plus ciblé et plus petit. Questions ? Peut-on ajouter des données au niveau de l ’entrepôt ? Conception DW

3. Alimenter le DW ETL = Extracteur+Intégrateur Extraction Extract + Transform + Load Extraction Depuis les bases sources ou les journaux Différentes techniques Push = règles (triggers) Pull = requêtes (queries) Périodique et répétée Dater ou marquer les données envoyées Difficulté Ne pas perturber les applications OLTP L'alimentation

Transformation Accès unifiés aux données Unification des modèles Traduction de fichiers, BD réseaux, annuaires en tables Evolution vers XML (modèle d'échange) plus riche Unification des accès Rowset, SQL limité, SQL complet, … Mapping plus ou moins sophistiqué Unification des noms Appeler pareil les mêmes choses et différemment les choses différentes Application des "business rules" Elimination des doubles Jointure, projection, agrégation (SUM, AVG) Cleaning des données L'alimentation

Data Cleaning Valeurs manquantes (nulles) Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne Valeurs erronées ou inconsistantes Générées en présence de bruits Détecter par une analyse de voisinage Écart par rapport à la moyenne Factorisation en groupes (outliers) Inspection manuelle de certaines données possible L'alimentation

Chargement Pas de mise à jour De gros volumes Problèmes Insertion de nouvelles données Archivage de données anciennes De gros volumes Périodicité parfois longue Chargement en blocs (bulk load) Mise à jour des index et résumés Problèmes Cohabitation avec l'OLAP ? Procédures de reprises ? L'alimentation

4. Gérer l'entrepôt Base relationnelle Base spécialisée Support de larges volumes (qq 100 gigas à qq téras) Historisation des données (fenêtres) Importance des agrégats et chargements en blocs Base spécialisée Base multidimensionnelle Combinaison des deux Machine support parallèle Multiprocesseurs Mémoire partagée, cluster, bus partagé, etc. Le multidimensionnel

Le multidimensionnel Dimensions: Indicateurs: Temps Géographie Produits Clients Canaux de ventes..... Indicateurs: Nombre d’unités vendues CA Coût Marge..... Le multidimensionnel 16

Cube de données 300 350 600 300 500 400 250 200 NumFou NumPro Date 100 NumFou NumPro Date 300 350 600 2002 150 300 500 400 2001 120 250 200 F2 2000 F1 P1 P2 P3 Le multidimensionnel

Le data cube et les dimensions Axe d'analyse: Le temps (Année, trimestre, mois, semaine) Variables analysées: Nb unités, CA, marge... Axe d'analyse: La géographie (Pays - région - ville) Axe d'analyse: Les produits (classe, produit) Axes d'analyse: dimensions Variables analysées: indicateurs Le multidimensionnel 6 20

La granularité des dimensions Années Temps Jours Mois Trimestres Géographie Villes Régions Pays Produits Numéros Types Gammes Marques Le multidimensionnel

Exemple Montant des ventes fonction de (Mois, région, Produit) Région Granularité des dimensions : Région Type Région Année Catégorie Pays Trimestre Produit Ville Mois Semaine Magasin Jour Produit Mois Le multidimensionnel

La navigation multidimensionnelle Projection en 2 dimensions Coupe d ’un cube Produits Produits pour une région donnée CA CA Région Temps en semaines Réduction selon 1 dimension France Sud Marseille Nice Lyon Est Ouest Zoom selon une dimension Produits CA Temps en mois Le multidimensionnel 13 30

L'algèbre des cubes Roll up : Drill down : Slice et Dice: Pivot : Agréger selon une dimension Semaine  Mois Drill down : Détailler selon une dimension Mois  Semaine Slice et Dice: Sélection et projection selon 1 axe Mois = 04-2003 ; Projeter(Région, Produit) Pivot : Tourne le cube pour visualiser une face (Région,Produit)(Région, Mois) Le multidimensionnel

Les vues d'un cube Partant d'un cube 3D, il est possible d'agréger selon une dimension tournante On obtient un treillis de vues (calculable en SQL) NumPro, NumFou, Date NumPro, Date NumPro, NumFou NumFou, Date NumPro NumFou Date Le multidimensionnel

Extension de SQL ROLLUP: SELECT <column list> FROM <table…> GROUP BY ROLLUP(column_list); Crée des agrégats à n+1 niveaux, n étant le nombre de colonne de groupage n, n-1, n-2,…0 colonnes CUBE: SELECT <column list> FROM <table…> GROUP BY CUBE(column_list); Crée 2n combinaisons d'agrégats, n étant le nombre de colonne de groupage Implémentation

Exemple CUBE SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux  GROUP BY Animal, Magasin  WITH CUBE Implémentation

Exemple ROLLUP SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux  GROUP BY Animal,Magasin  WITH ROLLUP Implémentation

Quelques outils OLAP Oracle Business Object Cognos Hyperion OLAP API = Datacube Express = Analyse Report = Reporting Business Object BusinessQuery = Requêtage BusinessObject = Requêtage + Analyse + Reporting WebIntelligence = Datacube Cognos Impromptu = Reporting Powerplay = Datacube Query = Requêtage Hyperion ESS Base = Base MOLAP ESS Analysis= Analyse + Datacube Implémentation

6. Le marché du BI Conclusion BI= Business Intelligence Data PRO Users Survey Conclusion

Les Data Trucs Datawarehouse Datamart Datamining Datacube Datawebhouse entrepôt des données historisées de l'entreprise Datamart magasin de données ciblé sur un sujet précis Datamining exploration des données afin de découvrir des connaissances Datacube cube de présentation d'unités selon 3 dimensions Datawebhouse entrepôt des données collectées sur le web Conclusion 42