DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.

Slides:



Advertisements
Présentations similaires
MySQL Base de données.
Advertisements

Objet et définition de la comptabilité de gestion
ACubeOLAP Client Olap en ACube.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
INTRODUCTION Grande quantité de données
Vue d’ensemble du Data warehousing et de la technologie OLAP
Relations avec les entity beans Michel Buffa UNSA
VI. Analyse des solutions techniques
Data warehouses Cours pour les Master I.
Base de données: Généralité
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Développement d’applications web
Présentation commerciale
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
BPM & BPMS.
Chap 4 Les bases de données et le modèle relationnel
Le Travail Collaboratif ...
L’utilisation des bases de données
Gestion des bases de données
Entre construction théorique et mise en œuvre opérationnelle
VI. Analyse des solutions techniques
VI. Analyse des solutions techniques
Systèmes d'information décisionnels
Universté de la Manouba
Les concepts et les méthodes des bases de données
RECHERCHE COMMERCIALE
Initiation aux bases de données et à la programmation événementielle
Initiation aux bases de données et à la programmation événementielle
Introduction.
Principes et mise en œuvre du modèle OLAP
SOLUTION DE BUSINESS INTELLIGENCE
Progiciels de Gestion Intégrés
ASKIT v2.0 Gestion de l’ASCII DAUVERGNE Sébastien DEZE Simon Master 1 Informatique.
Kit de migration Sage Intégrale Brief Partenaires
Bases de données : modèlisation et SGBD
Ceci est une session expert Cette session est déconseillée aux novices des moteurs Analysis Services 2000 ou 2005 La session « Découverte de Analysis.
LE DATA WAREHOUSE.
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Cours n°1 Introduction, Conception
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
No SQL. Sommaire 1. Présentation a) Qu’est ce que le NoSQL b) Un SGBD NoSQL 2. Bornes 3. Outils de veille 4. Article.
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
Quinio1 Bases de données : modèlisation et SGBD Séance 3 B Quinio.
L’enseignement de spécialité SLAM
Module 1 : Vue d'ensemble de Microsoft SQL Server
Initiation aux SGBD Frédéric Gava (MCF)
Data warehouse Motivations et architecture Conception de la BD support
Intégration des Tableaux Multidimensionnels en Pig pour
Dr Mohamed Anis BACH TOBJI
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
La gestion des bases de données
Modèles des Data Warehouses
Présentation de projet
Séance /10/2004 SGBD - Approches & Principes.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Systèmes d'information décisionnels
Initiation aux bases de données et à la programmation événementielle
Présentation de l’Analyse et Conception des Systèmes d’Information
Introduction Module 1.
Analyse, élaboration et exploitation d’une Base de Données
Cours 11 Entrepôts de données
Les bases, les entrepôts et l’exploration de données
Les entrepôts de données
Introduction SGDBOO Sommaire Définition d’un SGBD (6 services)
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
SQLSaturday Paris 2015 SSAS et le moteur relationnel Faire son choix.
1 Les entrepôts de données. 2 Modélisation Entité/Association Avantages: Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud

Plan Introduction Les entrepôts de données Architecture Modélisation Alimentation Les bases de données multidimensionnelles Le marché du décisionnel

Problématique Comment répondre aux demandes des décideurs? Introduction Problématique Comment répondre aux demandes des décideurs? En donnant un accès rapide et simple à l’information stratégique En donnant du sens aux données Mettre en place un système d’information dédié aux applications décisionnelles: un data Warehouse

Le processus de prise de décision Introduction Le processus de prise de décision Champs d’application des systèmes décisionnels Définir le problème Rassembler les données Analyser les données Établir des solutions Décider Temps de prise d’une décision

Définition d’un DW W. H. Immon (1996): Les entrepôts de données Définition d’un DW W. H. Immon (1996): « Le data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historiées, organisées pour le support d’un processus d’aide à la décision » Principe: mettre en place une base de données utilisée à des fins d’analyse

Les 4 caractéristiques des data Warehouse Les entrepôts de données Les 4 caractéristiques des data Warehouse Données orientées sujet: Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des données Données intégrées: Normalisation des données Définition d’un référentiel unique -pas de modification, pas de suppression - Fige l’état des données au moment de l’alimentation du DW - un référentiel temps est mis en place pour identifier chaque donnée Données non volatiles Traçabilité des informations et des décisions prises Copie des données de production

Les 4 caractéristiques des data warehouse Données datées Les données persistent dans le temps Mise en place d’un référentiel temps

Architecture générale Zone de présentation Zone de préparation Zone de stockage Transformations: Nettoyage Standardisation … Requêtes Rapports Visualisation Data Mining … EXTRACTION CHARGEMENT Data warehouse Datamart Sources de données

Les différentes zones de l’architecture Zone de préparation (Staging area) Zone temporaire de stockage des données extraites Réalisation des transformations avant l’insertion dans le DW: Nettoyage Normalisation… Données souvent détruites après chargement dans le DW Zone de stockage (DW, DM) On y transfère les données nettoyées Stockage permanent des données Zone de présentation Donne accès aux données contenues dans le DW Peut contenir des outils d’analyse programmés: Rapports Requêtes… Staging area: ne pas faire les transformations en même temps que les extractions On extrait donc qu’une seule fois les données, et on peut leur appliquer plusieurs transformations

Modélisation Entité/Association Avantages: Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation des transactions Réduction de l’espace de stockage Inconvénients pour un utilisateur final: Schéma très/trop complet: Contient des tables/champs inutiles pour l’analyse Pas d’interface graphique capable de rendre utilisable le modèle E/A Inadapté pour l’analyse

Exemple Mode d’expédition Transporteur Produit Contrat Commande client Groupe de produits Type de contrat Client Magasin Famille de produits Employé Région de ventes Stock Fonction Division de ventes Fournisseurs

Modélisation des DW Nouvelle méthode de conception autour des concepts métiers Ne pas normaliser au maximum Introduction de nouveaux types de table: Table de faits Table de dimensions Introduction de nouveaux modèles: Modèle en étoile Modèle en flocon

Table de faits des ventes Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions) Table de faits des ventes Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Coût Montant des ventes Clés étrangères vers les dimensions Faits Ce que l’on souhaite mesurer Quantités vendues, montant des ventes…

Table de dimension Dimension produit Clé produit (CP) Axe d’analyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits Dimension produit Clé produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids Clé de substitution Attributs de la dimension Contient en général beaucoup moins d’enregistrements qu’une table de faits

Évolution des dimensions Dimensions à évolution lente Gestion de la situation, 3 solutions: Écrasement de l’ancienne valeur Versionnement Valeur d’origine / valeur courante

Évolution des dimensions Dimensions à évolution rapide Subit des changements très fréquents (tous les mois) dont on veut préserver l’historique Solution: isoler les attributs qui changent rapidement Changements fréquents des attributs dont on veut garder l’historique Clients pour une compagnie d’assurance Isoler les attributs qui évoluent vite

Modèle en étoile Une table de fait centrale et des dimensions Modélisation Modèle en étoile Une table de fait centrale et des dimensions Les dimensions n’ont pas de liaison entre elles Avantages: Facilité de navigation Nombre de jointures limité Inconvénients: Redondance dans les dimensions

Modèle en étoile Dimension Temps ID temps année mois jour … Dimension produit ID produit nom code prix poids groupe famille … Dimension Magasin ID magasin description ville surface … Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension Region ID région pays description district vente …. Dimension Client ID client nom prénom adresse …

Modèle en flocon Une table de fait et des dimensions décomposées en sous hiérarchies On a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine Avantages: Normalisation des dimensions Économie d’espace disque Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes

Modèle en flocon Dimension produit ID produit ID groupe nom code prix poids … Dimension Temps ID temps annee mois jour … Dimension Magasin ID magasin description ville surface … Dimension groupe ID groupe ID famille nom … Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension Region ID région ID division vente pays description …. Dimension Famille ID famille nom … Dimension Client ID client nom prénom adresse … Dimension Division vente ID division vente description ….

Définition d’un ETL Offre un environnement de développement Alimentation Définition d’un ETL Offre un environnement de développement Offre des outils de gestion des opérations et de maintenance Permet de découvrir, analyser et extraire les données à partir de sources hétérogènes Permet de nettoyer et standardiser les données Permet de charger les données dans un entrepôt

Extraction Transformation Extraire des données des systèmes de production Dialoguer avec différentes sources: Base de données, Fichiers, Bases propriétaires Utilise divers connecteurs : ODBC, SQL natif, Fichiers plats Transformation Rendre cohérentes les données des différentes sources Transformer, nettoyer, trier, unifier les données Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA) Etape très importante, garantit la cohérence et la fiabilité des données

Chargement Insérer ou modifier les données dans l’entrepôt Utilisation de connecteurs: ODBC, SQL natif, Fichiers plats

ROLAP(Relational OLAP) Les bases de données multidimensionnelles ROLAP(Relational OLAP) Données stockées dans une base de données relationnelles Un moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel Exemples de moteurs ROLAP: Mondrian MOLAP(Multi dimensional OLAP) Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes) Accès direct aux données dans le cube Exemples de moteurs MOLAP: Microsoft Analysis Services Hyperion

HOLAP(Hybride OLAP) Le cube Solution hybride entre MOLAP et ROLAP tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base) données agrégées stockées dans des cubes Solution hybride entre MOLAP et ROLAP Le cube Modélisation multidimensionnelle des données facilitant l’analyse d’une quantité selon différentes dimensions: Temps Localisation géographique

MDX (Multidimensional Expressions) Langage permettant de définir, d'utiliser et de récupérer des données à partir d'objets multidimensionnels Permet d’effectuer les opérations décrites précédemment Equivalent de SQL pour le monde OLAP Origine: Microsoft

Le marché du décisionnel

Quelques solutions commerciales

Quelques solutions open source ETL Entrepôt de données OLAP Reporting Data Mining Octopus Kettle CloverETL Talend MySql Postgresql Greenplum/Bizgres Mondrian Palo Birt Open Report Jasper Report JFreeReport Weka R-Project Orange Xelopes Intégré Pentaho (Kettle, Mondrian, JFreeReport, Weka) SpagoBI

Merci de votre attention