1 Les entrepôts de données. 2 Modélisation Entité/Association Avantages: Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation.

Slides:



Advertisements
Présentations similaires
ACubeOLAP Client Olap en ACube.
Advertisements

1 Bases de donn é es relationnelles. 2 Introduction au mod è le relationnel les donn é es sont repr é sent é es par des tables, sans pr é juger de la.
Vue d’ensemble du Data warehousing et de la technologie OLAP
Data warehouses Cours pour les Master I.
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Principes et mise en œuvre du modèle OLAP -1°ère Partie- La modélisation multidimensionnelle 1.
Principes et mise en œuvre du modèle OLAP
P2. Le modèle multidimensionnel est bien adapté pour mesurer des données que l’on peut exprimer comme cela. Le modèle OLAP STD - Notes1.
LE DATA WAREHOUSE.
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Data warehouse Motivations et architecture Conception de la BD support
Présentation de projet
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Analyse, élaboration et exploitation d’une Base de Données
Cours 11 Entrepôts de données
Les entrepôts de données
Une formation ouverte aux bacheliers issus des sections Générales, Technologiques et Professionnelles.
1 Management de projet M1 GESTION SEGMI Pr. R. Marciniak.
JI Les systèmes d’autorisation et d’authentification dans AMI Fabian Lambert.
SEMINAIRE DE L’OAA SUR L’ASSURANCE VIE Soudan, Khartoum Novembre 2011.
Présentation de Warehouse Un logiciel distribué exclusivement par Brain2tech SARL.
DRH Groupe CONFIDENTIEL Plénière du 12 février 2016 Négociation sur le dialogue social et le droit syndical.
Roger Boll, avril 2006 Equipe de Biologie des Populations en Interaction Institut National de la Recherche Agronomique UMR 1112 : Réponses des Organismes.
Présentation PGI (Progiciels de Gestion Intégrée) VEGNI Cyril, Enseignant l’Université d’Angers, Directeur de Projet GUERY Sébastien, Enseignant à l’Université.
SAS Centrales villageoises de la Gervanne Les statuts.
Le Commerce Intérieur et Exterieur Le commerce Le Commerce est la vente et l’achat des produits (marchandises) ou services. Il est intérieur quand les.
Développement d’application avec base de données Semaine 3 : Modifications avec Entité Framework Automne 2015.
Bases de données : modèlisation et SGBD Séance 3.
Formation à l’édition des blogs Destinée aux animateurs des collectifs Front de Gauche du Morbihan.
1 Les bases de données Séance 7 Les fonctions avancées : Opérateurs ensemblistes, Sous-requêtes et transactions.
Modèles d’aide à la décision Séance 12 Optimisation non linéaire 1.
Lycée Argensol à Orange Adresse : Rue Henry Dunant, Orange Téléphone :
Géomatique Systèmes de projection Types de données Applications Qu’est-ce qu’un SIG ? Présentation de la géomatique La géomatique regroupe l'ensemble des.
Février 2006 M. Fieschi Data mining Master EISIS Entrepôts de données (data warehousing) et technologies pour la fouille de données (data mining) Marius.
Le plan d'Achat et le plan d'Approvisionnement DIU de gestion des approvisionnements pharmaceutiques dans la lutte contre le SIDA, la tuberculose et le.
EDUCATION Halte au gaspillage alimentaire ! Date : 25 mars 2013.
Conception et développement d’un service web de constitution de mini-cubes SOLAP en temps réel Présentation de maîtrise Etienne Dubé Direction: Thierry.
Les méthodes de tests Les grands principes pour réaliser des tests efficaces.
Les Soldes Intermédiaires de Gestion (SIG)
RÉNOVATION BTS Comptabilité et Gestion 2015 CB2C : un exemple de situation professionnelle Christine Forest Stéphane Bessière Daniel Perrin Toinin.
Master 2 Entrepreneuriat International Option Gestion des Risques L’APPRECIATION DES PLUS OU MOINS VALUES LATTENTES, LES ECARTS DE CONSOLIDATION ET D’ACQUISITIONS.
Enabling innovation in construction 1 Topic Training Fondations Irca Schepers Customer Service Engineer.
1 Journées Scientifiques novembre 2003 MoMaS EDF Electricité de France Multi Domaines Simulation Multi Domaines Laurent Loth - Andra.
LA METHODE DU BARYCENTRE.  Objectif :  La méthode du barycentre permet de déterminer le milieu d’un réseau de points à desservir dont les coordonnées.
EP2 Pratique de l’accueil, de l’information et de la vente (CCF) SITUATION 2 Connaissance de l’environnement professionnel (coef 3)
Cycle d’exploitation Fonds de roulement Besoin en fonds de roulement Trésorerie.
Activités de recherches de la composante SIG – Entrepôts de données 7 Novembre 2005 IRIT/UT1.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 7 Support de cours rédigé par Bernard COFFIN Université.
Nouveaux programmes de mathématiques cycles 3 et 4
 Introduction  Les protocoles de sécurité  Les attaques possibles  Conclusion.
Master sciences et techniques de géomatique environnementale
Les limites de l’UML Présenté par : Samah Dekhil 1.
« crédits bancaires octroyés aux PME Gabonaises en 2012 et 2013 Difficultés rencontrées solutions préconisées » 1.
Informatique 2A Langage C 3 ème séance.
1 PRESENTATION DU PROJET NTIC - SERMM. 2 SERMM Fondée en personnes, 6,9 M€ Spécialisée dans l’usinage, la soudure de pièces en métaux difficiles.
Mesures de tendance centrale et mesures de dispersion.
PROJET FIN D’ÉTUDE 4 ÈME ANNÉE OPTION : INGÉNIERIE DES SYSTÈMES AUTOMATISÉ ET CONTRÔLE QUALITÉ « SYSTÈME DE CONTRÔLE ET DE COMMANDE D’ACCÈS À DISTANCE.
1 Etapes d’analyse de la pertinence d’ouvrir un hôpital de semaine 1.Identification des avantages et inconvénients de la création d’un hôpital de semaine.
Tutoriel MATLAB-SIMULINK Projet UNIT 2009 Partenariat : Ecole des Mines d’Alès Ecole des Mines de Saint Etienne Université de Nice Sophia-Antipolis.
Observatoire de la Qualité des Services de Communication Électronique Fixes 2015 Réunion Qostic 93 du 31 mai /05/2016AHQ
Système d’injection C.T.D. Objectifs L’objectif à l’issue de cette séquence est d’être capable d’utiliser les systèmes d’injection C.T.D. en opération.
Technologies d’intelligence d’affaires
DATA WEARHOUSE 1ère année LA: Technologies systèmes d’information
Integrated Business intelligence
L1 Technique informatique
Daniel Leduc Lise Pouliot Sylvain Bourdeau
Transcription de la présentation:

1 Les entrepôts de données

2 Modélisation Entité/Association Avantages: Normalisation: Éliminer les redondances Préserver la cohérence des données Optimisation des transactions Réduction de l’espace de stockage Inconvénients pour un utilisateur final: Schéma très/trop complet: Contient des tables/champs inutiles pour l’analyse Pas d’interface graphique capable de rendre utilisable le modèle E/A Inadapté pour l’analyse

3 Exemple Mode d’expédition Transporteur Produit Groupe de produits Famille de produits Division de ventes Région de ventes Magasin Commande client Type de contrat Contrat Client Employé Fonction Stock Fournisseurs

4 Modélisation des DW Nouvelle méthode de conception autour des concepts métiers Ne pas normaliser au maximum Introduction de nouveaux types de table: Table de faits Table de dimensions Introduction de nouveaux modèles: Modèle en étoile Modèle en flocon

5 Table de faits Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions) Table de faits des ventes Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Coût Montant des ventes Clés étrangères vers les dimensions Faits

6 Table de faits (suite) Fait: Ce que l’on souhaite mesurer Quantités vendues, montant des ventes… Contient les clés étrangères des axes d’analyse (dimension) Date, produit, magasin Trois types de faits: Additif Semi additif Non additif

7 Typologie des faits Additif: additionnable suivant toutes les dimensions Quantités vendues, chiffre d’affaire Peut être le résultat d’un calcul: Bénéfice = montant vente - coût Semi additif: additionnable suivant certaines dimensions Solde d’un compte bancaire: Pas de sens d’additionner sur les dates car cela représente des instantanés d’un niveau Σ sur les comptes: on connaît ce que nous possédons en banque Non additif: fait non additionnable quelque soit la dimension Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre dépourvu de sens

8 Table de dimension Axe d’analyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits Dimension produit Clé produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids Clé de substitution Attributs de la dimension

9 Table de dimension (suite) Dimension = axe d’analyse Client, produit, période de temps… Contient souvent un grand nombre de colonnes L’ensemble des informations descriptives des faits Contient en général beaucoup moins d’enregistrements qu’une table de faits

10 La dimension Temps Commune à l’ensemble du DW Reliée à toute table de faits Dimension Temps Clé temps (CP) Jour Mois Trimestre Semestre Année Num_jour_dans_année Num_semaine_ds_année

11 Granularité d’une dimension Une dimension contient des membres organisés en hiérarchie : Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier Granularité d’une dimension : nombre de niveaux hiérarchiques Temps : année – semestre – trimestre - mois

12 Les types de modèles Modèle en étoile Modèle en flocon

13 Modèle en étoile Une table de fait centrale et des dimensions Les dimensions n’ont pas de liaison entre elles Avantages: Facilité de navigation Nombre de jointures limité Inconvénients: Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures

14 Modèle en étoile Dimension Temps ID temps année mois jour … Dimension Magasin ID magasin description ville surface … Dimension Region ID région pays description district vente …. Dimension produit ID produit nom code prix poids groupe famille … Dimension Client ID client nom prénom adresse … Dimension Client ID client nom prénom adresse … Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats

15 Modèle en flocon Une table de fait et des dimensions décomposées en sous hiérarchies On a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine Avantages: Normalisation des dimensions Économie d’espace disque Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes

16 Modèle en flocon Dimension Temps ID temps annee mois jour … Dimension Magasin ID magasin description ville surface … Dimension produit ID produit ID groupe nom code prix poids … Dimension Client ID client nom prénom adresse … Dimension Client ID client nom prénom adresse … Dimension groupe ID groupe ID famille nom … Dimension Famille ID famille nom … Dimension Famille ID famille nom … Dimension Division vente ID division vente description …. Dimension Region ID région ID division vente pays description …. Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats

17 Alimentation/ mise à jour de l’entrepôt Entrepôt mis à jour régulièrement Besoin d’un outil permettant d’automatiser les chargements dans l’entrepôt Utilisation d’outils ETL (Extract, Transform, Load)

18 Définition d’un ETL Offre un environnement de développement Offre des outils de gestion des opérations et de maintenance Permet de découvrir, analyser et extraire les données à partir de sources hétérogènes Permet de nettoyer et standardiser les données Permet de charger les données dans un entrepôt

19 Extraction Extraire des données des systèmes de production Dialoguer avec différentes sources: Base de données, Fichiers, Bases propriétaires Utilise divers connecteurs : ODBC, SQL natif, Fichiers plats

20 Transformation Rendre cohérentes les données des différentes sources Transformer, nettoyer, trier, unifier les données Exemple: unifier le format des dates (MM/JJ/AA  JJ/MM/AA) Etape très importante, garantit la cohérence et la fiabilité des données

21 Chargement Insérer ou modifier les données dans l’entrepôt Utilisation de connecteurs: ODBC, SQL natif, Fichiers plats

22 Aperçu d’un ETL

23 OLTP VS OLAP Pays France Espagne Allemagne pommes poires oranges janvier février avril Temps Produits Vente de pommes en Allemagne en avril Achat PKid_achat FKid_client id_produit Quantité client PKid_client Nom adresse Produit PKid_produit Libellé Famille

24 ROLAP Relational OLAP Données stockées dans une base de données relationnelles Un moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel Plus facile et moins cher à mettre en place Moins performant lors des phases de calcul Exemples de moteurs ROLAP: Mondrian

25 MOLAP Multi dimensional OLAP: Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes) Accès direct aux données dans le cube Plus difficile à mettre en place Formats souvent propriétaires Conçu exclusivement pour l’analyse multidimensionnelle Exemples de moteurs MOLAP: Microsoft Analysis Services Hyperion

26 HOLAP Hybride OLAP: tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base) données agrégées stockées dans des cubes Solution hybride entre MOLAP et ROLAP Bon compromis au niveau coût et performance

27 Le cube Modélisation multidimensionnelle des données facilitant l’analyse d’une quantité selon différentes dimensions: Temps Localisation géographique … Les calculs sont réalisés lors du chargement ou de la mise à jour du cube

28 Manipulation des données multidimensionnelles Opération agissant sur la structure Rotation (rotate): présenter une autre face du cube Œuf Viande Idf Ain

29 Manipulation des données multidimensionnelles Opération agissant sur la structure Tranchage (slicing): consiste à ne travailler que sur une tranche du cube. Une des dimensions est alors réduite à une seule valeur 06 ŒufIdf265 Ain245 ViandeIdf152 Ain ŒufIdf Ain ViandeIdf Ain

30 Manipulation des données multidimensionnelles Opération agissant sur la structure Extraction d’un bloc de données (dicing): ne travailler que sous un sous-cube ŒufIdf Ain ViandeIdf Ain ŒufIdf Ain

31 Manipulation des données multidimensionnelles Opération agissant sur la granularité Forage vers le haut (roll-up): « dézoomer » Obtenir un niveau de granularité supérieur Utilisation de fonctions d’agrégation Forage vers le bas (drill-down): « zoomer » Obtenir un niveau de granularité inférieur Données plus détaillées

Fruits623 Viande648 1S052S051S062S061S07 Fruits Viande Fruits Viande Pomme ………… Boeuf Alim Roll up Drill down Dimension Produit Dimension Temps Drill down Roll up Drill-up, drill-down

33 Quelques solutions commerciales

34 Quelques solutions open source Intégré Pentaho (Kettle, Mondrian, JFreeReport, Weka) SpagoBI ETLEntrepôt de données OLAPReportingData Mining Octopus Kettle CloverETL Talend MySql Postgresql Greenplum/Bizgres Mondrian Palo Birt Open Report Jasper Report JFreeReport Weka R-Project Orange Xelopes