La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Conception d’entrepôt

Présentations similaires


Présentation au sujet: "Conception d’entrepôt"— Transcription de la présentation:

1 Conception d’entrepôt
De données Professeur: Mr Robin Godin Présenté par: Rabah Djema Habib Louafi Adel Younes UQAM – Aut 2004 Maîtrise en Informatique Université du Québec à Montréal

2 Plan Vue d’ensemble sur les entrepôts de données
Architecture des entrepôts de données Modélisation dimensionnelle Option de modélisation Comparaison entre les différentes approches Conclusion Bibliographie Questions

3 Vue d’ensemble Un système d’information décisionnel est un ensemble de données organisées de façon spécifique,appropriées à la prise de décision. Connaître l’environnement dans lequel on évolue Finalité d’un système décisionnel : pilotage de l’entreprise – Outils : 􀂉􀂉 . Data warehouse 􀂉􀂉 . OLAP

4 Vue d’ensemble Entrepôt de données :
D’après BILL Inmon : “Un ED est une collection de données thématiques, intégrées, non volatiles et historisées, organisées pour la prise de décision.” Thématiques : thèmes par activités majeures ; Intégrées : divers sources de données ; Non volatiles : ne pas supprimer les données du DW ; Historisées : trace des données, suivre l’évolution des indicateurs. Pb de volumétrie, de stockage, d’accès.

5 Objectifs de l ’Entrepôt de Données
Accessibilité des informations facile à comprendre donc à utiliser Information cohérente idempotence avec le temps incomplétude signalée Manipulation des mesures de l ’activité combinaison et séparation (tranches et dès) Ensemble de données et de moyens requêtes, analyse, présentation, … Publication de données déjà servies

6 Vue d’ensemble Qu’est ce que l’Entreposage des données ? 􀃂 Conception
􀃂 Construction 􀃂 Administration 􀃂 Restitution

7 Vue d’ensemble Conception Il s’agit de définir la finalité du ED :
♠ Piloter quelle activité de l’entreprise ; ♠ Déterminer et recenser les données à entreposer ♠ Définir les aspects techniques de la réalisation ; ♠ modèle de données ; ♠ démarches d’alimentation ; ♠ stratégies d’administration ; ♠ définition des espaces d’analyse ; ♠ mode de restitution… 􀂙

8 Construction (Travail technique.)
Vue d’ensemble Construction (Travail technique.) ♠Extraction des données des différentes BD de production (internes ou externes) ♠ Nettoyage des données, règles d’homogénéisation des données sous formes de métadonnées. ♠ Techniques d’alimentation : 􀀸* Chargement des données dans l’ED ; 􀀸 * Fréquences de rafraîchissement : 􀀹 par applications d’ interfaces entre les sources de données et l’ED ; 􀀹 par serveurs de réplication du SGBD ou par outils spécialisés. 􀂙 􀂙

9 Vue d’ensemble 􀂙 Administration
Elle est constituée de plusieurs tâches pour assurer : ♠ la qualité et la pérennité des données aux différents applicatifs ; ♠ la maintenance ; ♠ la gestion de configuration ; ♠ les mises à jour ; ♠ l’organisation, l’optimisation du SI ; ♠ la mise en sécurité du SI. 􀂙 􀂙

10 Vue d’ensemble 􀂙 􀂙 Restitution
♠ C’est le but du processus d’entreposage des données. ♠ Elle conditionne le choix de l’architecture de l’ED et de sa construction. ♠ Elle doit permettre toutes la analyses nécessaires pour la construction des indicateurs recherchés. 􀂙 􀂙

11 Vue d’ensemble Les Magasins de données sont des entrepôts de données avec une portée plus étroite et spécifique d'utilisation.

12 Vue d’ensemble Entrepôt de données Versus base de données relationnelle. OLTP : "On-Line Transactional Processing ”   gérer les importants volumes d'informations contenus dans leurs systèmes opérationnels OLAP : "On-Line Analytical Processing” répondent aux besoins spécifiques d’analyse d'informations qui doit se faire de manière interactive et rapide, pour des données quelconques et historisées

13 Vue d’ensemble Entrepôt de données Versus base de données relationnelle.

14 Architecture des entrepôts de données

15 Modélisation multidimensionnelle
Considère le sujet analysé comme un point dans un espace à plusieurs dimensions. Les données sont organisées de manière à mettre en évidence le sujet analysé et les différentes perspectives de l'analyse Objectif : produire des structures de base de données formuler des requêtes pour des utilisateurs finaux maximiser l'efficacité des requêtes

16 Modélisation multidimensionnelle
Organisation des données Les applications conçues pour des opérations quotidiennes dans les BDs. applique en général à la création et à la mise à jour individuelle des informations. Les BD vont de quelques milliers de Mo à des Go. OLTP (On-Line Transactional Processing)

17 Modélisation multidimensionnelle
Organisation des données Les données sont historiées, résumées, consolidées. Les EDs contiennent des données sur une longue période de temps. Les EDs vont de centaines de Go à des To (Téra octets). OLAP (On-Line Analytical Processing)

18 Modélisation multidimensionnelle
Modes de stockage des données Il existe trois manière de stocker les données multidimensionnelle. • MOLAP – Multidimensionnelle OLAP (1 fichier) • ROLAP – Relationnelle OLAP (SGBDR) • HOLAP – Hybride OLAP (SGBDR + fichier)

19 Modélisation multidimensionnelle
Modes de stockage

20 Modélisation multidimensionnelle
Modes de stockage Les données sont transférées vers le serveur OLAP Les données détaillées et les agrégations sont stockées dans le format serveur OLAP Processeur de requête MOLAP très performant MOLAP est beaucoup plus rapide Ne support pas un grand nombre de données Max qq Giga Max 1 million de tuple pour la table de fait

21 Modélisation multidimensionnelle
Modes de stockage Les données et les agrégats sont stockés dans une base de données relationnelle ( Interrogeable avec SQL) Le SGBD peut recalculer les agrégats Temps de réponses plutôt lent Pas de limites de taille des données Aucune donnée transférée vers le serveur OLAP Les index sont créés automatiquement

22 Modélisation multidimensionnelle
Modes de stockage La solution intermédiaire Les “faits” (facts) sont gardés dans le SGBD/R Les agrégations dans le MOLAP Utilise le serveur OLAP comme “accélérateur” de traitement Pas de duplication de données

23 Entrepôts, Magasins et Cubes de données

24 Concepts de fait et de dimension
Le fait: Modélise le sujet de l'analyse. Il est formé de mesures correspondant aux informations de l'activité analysée.

25 Concepts de fait et de dimension
Modélise une perspective de l'analyse. Elle se compose de paramètres correspondant aux informations faisant varier les mesures de l'activité..

26 Schéma en étoile

27 Du modèle entité relation aux modèle dimensionnel
Conception des magasins de données basés sur un modèle de données d'entreprise

28 Du modèle entité relation aux modèle dimensionnel
Étapes de conception Étape 1: Classification des entités: Entités de Transaction; Entités Composantes; Entités de Classifications.

29 Du modèle entité relation aux modèle dimensionnel
Étapes de conception Étape 2: Identifications hiérarchiques Une hiérarchie organise les paramètres d'une dimension selon une relation "est_plus_fin" conformément à leur niveau de détail  .

30 Du modèle entité relation aux modèle dimensionnel
Étapes de conception Étape 3: Production du model dimensionnel Opérateur 1 : La Hiérarchie d'annihilation (Collapsing ). (Possibilité d’itérer)

31 Du modèle entité relation aux modèle dimensionnel
Étapes de conception Opérateur 2 : l’agrégation

32 Du modèle entité relation aux modèle dimensionnel
Étapes de conception Réduire le nombre de schemas en étoile Étape 4: Évaluation et raffinement Union de tables de Fait Union de Tables de Dimension Relation plusieurs à beaucoup. Sous-types de Traitement Réduire le nombre de tables de dimensions A cause de l’arret dans la hiérarchie Relation plusieurs à beaucoup. Solution: Ignorer l’entité d’intersection Créer une relation primaire

33 Du modèle entité relation aux modèle dimensionnel
Étapes de conception Sous-types de Traitement Relation super type/super type: Conversion directe

34 Option de la modélisation
Option 1 : Schéma Plat  «  Flat »

35 Option de la modélisation
Option 2: Schéma En terrasses « Terraced Schema »

36 Option de la modélisation
Option 3: le Schéma en étoile

37 Option de la modélisation
Schéma de Constellation Schéma de Galaxie Plus généralement, un jeu de schémas en étoile ou des constellations peuvent être combiné ensemble pour former une galaxie

38 Option de la modélisation
Option 3: le Schéma de Flocon de neige

39 Option de la modélisation
Complexité élevée Redondance élevée Schéma en Flocon de neige Schéma regroupement en étoile Schéma en étoile Schéma en terrasse Schéma plat

40 Comparaison entre les diverses méthodes
Modélisation dimensionnelle vs modélisation Entité-relation: Présentation des données à l’utilisateur final d’une façon simple et intuitive considération particulière pour le support des requêtes de haut degrés de performance sur des tables de fait très grandes. Schéma en étoile: L’utilisateur ne manipule pas des structures de dimension complexe (ER). Il peut utiliser le modèle dimensionnel sans avoir à apprendre comment interpréter correctement les schémas ER. Modélisation temporelle de données : Problèmes de redondance car une même information est conservée plusieurs fois; pour résoudre ce problème, le concept de stockage du différentiel (delta) a été proposé

41 Conclusion L'entrepôt de données est donc bien différent des bases de données de production car les besoins pour lesquels on veut le construire sont différents. Il contient des informations historisées, globalement cohérentes, organisées selon les métiers de l'entreprise pour le processus de décision. L'entrepôt n'est pas un produit ou un logiciel mais un environnement. Il se bâtit et ne s'achète pas. Les données sont puisées dans les bases de production, nettoyées, normalisées, puis intégrées. Des métadonnées décrivent les informations dans cette nouvelle base pour lever toute ambiguïté quant à leur origine et leur signification. Chaque approche de modélisation a sa place dans le contexte approprié Le succès de telle ou telle approche de modélisation d’un entrepôt de données exige que les techniques soient appliquées dans le bon contexte « Le défi du datawarehouse, c'est le passage de l'informatique de gestion à la gestion de l'information ». J.P. Minarro (© Informix).

42 Bibliographie Note de cours MGL7115 : Robert Godin
Data Modeling Techniques for Data Warehousing Chuck Ballard Dirk Herreman Don Schau Rhonda Bell, Eunsaeng Kim Ann Valencic From Enterprise Models to Dimensional Models:A Methodology for Data Warehouse and Data Mart Design Daniel L. Moody (Department of Information Systems ) Mark A.R. Kortink (Simsion Bowles & Associates) Conceptual Design of Data Warehouses from E/R SchemesMatteo Golfarelli Dario Rizzi Maio Stefano, Univ. of Bologna Êntrepôt de donnée : Guide pratique du concepteur de data warehouse : Ralph Kimball Traduction de claude Raymond Edtion Wiley 2001 Entepôt de données : Synthèse et analyse Edgard Ben'itez-Guerrero, Christine Collet, Michel Adiba Data Warehousing and OLAP Cheung Pui Ling Pauline, Lau Wai Kay Ricky, Lee Tak Wan Angus,Tsoi Chin Ching Lancelot and Yip Keung Frank.

43 Questions ?                              Merci !


Télécharger ppt "Conception d’entrepôt"

Présentations similaires


Annonces Google