Conception d’entrepôt

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Distance inter-locuteur
A.Martinez-Nepveu.
Classe : …………… Nom : …………………………………… Date : ………………..
Le Modèle Logique de Données
Vue d’ensemble du Data warehousing et de la technologie OLAP
La politique de Sécurité
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Autorisations Utilisation eCATT
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Copyright © 2004, SAS Institute Inc. All rights reserved. Processus Stockés SAS une perspective analytique Sylvain Tremblay SAS Canada 25 avril 2006.
Sélection automatique d’index et de vues matérialisées
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
VI. Analyse des solutions techniques
Développement d’applications web
Control des objectifs des technologies de l’information COBIT
PAFI Référentiel de données par Sonia Watts DGIF (Direction de la gestion et de linformation forestière) 27 octobre 2010 et 3 novembre 2010.
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
le profil UML en temps réel MARTE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 2 : Les applications fonctionnelles.
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Virtual Local Area Network
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Configuration de Windows Server 2008 Active Directory
Gestion des bases de données
F Copyright © Oracle Corporation, Tous droits réservés. Créer des programmes avec Procedure Builder.
LES NOMBRES PREMIERS ET COMPOSÉS
SCIENCES DE L ’INGENIEUR
Partie 1: Ondes et Particules.
@SSR – Installation des applications eduscol.education.fr/securite - février 2007 © Ministère de l'Éducation nationale, de l'Enseignement supérieur et.
VI. Analyse des solutions techniques
VI. Analyse des solutions techniques
Représentation des systèmes dynamiques dans l’espace d’état
Universté de la Manouba
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Résoudre une équation du 1er degré à une inconnue
SYSTEMES d’INFORMATION séance 1 : Introduction et définitions
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
Interoperabilité des SI - Urbanisation
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
Partie A Système d ’information et organisation
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Introduction.
Equation différentielle de 2ème ordre
Projet de stage d’année IIR4 sous le thème:
Vue d’ensemble des outils du PRISM Dakar, 3 au 21 Mai 2010
1 L’évaluation de l’Entente entre le MCC et les CRC 19 mai 2005 Colloque SQEP Les résultats générés par la performance organisationnelle.
Les Chiffres Prêts?
Supports de formation au SQ Unifié
Partie II: Temps et évolution Energie et mouvements des particules
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Introduction à SolidWorks
La Qualité dans les Systèmes d’Information
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
LE DATA WAREHOUSE.
Management de la qualité
Intégration des Tableaux Multidimensionnels en Pig pour
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Cours 11 Entrepôts de données
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
SQLSaturday Paris 2015 SSAS et le moteur relationnel Faire son choix.
Transcription de la présentation:

Conception d’entrepôt De données Professeur: Mr Robin Godin Présenté par: Rabah Djema Habib Louafi Adel Younes UQAM – Aut 2004 Maîtrise en Informatique Université du Québec à Montréal

Plan Vue d’ensemble sur les entrepôts de données Architecture des entrepôts de données Modélisation dimensionnelle Option de modélisation Comparaison entre les différentes approches Conclusion Bibliographie Questions

Vue d’ensemble Un système d’information décisionnel est un ensemble de données organisées de façon spécifique,appropriées à la prise de décision. Connaître l’environnement dans lequel on évolue Finalité d’un système décisionnel : pilotage de l’entreprise – Outils : 􀂉􀂉 . Data warehouse 􀂉􀂉 . OLAP

Vue d’ensemble Entrepôt de données : D’après BILL Inmon : “Un ED est une collection de données thématiques, intégrées, non volatiles et historisées, organisées pour la prise de décision.” Thématiques : thèmes par activités majeures ; Intégrées : divers sources de données ; Non volatiles : ne pas supprimer les données du DW ; Historisées : trace des données, suivre l’évolution des indicateurs. Pb de volumétrie, de stockage, d’accès.

Objectifs de l ’Entrepôt de Données Accessibilité des informations facile à comprendre donc à utiliser Information cohérente idempotence avec le temps incomplétude signalée Manipulation des mesures de l ’activité combinaison et séparation (tranches et dès) Ensemble de données et de moyens requêtes, analyse, présentation, … Publication de données déjà servies

Vue d’ensemble Qu’est ce que l’Entreposage des données ? 􀃂 Conception 􀃂 Construction 􀃂 Administration 􀃂 Restitution

Vue d’ensemble Conception Il s’agit de définir la finalité du ED : ♠ Piloter quelle activité de l’entreprise ; ♠ Déterminer et recenser les données à entreposer ♠ Définir les aspects techniques de la réalisation ; ♠ modèle de données ; ♠ démarches d’alimentation ; ♠ stratégies d’administration ; ♠ définition des espaces d’analyse ; ♠ mode de restitution… 􀂙

Construction (Travail technique.) Vue d’ensemble Construction (Travail technique.) ♠Extraction des données des différentes BD de production (internes ou externes) ♠ Nettoyage des données, règles d’homogénéisation des données sous formes de métadonnées. ♠ Techniques d’alimentation : 􀀸* Chargement des données dans l’ED ; 􀀸 * Fréquences de rafraîchissement : 􀀹 par applications d’ interfaces entre les sources de données et l’ED ; 􀀹 par serveurs de réplication du SGBD ou par outils spécialisés. 􀂙 􀂙

Vue d’ensemble 􀂙 Administration Elle est constituée de plusieurs tâches pour assurer : ♠ la qualité et la pérennité des données aux différents applicatifs ; ♠ la maintenance ; ♠ la gestion de configuration ; ♠ les mises à jour ; ♠ l’organisation, l’optimisation du SI ; ♠ la mise en sécurité du SI. 􀂙 􀂙

Vue d’ensemble 􀂙 􀂙 Restitution ♠ C’est le but du processus d’entreposage des données. ♠ Elle conditionne le choix de l’architecture de l’ED et de sa construction. ♠ Elle doit permettre toutes la analyses nécessaires pour la construction des indicateurs recherchés. 􀂙 􀂙

Vue d’ensemble Les Magasins de données sont des entrepôts de données avec une portée plus étroite et spécifique d'utilisation.

Vue d’ensemble Entrepôt de données Versus base de données relationnelle. OLTP : "On-Line Transactional Processing ”   gérer les importants volumes d'informations contenus dans leurs systèmes opérationnels OLAP : "On-Line Analytical Processing” répondent aux besoins spécifiques d’analyse d'informations qui doit se faire de manière interactive et rapide, pour des données quelconques et historisées

Vue d’ensemble Entrepôt de données Versus base de données relationnelle.

Architecture des entrepôts de données

Modélisation multidimensionnelle Considère le sujet analysé comme un point dans un espace à plusieurs dimensions. Les données sont organisées de manière à mettre en évidence le sujet analysé et les différentes perspectives de l'analyse Objectif : produire des structures de base de données formuler des requêtes pour des utilisateurs finaux maximiser l'efficacité des requêtes

Modélisation multidimensionnelle Organisation des données Les applications conçues pour des opérations quotidiennes dans les BDs. applique en général à la création et à la mise à jour individuelle des informations. Les BD vont de quelques milliers de Mo à des Go. OLTP (On-Line Transactional Processing)

Modélisation multidimensionnelle Organisation des données Les données sont historiées, résumées, consolidées. Les EDs contiennent des données sur une longue période de temps. Les EDs vont de centaines de Go à des To (Téra octets). OLAP (On-Line Analytical Processing)

Modélisation multidimensionnelle Modes de stockage des données Il existe trois manière de stocker les données multidimensionnelle. • MOLAP – Multidimensionnelle OLAP (1 fichier) • ROLAP – Relationnelle OLAP (SGBDR) • HOLAP – Hybride OLAP (SGBDR + fichier)

Modélisation multidimensionnelle Modes de stockage

Modélisation multidimensionnelle Modes de stockage Les données sont transférées vers le serveur OLAP Les données détaillées et les agrégations sont stockées dans le format serveur OLAP Processeur de requête MOLAP très performant MOLAP est beaucoup plus rapide Ne support pas un grand nombre de données Max qq Giga Max 1 million de tuple pour la table de fait

Modélisation multidimensionnelle Modes de stockage Les données et les agrégats sont stockés dans une base de données relationnelle ( Interrogeable avec SQL) Le SGBD peut recalculer les agrégats Temps de réponses plutôt lent Pas de limites de taille des données Aucune donnée transférée vers le serveur OLAP Les index sont créés automatiquement

Modélisation multidimensionnelle Modes de stockage La solution intermédiaire Les “faits” (facts) sont gardés dans le SGBD/R Les agrégations dans le MOLAP Utilise le serveur OLAP comme “accélérateur” de traitement Pas de duplication de données

Entrepôts, Magasins et Cubes de données

Concepts de fait et de dimension Le fait: Modélise le sujet de l'analyse. Il est formé de mesures correspondant aux informations de l'activité analysée.

Concepts de fait et de dimension Modélise une perspective de l'analyse. Elle se compose de paramètres correspondant aux informations faisant varier les mesures de l'activité..

Schéma en étoile

Du modèle entité relation aux modèle dimensionnel Conception des magasins de données basés sur un modèle de données d'entreprise

Du modèle entité relation aux modèle dimensionnel Étapes de conception Étape 1: Classification des entités: Entités de Transaction; Entités Composantes; Entités de Classifications.

Du modèle entité relation aux modèle dimensionnel Étapes de conception Étape 2: Identifications hiérarchiques Une hiérarchie organise les paramètres d'une dimension selon une relation "est_plus_fin" conformément à leur niveau de détail  .

Du modèle entité relation aux modèle dimensionnel Étapes de conception Étape 3: Production du model dimensionnel Opérateur 1 : La Hiérarchie d'annihilation (Collapsing ). (Possibilité d’itérer)

Du modèle entité relation aux modèle dimensionnel Étapes de conception Opérateur 2 : l’agrégation

Du modèle entité relation aux modèle dimensionnel Étapes de conception Réduire le nombre de schemas en étoile Étape 4: Évaluation et raffinement Union de tables de Fait Union de Tables de Dimension Relation plusieurs à beaucoup. Sous-types de Traitement Réduire le nombre de tables de dimensions A cause de l’arret dans la hiérarchie Relation plusieurs à beaucoup. Solution: Ignorer l’entité d’intersection Créer une relation primaire

Du modèle entité relation aux modèle dimensionnel Étapes de conception Sous-types de Traitement Relation super type/super type: Conversion directe

Option de la modélisation Option 1 : Schéma Plat  «  Flat »

Option de la modélisation Option 2: Schéma En terrasses « Terraced Schema »

Option de la modélisation Option 3: le Schéma en étoile

Option de la modélisation Schéma de Constellation Schéma de Galaxie Plus généralement, un jeu de schémas en étoile ou des constellations peuvent être combiné ensemble pour former une galaxie

Option de la modélisation Option 3: le Schéma de Flocon de neige

Option de la modélisation Complexité élevée Redondance élevée Schéma en Flocon de neige Schéma regroupement en étoile Schéma en étoile Schéma en terrasse Schéma plat

Comparaison entre les diverses méthodes Modélisation dimensionnelle vs modélisation Entité-relation: Présentation des données à l’utilisateur final d’une façon simple et intuitive considération particulière pour le support des requêtes de haut degrés de performance sur des tables de fait très grandes. Schéma en étoile: L’utilisateur ne manipule pas des structures de dimension complexe (ER). Il peut utiliser le modèle dimensionnel sans avoir à apprendre comment interpréter correctement les schémas ER. Modélisation temporelle de données : Problèmes de redondance car une même information est conservée plusieurs fois; pour résoudre ce problème, le concept de stockage du différentiel (delta) a été proposé

Conclusion L'entrepôt de données est donc bien différent des bases de données de production car les besoins pour lesquels on veut le construire sont différents. Il contient des informations historisées, globalement cohérentes, organisées selon les métiers de l'entreprise pour le processus de décision. L'entrepôt n'est pas un produit ou un logiciel mais un environnement. Il se bâtit et ne s'achète pas. Les données sont puisées dans les bases de production, nettoyées, normalisées, puis intégrées. Des métadonnées décrivent les informations dans cette nouvelle base pour lever toute ambiguïté quant à leur origine et leur signification. Chaque approche de modélisation a sa place dans le contexte approprié Le succès de telle ou telle approche de modélisation d’un entrepôt de données exige que les techniques soient appliquées dans le bon contexte « Le défi du datawarehouse, c'est le passage de l'informatique de gestion à la gestion de l'information ». J.P. Minarro (© Informix).

Bibliographie Note de cours MGL7115 : Robert Godin Data Modeling Techniques for Data Warehousing Chuck Ballard Dirk Herreman Don Schau Rhonda Bell, Eunsaeng Kim Ann Valencic From Enterprise Models to Dimensional Models:A Methodology for Data Warehouse and Data Mart Design Daniel L. Moody (Department of Information Systems ) Mark A.R. Kortink (Simsion Bowles & Associates) Conceptual Design of Data Warehouses from E/R SchemesMatteo Golfarelli Dario Rizzi Maio Stefano, Univ. of Bologna Êntrepôt de donnée : Guide pratique du concepteur de data warehouse : Ralph Kimball Traduction de claude Raymond Edtion Wiley 2001 Entepôt de données : Synthèse et analyse Edgard Ben'itez-Guerrero, Christine Collet, Michel Adiba Data Warehousing and OLAP Cheung Pui Ling Pauline, Lau Wai Kay Ricky, Lee Tak Wan Angus,Tsoi Chin Ching Lancelot and Yip Keung Frank. http://www.grappa.univ-lille3.fr/polys/fouille/sortie003.html#toc2

Questions ?                              Merci !