Vue d’ensemble du Data warehousing et de la technologie OLAP

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
Académie de Créteil - B.C.
DECOUVERTE ET MISE EN OEUVRE
Projet extranet My.Eolas
Classe : …………… Nom : …………………………………… Date : ………………..
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Sud Ouest Est Nord Individuel 36 joueurs
Le Modèle Logique de Données
1 Louverture des économies Pour relâcher la contrainte des ressources productives.
Systèmes Experts implémentation en Prolog
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
Journée détude régionale du 23 mai Lévaluation interne des établissements et services sociaux et médico-sociaux : Où en sommes-nous ? 1 Résultats.
07/24/09 1.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Développement d’applications web
MRP, MRP II, ERP : Finalités et particularités de chacun.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Introduction to Information Systems
le profil UML en temps réel MARTE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 2 : Les applications fonctionnelles.
Rappel au Code de sécurité des travaux 1 Code de sécurité des travaux Rappel du personnel initié Chapitre Lignes de Transport (Aériennes)
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
OLAP : Un pas vers la navigation
Facteurs d’utilisation et d’adoption des systèmes électroniques de prise de rendez-vous dans l’industrie des services Présenté par : Loubna Khalif Directeur.
1.2 COMPOSANTES DES VECTEURS
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.
INDUSTRIE sa Tel : 0033(0) Fax : Projet: SKIP CAPSULES – v.1 Client: CARDIVAL HEALTH.
LES NOMBRES PREMIERS ET COMPOSÉS
SYSTEMES D’INFORMATION
Développement Humanisation et Patrimoine
Développement d’application web
La Saint-Valentin Par Matt Maxwell.
Universté de la Manouba
Notre calendrier français MARS 2014
La mise en œuvre par la structure et les systèmes
Au service de votre entreprise à linternational FORUM DENTREPRISES VIETNAM-CHINE DU 22 AU 30 NOVEMBRE 2007 Session dInformation.
C'est pour bientôt.....
Veuillez trouver ci-joint
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Introduction.
CALENDRIER-PLAYBOY 2020.
Projet de stage d’année IIR4 sous le thème:
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
1 Nestlé – Optifibre Zones administrables via le back-office.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Principes et mise en œuvre du modèle OLAP
OLAP Par Myriam Corrales Yaqueline Corrales INF7115 – Base de données
LE DATA WAREHOUSE.
1 Mini projet sur les entrepôts de données. 2 Un DW dans les télécoms Sujets – suivi du marché: lignes installées/ désinstallées, services et options.
Data warehouse Motivations et architecture Conception de la BD support
Intégration des Tableaux Multidimensionnels en Pig pour
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Cours 11 Entrepôts de données
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
Transcription de la présentation:

Vue d’ensemble du Data warehousing et de la technologie OLAP Li Wanjing Rastoix Sylvia Vue d’ensemble du Data warehousing et de la technologie OLAP D’après l’article écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit Chaudhuri et Umeshwar Dayal

Sommaire 1- Introduction 2- Architecture 3- Outils back end et utilitaires 4- Modèle conceptuel et outils front end 5- Méthodologie de Conception d’une BD 6- Meta-données et gestion de DW 7- Conclusion

1- Introduction a- Définition d’un data warehouse b- Exemples d’utilisateurs c- Modèle multidimensionnel d- Séparation nécessaire OLAP/OLTP e- Serveurs ROLAP et MOLAP f- Architecture d’un data warehouse

1.a- Définition d’un data warehouse Un Data warehouse est un entrepôt de données Caractéristiques principales de ces données : intégrées  non volatiles  datées ou historisées La base est orientée sujet But : permettre aux entreprises de prendre des décisions meilleures et de façon plus rapides.

Rappel de vocabulaire OLAP (On-Line Analytical Processing) OLTP (On-Line Transaction Processing) Différence entre les deux

Rappel de vocabulaire (suite 1) Data Mining Le pincipe général du Data Mining est de creuser une mine (=Data Warehouse) pour rechercher un filon (=information). Les principaux objectifs du Data Mining

Rappel de vocabulaire (suite 2) L’architecture OLAP consiste en trois services principaux : Bases de données Serveur OLAP Module client

1.b- Exemples d’utilisateurs Croissance explosive ces dernières années. Beaucoup d’entreprises sont intéressées. les entreprises de fabrication les services financiers les transports les télécommunications les services de santé

1.c- Modèle multidimensionnel Le modèle multidimensionnel facilite les analyses Exemple de dimensions intéressantes en vente : le jour de la vente, le lieu de la vente, le vendeur, le produit vendu Souvent, ces dimensions sont hiérarchisées : la date de vente peut être organisée en une hiérarchie (année, mois, jour).

1.c- Modèle multidimensionnel (suite 1) Représentation d’un modèle multidimensionnel Lieu Date Produit

1.c- Modèle multidimensionnel (suite 2) La norme OLAP incluent des opérations sur les données multidimensionnelles  : le drill-down. le roll-up. le slice_and_dice. le rotate ou pivoting.

1.d- Séparation nécessaire OLAP/OLTP Les BD opérationnelles sont faites pour supporter les opérations d'OLTP. Dans un DW, on a besoin de données : parfois absentes dans les BD opérationnelles.  venant de beaucoup de sources hétérogènes. Conclusion : Besoin d’une organisation spéciale Les DW sont implémentés séparément des BD opérationnelles.

1.e- Serveurs ROLAP et MOLAP Les data warehouses peuvent être implémentés sur des SGBD relationnels appelé serveurs relationnels OLAP (ROLAP). MOLAP Les serveurs multidimensionnels OLAP (MOLAP) sont des serveurs qui stockent direstement des données multi-dimensionnelles dans des structures spéciales de données.

1.f- Architecture d’un datawarehouse Pour la construction et la maintenance d’un data warehouse : sélectionner un serveur OLAP définir un schéma définir quelques requêtes complexes définir une architecture. Plusieurs architectures possibles

1.f- Architecture d’un datawarehouse (suite) Data mart (magasin de données) : Un data mart est une vue partielle et orientée métier sur les données du Data warehouse Data Mart du service marketing Data Marts Data Mart du service production

Rappel de vocabulaire Front end, avant-plan : interface avec l'utilisateur Back end, arrière-plan : deux définitions possibles Méta-données : Données sur les données. Ensemble des informations qui permettent de qualifier une donnée, par sa provenance, sa qualité, sa date de création ...

2- Architecture Architecture d’un data warehouse

3- Outils back end et utilitaires Les DW emploient une variété d’outils pour les données des entrepôts. a- Nettoyage des données b- Chargement c- Rafraîchissement

3.a- Nettoyage des données (data cleaning) Problème : grands volumes de données  augmentations de la probabilité d’anomalies dans les données. Exemple d’anomalies

3.b- Chargement (load) Après leur extraction, leur nettoyage et leur transformation, chargement des données dans le data warehouse Grand volumes de données  mise à jour dans une petite période temps (souvent la nuit). Intérêt du parallélisme

3.c- Rafraîchissement (Refresh) Rafraîchissement : propagation des changements sur les données sources pour la mise à jour. Deux questions : quand rafraîchir, et comment rafraîchir ? Définir une politique de rafraîchissement

4- Modèle conceptuel et outils front end a- Modèle multidimensionnel b- Outils front end

4.a- Modèle multidimensionnel modèle conceptuel = modèle multidimensionnelle Dimensions : Produit, Ville, Date Hiérarchies de dimension : Date Produit Ville Secteur industriel Catégorie Pays Région Année Mois Jour

4.b- Les outils front end Les analystes utilisent beaucoup les tableurs. Problème : Comment supporter les opérations d’un tableur sur d’énormes bases de données ? Le tableur est l’application front end la plus contraignante d'OLAP Nous allons voir une description brève des opérations principales qui sont supportées par les applications multidimensionnelles

4.b- Les outils front end (suite 1) Pivoting ou rotating pivotement ou rotation, ré-oriente la vue de des données multidimensionnelles.

4.b- Les outils front end (suite 2) Drill-down  " plonger" dans une information afin de connaître le détail des données qui ont initialement servi à la constituer. Roll-up : c’est l’opération contraire du drill-down.

4.b- Les outils front end (suite 3) Slice_and_dice : sélection et projection. Conclusion : Variété d'outils de data mining utilisés comme des outils front_end sur les data warehouses.

5- Méthodologie de Conception d’une Base de données a- Nécessité de nouveaux diagrammes b- Schéma en étoile c- Schéma en flocons de neige

5.a- Nécessité de nouveaux diagrammes MOLAP  pas besoin de concevoir des schémas ROLAP  concevoir des schémas de BD relationnelles qui tiennent compte des dimensions Les diagrammes objets classiques sont inadéquates car ils ne prennent pas les dimensions en compte.

5.b- Schéma en étoile La plupart des DW emploient un schéma en étoile Problème : pas de hiérarchies d'attributs.

5.c- Schéma en flocons de neige Schémas en flocons de neige = amélioration des schémas en étoile car normalisés Les schémas en étoile bien que non normalisé reste pratiques pour passer les dimensions en revue.

6- Meta-données et gestion de data warehouse a- Les méta-données administratives b- Les méta-données d’affaires c- Les méta-données opérationnelles

6.a- Les méta-données administratives Elles incluent toutes les informations nécessaires pour l'établissement et l’utilisation d'un DW

6.b- Les méta-données d’affaires (business metadata) Elles incluent : des termes et des définitions d'affaires, La propriété (l’appartenance) des données, des politiques de remplissage du DW.

6.c- Les méta-données opérationnelles Elles incluent les informations qui sont rassemblées pendant l'opération de stockage : le suivi des données qui ont migrées et qui ont été transformées l’état des données dans l'entrepôt des informations de contrôle

7- Conclusion Beaucoup de produits commerciaux et de services Mais plusieurs problèmes subsistent : le nettoyage des données l'optimisation des requêtes l’évaluation des coûts l’utilisation du parallélisme, le partitionnement problèmes de contrôle et de gestion des ressources dans les DW