La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

OLAP Équipe: Johanne Lavoie Giovanni Malizia Présenté le 26 avril 2004 Prof. : Robert Godin Cours : INF7115 Session : Hiver 2004.

Présentations similaires


Présentation au sujet: "OLAP Équipe: Johanne Lavoie Giovanni Malizia Présenté le 26 avril 2004 Prof. : Robert Godin Cours : INF7115 Session : Hiver 2004."— Transcription de la présentation:

1 OLAP Équipe: Johanne Lavoie Giovanni Malizia Présenté le 26 avril 2004 Prof. : Robert Godin Cours : INF7115 Session : Hiver 2004

2 2 Plan de présentation Survol Problématiques Approches OLAP Amélioration de la performance Processus de sélection des vues à matérialiser Hiérarchies des attributs Contexte étudié Cadre du treillis Algorithmes glouton Modèle de coût Produits commerciaux Conclusion Références

3 3 Survol Introduit en 1993 par E.F. Codd Performance inacceptable sur un environnement opérationnel Utilisation pour laide à la décision Utilisateurs OLAP autonomes Différents types : MOLAP, ROLAP, HOLAP, DOLAP Étroitement lié aux entrepôts de données

4 4 Défis Croissance constante des données Complexité des requêtes Temps de réponse Coûts Le dilemme Quelles vues doit-on matérialiser pour optimiser le temps de réponse, minimiser lespace disque occupé et diminuer les coûts ?

5 5 Approche MOLAP Les données sont nettoyées, agrégées dans des dimensions multiples Les données sont emmagasinées dans des rangées multidimensionnelles Pré compilation des rangées d'organisation et de données qui peuvent être consultées directement et plus rapidement Joints déjà fait Vue multidimensionnelle directe des données Facilité d'utilisation Crystal decisions, « Compound OLAP. An OLAP Architecture for the Real World », 2001, p.1-15

6 6 Approche ROLAP Données volatiles Données agrégées et emmagasinées avec les bases de données relationnelles Manipulation de requêtes complexes Interface multidimensionnelle aux données relationnelles Intégration possible à des BDs relationnelles existantes Jointures au moment de la requête Requête utilisant SQL Crystal decisions, « Compound OLAP. An OLAP Architecture for the Real World », 2001, p.1-15

7 7 Amélioration de la performance Optimisateurs de requêtes Techniques dévaluation de requête Stratégies dindexation Index « bit-map » Index de jointures Alternatives pour la matérialisation des vues (cubes) Toutes les vues Aucune vue Quelques vues (une partie du cube)

8 8 Processus de sélection des vues à matérialiser Bellatreche, Ladjel, Techniques doptimisation des requêtes dans les data warehouses, Laboratoire dInformatique Scientifique et Industrielle, 2003,

9 9 Hiérarchies des attributs Deux types dopérations couramment utilisées pendant les requêtes : Le pliage (roll up) et le dépliage (drill down) X X Jour Semaine Aucun Mois Année Période Année Jan. Avr. Déc. Jours du mois (1-31) Semaines du mois (1-5) Jours du mois (1-31) Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p , ISSN:

10 10 Modèle de coût 123 Taille / Temps Cadre de treillis Vues possibles Algorithme glouton Espace / Temps Contexte étudié

11 11 Cadre de treillis Vues possibles Cadre de treillis

12 12 3. Pièce, fournisseur (0,8M) Huit (8) vues possibles Treillis des 8 vues TPC-D Total: 19.1M 1. Pièce, fournisseur, client (6M) 2. Pièce, client (6M) 5. Pièce (0,2M) 6. Fournisseur (0,01M) 7. Client (0,1M) 8. None (1) 4. Fournisseur, client (6M) Total: 7.1M

13 13 Treillis composé de dimensions hiérarchiques Combinaison de deux dimensions hiérarchiques c = client n = par pays p = pièce s = taille t = type de pièce Client Pays Aucun Pièce Taille Aucun Type + Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p , ISSN:

14 14 Avantages du treillis composé Fournit un cadre pour évaluer les dimensions hiérarchiques Améliore la modélisation des requêtes communes entre les utilisateurs Indique dans quel ordre matérialiser les vues Réduction de laccès aux données sources

15 15 Modèle de coût 123 Taille / Temps Cadre de treillis Vues possibles Algorithme glouton Espace / Temps Contexte étudié

16 16 Algorithme glouton Espace / Temps Algorithme glouton

17 17 Déroulement de lalgorithme glouton (greedy) La vue haut niveau est matérialisée Sélection des vues additionnelles à matérialiser, une à une, jusquà latteinte du coût total choisie À chaque étape, choisir la vue non matérialisée, avec les bénéfices les plus avantageux

18 18 Résultats de lalgorithme glouton Nombre de vues Espace Temps c = client n = par pays p = pièce s = taille t = type de pièce

19 19 Contexte étudié Modèle de coût 123 Taille / Temps Cadre de treillis Vues possibles Algorithme glouton Espace / Temps

20 20 Modèle de Coût Taille / Temps 123 Modèle de Coût

21 21 Huit (8) vues possibles 1. Pièce, fournisseur, client (6M) 2. Pièce, client (6M) 5. Pièce (0,2M) 6. Fournisseur (0,01M) 7. Client (0,1M) 8. None (1) 4. Fournisseur, client (6M) 3. Pièce, fournisseur (0,8M) Rappel: Treillis des 8 vues TPC-D

22 22 Modèle linéaire de coût T = m * S + c SourceTaille (S)Temps (sec.)Ratio Une cellule seulement12,07Non applicable 6. Vue – fournisseur ,38, Vue – pièce, fournisseur ,77, Vue – pièce, fournisseur, client ,23, Temps de réponse de la requête par rapport à la taille de la vue (T) temps dexécution (S) taille dune vue (c) coût fixe (m) ratio du temps de requête/taille de la vue Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p , ISSN: ,38 – 2,07 = (0,31)/10000 =,000031

23 23 Produits commerciaux

24 24 Catégorisation ROLAPMOLAPDOLAP Multi-pass SQLCartesis Magnitude MicroStrategy Multidimensional server engineCrystal Holos (ROLAP mode)SAS CFO Vision Hyperion EssbaseCrystal Holos Longview KhalixComshare Decision Speedware Media/MRHyperion Essbase Microsoft Analysis ServicesOracle Express Oracle Express (ROLAP mode)Oracle OLAP Option AW Oracle OLAP Option (ROLAP mode)Gentia Pilot Analysis ServerMicrosoft Analysis Services WhiteLightPowerPlay Enterprise Server Pilot Analysis Server Applix TM1 Client multidimensional engineOracle DiscovererComshare FDCHyperion Intelligence Dimensional InsightBusinessObjects Hyperion EnterpriseCognos PowerPlay Hyperion PillarPersonal Express TM1 Perspectives

25 25 Tendance de part du marché

26 26 Résultats TPC Résultats des essais à 1,000 GB Réf.: ProduitVersionQphHPrix / QphH OracleEnterprise Edition v , $ US IBM DB2UDB 7.222, $ US Microsoft SQL Server 2000 Server 2003 Enterprise Edition 64 bit 5, $ US

27 27 Conclusion La distribution de lespace disque entre les vues et les index Lalgorithme glouton considère seulement la contrainte de lespace disque et exclut lutilisation des index par les vues Le découplage de la maintenance des vues dans lentrepôt de données par rapport aux mises à jour constantes des données sources

28 28 Références Ullman, Jeffrey D., « Efficient Implementation of Data Cubes Via Materialized Views », KDD Proceedings, 1996, p Harinarayan, Venky, Rajaraman, Anand, Ullman, Jeffrey, D., « Implementing Data Cubes Efficiently », Proceedings of the 1996 ACM SIGMOD international conference on Management of Data, p , ISSN: Gupta, Ashish, Mumick, Inderpal Singh, Ross, Kenneth A., « Adapting Materialized Views after Redefinition », ACM SIGMOD Conference, 1995, p Goldstein, Jonathan, Larson, Per-Åke, « Optimizing Queries Using Materialized Views: A Practical, Scalable Solution », ACM SIGMOD Conference, 2001, Vol. 2 No. 3, 1999, p Gupta, Himanshu, « Selection of Views to Materialized in a Data Warehouse », Proceedings of 23rd VLDB Conference, Athens, Greece 1997, p.1-15 Gupta, Himanshu, Mumick, Inderpal Singh, « Selection of Views to Materialize Under a Maintenance Cost Constraint », Proceeding of the 7th International Conference on Database Theory, 1999, p Bellatreche, Ladjel, Techniques doptimisation des requêtes dans les data warehouses, Laboratoire dInformatique Scientifique et Industrielle, 2003,

29 29

30 30 Diapositives d'appui

31 31 Autres algorithmes AlgorithmeDescription ECA (Eager Compensating Algorithm) Adresse le découplage de vues avec les données sources VRDS (View Relevance Driven Selection) Sélection dun ensemble de vues à matérialiser dans un contexte espace / coûts ILGA (Inner Level Greedy Algorithm) Optimisation de GA initiale par une comparaison itérative des combinaisons possibles des vues et des indexes ITGA (Inverted Tree Greedy Algorithm) Utilise un arbre inversé pour le comparer au GA initiale et loptimiser GIA (Greedy Interchange Algorithm) Utilise la solution généré par le GA et loptimise en remplaçant une à une la vue déjà sélectionnée par une vue pas encore sélectionné

32 32 Tendances de recherche OLAP Stream Data Cube Iceberg Cube-H Cube Étoile (Star cubing)

33 33 Techniques dindexages ProduitArbre BBitmapJointure Oracle 9iOui IBM DB2 Universal Database 7.2Oui MySQL 4.0OuiNonOui Sybase Adaptive Server Enterprise 12.5OuiNon Microsoft SQL Server 2000 SP2OuiNonOui


Télécharger ppt "OLAP Équipe: Johanne Lavoie Giovanni Malizia Présenté le 26 avril 2004 Prof. : Robert Godin Cours : INF7115 Session : Hiver 2004."

Présentations similaires


Annonces Google