La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

OLAP IED 2006-2007. Sommaire Introduction Opérations typiques Langages Architectures.

Présentations similaires


Présentation au sujet: "OLAP IED 2006-2007. Sommaire Introduction Opérations typiques Langages Architectures."— Transcription de la présentation:

1 OLAP IED 2006-2007

2 Sommaire Introduction Opérations typiques Langages Architectures

3 Introduction Contexte un entrepôt de données offre des données - nombreuses - homogènes - exploitables - multidimensionnelles - consolidées comment exploiter ces données à des fins d’analyse?

4 Entrepôts de Données et OLAP Traditionnellement : - les requêtes OLTP sont exécutées sur les données sources - l’entrepôt est mis à jour chaque nuit - les requêtes OLAP sont exécutées sur les données de l’entrepôt

5 Exemple ventes(pièce, date, vendeur, montant) produits(pièce, modèle, couleur) vendeurs(nom, ville, département, état, pays) temps(jour, semaine, mois, trimestre, année)

6 Hiérarchies 200 6 Semaine 40 Trimestr e 4 Octob re 03/10/20 06 Vi s Crucifor me Ble u Etats- unis CACA San- Jose Bo b Franc e 9595 Cerg y Kat e Total

7 Modèle conceptuel notation de Golfarelli (1998)

8 Requête typique simple - Dicing et Slicing SELECTdépartement, mois, AVG(montant) as moyenne FROM ventes, vendeurs, produits WHERE ventes.vendeur = vendeurs.nom AND ventes.codeProduit = produits.codeProduit AND couleur = ' noir ' GROUP BY département, mois HAVING moyenne > 5000; Group by : Dicing Where : Slicing

9 Exemple de traitement typique (1)

10 Exemple de traitement typique (2) SELECT couleur, SUM(montant) FROMventes, produits WHERE ventes.codeProduit = produits.codeProduit AND modèle = 'vis' GROUP BY couleur ; Les ventes de vis sont plus faibles que prévu... Quelles couleurs sont responsables?

11 Exemple de traitement typique (2)

12 Exemple de traitement typique (3) SELECT couleur, années, SUM(montant) FROM ventes, produits, temps WHERE ventes.codeProduit = produits.codeProduit AND ventes.date = temps.jour AND modèle = 'vis' GROUP BY couleur, années ; Quelles années sont responsables?

13 Exemple de traitement typique (3)

14 Exemple de traitement typique (4) SELECT couleur, trimestre, SUM(montant) FROM ventes, produits, temps WHERE ventes.codeProduit = produits.codeProduit AND ventes.date = temps.jour AND modèle = 'vis' GROUP BY couleur, trimestre ; Quels trimestres sont responsables?

15 Exemple de traitement typique (4)

16 Exemple de traitement typique (5) SELECT vendeur, somme FROM( SELECT vendeur, SUM(montant) as somme FROM ventes, produits, temps WHERE ventes.codeProduit = produits.codeProduit AND ventes.date = temps.jour AND ventes.vendeur = vendeurs.nom AND modèle = 'vis' GROUP BY trimestre, vendeur) WHERE trimestre = “jui-sep”; Quels vendeurs sont responsables?

17 Exemple de traitement typique (5)

18 Modèle de stockage de données table de données écrous est 1999 50 clous est 1997 100 vis ouest 1998 50... écrous est total 220... écrous total total 390... total total total 1200 ventes piècesrégions années quantités pièce, région, année -> quantité

19 Modèle de stockage de données cube de données

20 Granularité

21 Terminologie cube ventes cellule écrous, est, 1997, 100 référence écrous, est, 1997 mesure 100 dimension lieu niveau régions membre/paramètre est

22 Exemple d’implémentation Projet T3 de Microsoft, Unisys, EMC, Knosys (2001) DW 7.7 milliards de lignes 8 tables de faits 1.2 To construction d’une architecture MOLAP récupération, agrégations, indexations,compression un cube de 471 Go 53 heures (40000 lignes/seconde)

23 Quelques solutions Express-server/OLAP Oracle DB2 OLAP Server IBM Metacube Informix SQL Server Microsoft Crystal Business Object Business Information Warehouse SAP PowerPlay Cognos MicroStrategy Essbase Hyperion nom éditeur

24 Opérations typiques restructuration représentation granulariténiveau de détail ensembliste extraction 3 catégories d’opérations, élémentaires catégorie concerne

25 Reconstruction Rotation Pivot Switch Split Nest Push Présentations ne sont pas gérées par SQL

26 Rotation anné e pièce régio n es t oue st su d nor d 199 7 199 9 199 8 vi s clou s écrou s

27 Rotation est 10 10 ouest 50 50 50 sud 50 60 60 nord 60 30 20 vis 60 30 20 clous 40 20 écrous 10 nord 1999 1998 1997 vis 1999 1998 1997

28 Pivot anné e pièce régio n es t oue st su d nor d 199 7 199 9 199 8 vi s clou s écrou s

29 Pivot nord 60 30 20 sud 50 60 60 ouest 50 50 50 est 10 10 vis 60 30 20 clous 40 20 écrous 10 nord 1999 1998 1997 vis 1999 1998 1997

30 Switch

31 vis 50 60 60 clous 10 écrous 40 20 nord 1999 1998 1997 vis 60 30 20 clous 40 20 écrous 10 sud 1999 1998 1997

32 Split, nest, push Split (régions) Nest (pièces, régions) Push(années)

33 Split (Régions) ventes est 1999 1998 1997 écrous 5070 100 vis 10 10 clous 70 70 100 ventes ouest 1999 1998 1997 écrous 10 30 vis 50 50 50 clous 10 40 ventes sud 1999 1998 1997 écrous 40 20 vis 50 60 60 clous 10 ventes nord 1999 1998 1997 écrous 10 vis 60 30 20 clous 40 20

34 Nest ventes nest 1999 1998 1997 est 50 70 100 ouest 10 30 écrousnord 10 sud 40 20 est 10 10 ouest 50 50 50 visnord 60 30 20 sud 50 60 60 est 70 70 100 ouest 10 40 clousnord 40 20 sud 10

35 Push ventes push est ouest nord sud 1999 50 1999 40 écrous 1998 70 1998 10 1998 20 1997 100 1997 30 1997 10 1999 501999 60 1999 50 vis 1998 10 1998 50 1998 30 1998 60 1997 10 1997 50 1997 20 1997 60 1999 70 1999 40 clous 1998 70 1998 10 1998 20 1998 10 1997 100 1997 40

36 Visualisation (1)

37 Visualisation (2)

38 Granularité Roll-up Drill-down Groupements Agrégation

39 Granularité

40 Roll-up et Drill-down Drill- down Roll- up

41 Opérations ensemblistes Dicing Slicing Cube Sélection Projection Manipulations classiques Extraction des informations

42 Dicing et Slicing Slici ng Dicing : partition

43 Cube CUBE pièce, année, région BY SUM montant SELECT SUM (montant) FROM Ventes GROUP BYgrouping-list

44 Sélection ventes >=50 (régions = nord ou régions = sud) et (pièces = clous ou pièces = écrous) et (années = 1998 ou années = 1999)

45 Projection

46 Tables et Cube de données ROLAP : Tables de données/agrégations MOLAP : Cubes de données/agrégations HOLAP : Tables + Cubes

47 Extensions de SQL MDX de Microsoft ANSI SQL 99

48 MDX de Microsoft (1) SELECT dimensions avec 1 relation par axe plusieurs membres FROM cube de données 1 nom de cube WHERE dimensions avec 1 tuple 1 seul membre clause paramètres valeur

49 MDX de Microsoft (2) navigation PARENT le parent d’un membre CHILDREN les enfants d’un membre MEMBERS les membres d’un niveau ou d’une dimension structuration CROSSJOIN imbrication ranking TOPCOUNT les premiers membres

50 Exemple MDX (1) SalesCube à cinq dimensions : - SalesPerson - Geography (Countries > Regions > States > Cities) - Quarters (Quarters > Months > Days) - Years - Products - Measures (Sales, PercentChange, BudgetedSales)

51 Exemple MDX (2) SELECT CROSSJOIN({Venkatrao, Netz}, {USA North.CHILDREN, USA South, Japan}) ON COLUMNS, {Qtr1.CHILDREN, Qtr2, Qtr3, Qtr4.CHILDREN} ON ROWS FROM SalesCube WHERE (Sales, [1991], Products.All)

52 ANSI SQL-99 Ajouts OLAP par rapport à SQL-92 : - GROUPING SETS : extension de GROUP BY - CUBE, ROLLUP : cas particulier de GROUPING SETS - ranking : extension pour ORDER BY - windowing : cumuls ou moyenne glissante Supporté notamment par DB2

53 Exemple –SQL99 SELECT jour, ville, SUM(ventes) FROM c1 GROUP BY jour,ville Jour_1 ville_1 v_11 Jour_1 ville_2 v_12 Jour_2 ville_1 v_21... Jour_q ville_pv_qp C1jour ville ventes

54 Cube –SQL99 (1) calcul de l’UNION de GROUP BY de chaque sous-ensemble des attributs en paramétre SELECT jour, ville, SUM(ventes) FROMc1 GROUP BY CUBE(jour,ville) génère l’union des groupements suivants {(jour,ville),(jour),(ville),vide }

55 Cube –SQL99 (2) Jour_1 ville_1 v_11 Jour_1 ville_2 v_12 Jour_1 NULL v_1_All Jour_2 ville_1 v_21... Jour_q NULL v_q_ALL NULL ville_1 v_ALL_1... NULL ville_p v_ALL_p NULL NULL v_ALL_ALL jour ville ventes

56 Roll_up - SQL99 (1) Calcul de l’UNION de GROUP BY de chaque préfixe des attributs en paramètre SELECT jour, ville, SUM(ventes) FROM c1 GROUP BY ROLLUP(jour,ville) génère l’union des groupements suivants {(jour,ville),(jour),vide }

57 Roll_up - SQL99 (2) Jour_1 ville_1 v_1_1 Jour_1 ville_2 v_1_2 Jour_1NULL v_1_ALL Jour_2 ville_1 v_2_1... NULL NULL v_ALL_ALL jour ville ventes

58 Roll_up - SQL99 (3) SELECT jour, ville, SUM(ventes) FROM c1 GROUP BY ROLLUP(jour), ROLLUP(ville) génération des agrégats pour les groupements : {(jour ),vide} × {(ville),vide} = {(jour,ville),(jour),(ville),vide}

59 Grouping Sets - SQL99 (1) Jour_1 ville_1 pièce_1 v_111 Jour_1ville_2 pièce_1 v_121 Jour_2 ville_1 pièce_2 v_212... Jour_q ville_p pièce_r v_qpr soient les faits : c1 jour ville pièce ventes

60 Grouping Sets - SQL99 (2) GROUP BY multiples en précisant quelles UNION sont souhaitées l’imbrication d’attributs permet de séparer les GROUP BY simples de l’UNION de GROUP BY CUBE et ROLLUP sont des cas particulier de GROUPING SETS

61 Grouping Sets - SQL99 (3) GROUP BY GROUP BY jour, ville, pièce GROUPING SETS ((jour, ville, pièce)) GROUP BY GROUP BY jour GROUPING SETS UNION (jour, ville, pièce) GROUP BY ville UNION GROUP BY pièce GROUP BY GROUP BY jour GROUPING SETS UNION (jour,(ville,pièce)) GROUP BY ville, pièce

62 Architectures ROLAP MOLAP HOLAP

63 ROLAP - technologie de stockage relationnelle - star schéma ou snowflake schéma - middleware de traduction dynamique maturité de la technologie relationnelle génération de SQL encore peu efficace

64 Cuboïdes Cube = Treillis de cuboïdes

65 Précalcul des agrégats (1) Cube de données = faits = tous les cuboïdes 3 possibilités - ne pas stocker d’agrégat coûteux en temps - stocker tous les agrégats coûteux en espace - ne stocker qu’une partie des agrégats... mais lesquels?

66 Précalcul des agrégats (2) matérialiser des cuboïdes choisis en fonction - du grain (niveau d’agrégation) - des requêtes utilisateurs le grain doit être suffisamment fin pour pouvoir répondre aux requêtes

67 Précalcul des agrégats (3) Exemple ventes(produit, vendeur, année, prix) 3 dimensions : produit, vendeur, année 8 possibilités de groupement SELECT SUM(prix) FROM ventes GROUP BY...

68 Précalcul des agrégats (4) GROUP BY nombre de tuples nom de la vue produit, vendeur, année 6 M pva produit, vendeur 6 M pv produit, année 0.8 M pa vendeur, année 6 M va produit 0.2 M p vendeur 0.1 M v année 0.01 M a Null1 vide

69 Précalcul des agrégats (5) matérialiser tous les agrégats coûte 19 M matérialiser - vue pva - vue pa - vues p, v et a - vue vide coûte 7,11 M

70 Notations Q1 < Q2 ssi Q1 peut être traitée via Q2 - ancêtre(x) = {y | x < y} - descendant(x) = {y | y < x} - suivant(x) = {y | x < y, pas de z tel que x < z, z < y} p < pv, ancêtre(pva) = {pva}, descendant(pv) = {pv,p,v,vide}, suivant(p) = {pv,pa}

71 Stratégie répondre à une requête Q 1. choisir un ancêtre QA matérialisé de Q 2. adapter Q à QA 3. évaluer la requête adaptée sur QA coût de la réponse à Q = nombre de tuples de QA

72 Techniques d’indexation (ROLAP) listes inversées index de vecteurs de bits (bitmap indexing) index de jointure (join indexing)

73 MOLAP technologie des bases de données multidimensionnelles - structure de stockage = tableaux - correspondance directe avec la vue multidimensionnelle gestion de la faible densité (sparsity) - techniques de compression spécifiques - structure d’index spécifiques problème d’extensibilité

74 Stockage MOLAP 73 2595 8962 87 implantation “row major” A[2][2] 73 25 95896287 A[0][0]

75 Stockage MOLAP d dimensions, N k membres dans la dimension k la fonction p donne la position dans le tableau en fonction de chaque indice i d Exemple : a[2][3][4] avec 3 dimensions de 10 membres p(2,3,4) = 234


Télécharger ppt "OLAP IED 2006-2007. Sommaire Introduction Opérations typiques Langages Architectures."

Présentations similaires


Annonces Google