La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Laboratoire dInformatique Scientifique et Industrielle École Nationale Supérieure de Mécanique et dAérotechnique 1, avenue Clément Ader - BP 40109 - 86961.

Présentations similaires


Présentation au sujet: "Laboratoire dInformatique Scientifique et Industrielle École Nationale Supérieure de Mécanique et dAérotechnique 1, avenue Clément Ader - BP 40109 - 86961."— Transcription de la présentation:

1 Laboratoire dInformatique Scientifique et Industrielle École Nationale Supérieure de Mécanique et dAérotechnique 1, avenue Clément Ader - BP Futuroscope cedex - France EDA07 Poitiers, 7-8 Juin 2007 DynaClose: Une approche de data mining pour la sélection des index de jointure binaires dans les entrepôts de données Ladjel BELLATRECHE LISI/ENSMA - Université de Poitiers – FRANCE Hamid NECIR Université de Bab Ezzouar Alger - ALGERIE Rokia MISSAOUI Université du Québec en Outaouais (UQO) - CANADA

2 2 Contexte : Entrepôt de données relationnel è Nécessité de structures doptimisation Exemple : SELECT A.PL, A.DL, sum(DS), sum(US) FROM Actvars A, ProdL P, TimeL T, CustL C WHERE A.PL = P.PL AND A.TL = T.TL AND A.CL = C.CL (Jointures) AND T.YL = 2006 AND P.FL = Beauty AND C.SL = F (Sélections) GROUP BY A.PL ORDER BY P.DL Requêtes de jointure en étoile EDA07 Poitiers 7-8 juin 2007 ð Plusieurs opérations de jointure ð Suivies par des opérations de sélection Customer_level Product_level Channel_level Time_level UnitsSold DollarSales DollarCost Actvars Store_level Retailer_level Custlevel Code_level Class_level Group_level Family_level Line_level Division_level Prodlevel Base_level All_level Chanlevel Tid Year_level Quarter_level Month_level Timelevel : 74 9 : : : : 24 Schéma en étoile

3 3 Plan Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives EDA07 Poitiers 7-8 juin 2007

4 Structures doptimisation existantes uStructures non redondantes tFragmentation de données tTraitement parallèle tImplémentations de la jointure (Hash join, Sort join, etc.) Exemple : CREATE BITMAP INDEX BI ON Actvars(FamilyLevel) FROM Actvars A, ProdLevel, P WHERE Actvars.refProd = P.Code uStructures redondantes tVues matérialisées tIndex vMono attribut (B-Tree, Hash, etc.) vIndex de jointure binaires (IJB) IJB = index binaire défini sur une table des faits qui référence des attributs de sélection dune table de dimension. Actvars ROWID Family: Beauty Family: Food RiD 110 RiD 201 RiD 310 RiD 410 RiD 510 RiD 610 SELECT count(*) FROM Actvars A, ProdLevel P WHERE A.refProd = P.Code AND FamilyLevel = Food Population de BI Problème de sélection des IJBs EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

5 Formalisation du problème de sélection des IJBs uExigence de ressources: tEspace disque tCoût de maintenance (rafraîchissement des données) tCoût de calcul (pour le processus de sélection) èImpossibilité de sélectionner tous IJBs uProblème de Sélection des IJBs –Entrées: –Un entrepôt de données {F, D1, …, Dn} –Un ensemble de requêtes fréquentes –Une capacité de Stockage S –Problème –Sélectionner un ensemble de vues afin de minimiser le coût dexécution de requêtes et satisfaire la contrainte S. EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

6 Étapes de Sélection des IJBs Attributs de dimension candidats Phase délimination Modèle de coût Seuil Attributs de dimension sélectionnés Algorithme de Sélection Stockage Index Finaux 1. Greedy algorithm [Microsoft] 2. Integer Linear Programming [Microsft] Pruning phase Selection phase ð Qualité des IBJs dépend fortement de la phase de pruning EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

7 État de lart: Phase délimination(1) uDeux approches de Pruning: 1.Enumeration-driven approaches [Chaudhuri04, Valentin00] Utilisation de Query Optimizer Cost Model Connaissance préalable du nombre de candidates générés (seuil) EDA07 Poitiers 7-8 juin 2007 Attributs de dimension candidats Phase délimination Query optimizer Seuil Attributs de dimension sélectionnés Algorithme de Sélection Stockage Index Finaux Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

8 État de lart: Phase délimination(2) 1.Data mining : Close [Aouiche05] Apriori-Like Algorithm (parcours par niveaux) Génération de Closed Frequent Itemsets (CFI) Élaguer si support( CFI ) minsup Aucune obligation sur le nombre de candidats finaux Le critère de génération de CFI: fréquence dapparition des attributs de dimension dans les requêtes A1A2A3A4A5A6 Q1Q Q2Q Q3Q Q4Q Q5Q Minsup=3/5 IJB sur A6 (support=3/5) A6 ChannelLevel (9 instances) IJB sur A3 est élagué (support=2/5) A3 ProdLevel (90000 instances) Coût de jointure dépend fortement des tailles des tables Matrice dusage dattributs EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

9 Similitude entre IJB Fragmentation Verticale uFragmentation verticale : Partition une table en fonction des colonnes Client(N°Client, Nom, Sexe, Ville, Age) Client1(N°Client, Nom, Age) et Client2(N°Client, Sexe, Ville) uIndex de Jointure Binaires : IJB(Nom, Age) - IJB(Sexe, Ville) IJB(Nom, Age, Sexe) … uAlgorithmes de fragmentation verticale tAffinity-based approach : [Navathe91] vUsage des attributs/requêtes tCost-based Approach : [Bellatreche00, Fung04, ….] vÉvaluation de chaque solution (Modèle de coût) tData mining approach : [Le06] vClustering Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives ð DynaClose: Nouvelle approche délimination ð Nouveaux critères délagage (Taille des tables, fréquences)

10 DynaClose uIdée principale tPénaliser les CFIs définis sur les petites tables tPrivilégier les CFIs définis sur les grandes tables uComment? tFonction de pénalité EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives n : Nombre dattributs non clés dun CFI. : N ombre n-uplet de la table de dimension Di. : Nombre n-uplet de la table des faits. Sup: Support

11 Exemple 1-GénSUPP Alphafitness1-itemsets fermés A10,40,64480,12896A1,A2,A3 A20,40,64480,12896A1,A2,A3 A30,40,64480,12896A1,A2,A3 A40,60,00030,0001A4,A5,A6 A50,60,00030,0001A4,A5,A6 A60,60,00030,0001A4,A5,A6 IJB sur Customers.ProdLevel sélectionné fitness=0,12896 (support=2/5). IJB sur channels.channel_desc est élagué fitness=0,0001 (support=3/5). EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

12 Algorithme Greedy de Sélection EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives Attributs Candidats DynaClose Attributs Sélectionnés Sélection I min Réduction de coût? Contrainte Stockage Oui NO Modèle de coût Stockage I min : IJB défini sur un attribut de sélection de faible cardinalité Configuration finale

13 Nettoyage des CFIs sélectionnés uRègles: 1.CFIs définis seulement de clés primaires de tables de dimension ou des clés étrangères de la table des faits 2.CFIs ne respectant pas les caractéristiques des index de jointure en étoile. uExemple: (custcust_gender ~ sales.cust_id ~ cust.cust_id ~ sales.prod_id ~ prod.prod_id) CREATE BITMAP INDEX sales_c_gender_p_cat_bjix ON sales(customers.cust_gender) FROM sales, customers, products WHERE sales.cust_id = customers.cust_id AND sales.prod_id = products.prod_id 3.CFIs contenant que des attributs non clés. EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

14 Évaluation de performances (I) uSchéma modifié de benchmark APB-1 u40 requêtes OLAP [Thèse Aouiche] uJava - PC PC Pentium IV de mémoire de 256 Mo uModèle de coût dexécution de requêtes (entrées/sorties) uModèle de coût de stockage uTrois scénarii dévaluation 1.Sans index 2.Index avec Close 3.Index avec DynaClose EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

15 APPORT DE L'INDEXATION ,050,0750,1750,2250,250,2750,3750,450,4750,5 MINSUP COÛT DynaClose Indexation classique sans indexation APPORT DE L'INDEXATION ,050,0750,1750,2250,2750,4750,5 MINSUP COÛT DynaClose Indexation classique sans indexation Évaluation de performances (II) EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation Conclusion et perspectives Figure 1 : Comparaison de DynaClose avec les approches existantes Figure 2 : Pourcentage de gain avec contrainte despace

16 Conclusion & Perspectives uApproche de sélection de IJB dirigée par Data mining uIntroduction de fonction de pénalité uAlgorithme glouton de sélection uRésultats préliminaires assez encourageants uAutres évaluations de performances (grande échelle) uEnrichissement de la fonction de pénalité uUtilisation dautres algorithmes de data mining (Charm) Combinaison avec dautres structures de sélection non redondantes (partitionnement) [DEXA07] EDA07 Poitiers 7-8 juin 2007 Structures doptimisation existantes Sélection des index de jointure binaires Notre approche Évaluation de performances Conclusion et perspectives

17 MERCI


Télécharger ppt "Laboratoire dInformatique Scientifique et Industrielle École Nationale Supérieure de Mécanique et dAérotechnique 1, avenue Clément Ader - BP 40109 - 86961."

Présentations similaires


Annonces Google