La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Laboratoire dInformatique Scientifique et Industrielle École Nationale Supérieure de Mécanique et dAérotechnique 1, avenue Clément Ader - BP 40109 - 86961.

Présentations similaires


Présentation au sujet: "Laboratoire dInformatique Scientifique et Industrielle École Nationale Supérieure de Mécanique et dAérotechnique 1, avenue Clément Ader - BP 40109 - 86961."— Transcription de la présentation:

1 Laboratoire dInformatique Scientifique et Industrielle École Nationale Supérieure de Mécanique et dAérotechnique 1, avenue Clément Ader - BP Futuroscope cedex - France La fragmentation dans les entrepôts de données : une approche basée sur les algorithmes génétiques Ladjel Bellatreche LISI/ENSMA - Université de Poitiers Kamel Boukhalfa LGP U. Laghouat - ALGERIE EDA 05

2 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 2 Contexte Optimiser les requêtes de jointure en étoile (star join query): –Plusieurs opérations de jointure suivies par des opérations de sélection Techniques doptimisation : –Vues matérialisées –Index –Fragmentation (Oracle) Exemple de création dune table fragmentée horizontalement (tuples): CREATE TABLE sales (acct_no NUMBER(5), acct_name CHAR(30), amount_of_sale NUMBER(6), week_no INTEGER) PARTITION BY RANGE (week_no) (PARTITION sales1 VALUES LESS THAN (4) TABLESPACE ts0, PARTITION sales2 VALUES LESS THAN (8) TABLESPACE ts1,... PARTITION sales13 VALUES LESS THAN (52) TABLESPACE ts12) –Traitement parallèle INTRODUCTION

3 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 3 Une classification de techniques doptimisation Techniques doptimisation Structures non redondantes Traitement parallèle Fragmentation IndexVues matérialisées Mono-index Index binaireArbre B Multi-index Index de jointure Structures redondantes - Espace de stockage - Coût de maintenance Horizontale Verticale

4 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 4 Plan Problème de sélection de schéma de fragmentation Un algorithme génétique de sélection Expérimentations Conclusion et perspectives PLAN

5 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 5 Comment fragmenter un entrepôt ? èFragmentation horizontale est bien adaptée aux entrepôts de données relationnels Méthode : –Décomposer une (des) table(s) de dimensions en utilisant les prédicats de sélection définis dans les requêtes fréquentes è Fragmentation virtuelle ou physique –Décomposer la table des faits en fonction des schémas de fragmentation des tables de dimensions è Fragmentation horizontale dérivée

6 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 6 Exemple CLIENT1 30 < Age 40 VENTE1 VENTE4 VENTE2 VENTE3 PRODUIT TEMPS CLIENT2 CLIENT3 CLIENT4 Age < Age 30 Age > 40 è Optimisation des requêtes de jointure è Parallélisme è Utilisation des structures redondantes sur un schéma fragmenté N = M i - M i : le nombre de fragments de la table de dimension D i - k : nombre de tables de dimensions fragmentées k I =1 – CLIENT : 50 fragments sur lattribut Etat – TEMPS : 48 fragments sur lattribut Mois – PRODUIT : 100 fragments sur lattribut "type de produit". N=: 50 × 48 × 100 = fragments de la table des faits Impossibilité de gérer et maintenir ce grand nombre de fragments

7 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 7 Problème de sélection de schéma de fragmentation Entrées : –Schéma en étoile S (F, D 1, D 2, …, D k ) –Ensemble de requêtes fréquentes Q –Contrainte de maintenance : nombre maximal de fragments de la table des faits Sortie : –Ensemble de sous-schémas en étoile minimisant le coût dexécution de requêtes et satisfaisant la contrainte de maintenance

8 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 8 Algorithme génétique Extraction de prédicats de fragmentation Génération des sous domaines Codage des individus Sélection Croisement Mutation Requêtes fréquentes Modèle de coût - Fréquence daccès - Facteurs de sélectivité Fonction dévaluation

9 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 9 Codage SexeGammeSaison FMTAPEAH F1: Sexe =F & Gamme = T & Saison = P or H F2: Sexe =F & Gamme = T & Saison = E or A F3: Sexe = F & Gamme = A & Saison = P or H F4: Sexe = F & Gamme = A & Saison = E or A F5: Sexe = M & Gamme = T & Saison = P or H F6: Sexe = M & Gamme = T & Saison = E or A F7: Sexe = M & Gamme = A & Saison = P or H F8: Sexe = M & Gamme = A & Saison = E or A Trois attributs de fragmentation : Client.Sexe, Produit.Gamme, Temps.Saison Domaines des attributs de fragmentation : Codage dun individu : Clauses définissant les fragments de la table des faits : Client : 2 fragments Produit : 2 fragments Saison : 2 fragments

10 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON Evaluation SexeGammeSaison Sélection Croisement Sélection & croisement Croisement de l'individu 1 avec le

11 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON Evaluation Gamme = T & Saison = P or E Gamme = T & Saison = A Gamme = T & Saison = H Gamme = A & Saison = P or E Gamme= A & Saison = A Gamme = A & Saison = H Schéma final de fragmentation è Attribut Sexe nest pas pris en considération dans le processus de fragmentation

12 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 12 Expérimentation (I) Customer_level Product_level Channel_level Time_level UnitsSold DollarSales DollarCost Actvars Store_level Retailer_level Custlevel Code_level Class_level Group_level Family_level Line_level Division_level Prodlevel Base_level all_level Chanlevel Tid Year_level Quarter_level Month_level Timelevel EXPERIMENTATION Taux de croisement : 70% Taux de mutation : 30% -----> 6% Nombre total de générations : 1500 Nombre dindividus par génération : 40 Modèle de coût calculant le nombre dE/S Tables de dimensions stockées en mémoire

13 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 13 Expérimentation (II) EXPERIMENTATION Effet du nombre dattributs de fragmentation sur la performance Effet du type de la répartition sur la performance

14 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 14 Expérimentation (III) EXPERIMENTATION Effet du seuil sur la performance

15 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 15 Expérimentation (V) Seuil: 50 - Résultat : 48 fragments Code_level01203 Fragments Prodlevel Group_level012 Fragments Prodlevel Family_level Fragments Prodlevel Line_level001 Fragment Prodlevel Division_level11002 Fragments Prodlevel Year_level001 Fragment Timelevel Month_level Fragments Timelevel Retailer_level11122 Fragments Custlevel All_level Fragments Chanlevel Seuil: Résultat : 2016 fragments EXPERIMENTATION Code_level00001 Fragment Prodlevel Group_level001 Fragment Prodlevel Family_level Fragments Prodlevel Line_level001 Fragment Prodlevel Division_level21222 Fragments Prodlevel Year_level001 Fragment Timelevel Month_level Fragments Timelevel Retailer_level00001 Fragment Custlevel All_level Fragments Chanlevel

16 Ladjel Bellatreche - Kamel Boukhalfa EDA05 - LYON 16 Conclusion & perspective Problème de sélection dun schéma de fragmentation Algorithme génétique de sélection Évaluation de notre approche Paramétrage de lalgorithme génétique (auto- administration dun entrepôt) Application du même algorithme pour la sélection des index de jointure binaire CONCLUSION


Télécharger ppt "Laboratoire dInformatique Scientifique et Industrielle École Nationale Supérieure de Mécanique et dAérotechnique 1, avenue Clément Ader - BP 40109 - 86961."

Présentations similaires


Annonces Google