EDA’05 La fragmentation dans les entrepôts de données : une approche basée sur les algorithmes génétiques Ladjel Bellatreche LISI/ENSMA - Université de.

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Soutenance du stage de DEA.
Benoît Piranda Équipe SISAR Université de Marne La Vallée Bases de données Algèbre relationnelle, opérations Requêtes SQL.
Traitement sémantique et grammaire dattributs Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure dInformatique (ESI)
Université de Poitiers Laboratoire d Informatique Scientifique et Industrielle E.A LISI - ENSMA et Université de Poitiers Responsables Francis Cottet.
Regroupement (clustering)
Projet de Base de Données Groupe Moteur encadré par Mr MAINGUENAUD KikiTeam – ASI3 – 19 / 06 / 2002 Soizic Geslin Minh Le Hoai Samy Fouilleux Maxime Chambreuil.
Journées Francophones
Fonctionnalités des SGBD
Page : 1 / 8 Conduite de projet Examen du 3 juin 1988 Durée : 4 heures Le support de cours est toléré La notation tiendra compte très significativement.
Directeur de Thèse : Pr. Witold Litwin
Optimisation algébrique de requêtes relationnelles

1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
Résolution d'un problème industriel de job shop flexible bicritère Geoffrey VILCOT, Jean-Charles BILLAUT, Carl ESSWEIN {geoffrey.vilcot ; jean.billaut.
Journée de Travail Groupe “Bermudes”
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Conception d’une application de gestion de fiches études
Sélection automatique d’index et de vues matérialisées
Les BDAs (Les bases de données réparties)
Le problème de transport
Application des algorithmes génétiques
DEA Intelligence Artificielle et Optimisation Combinatoire
Commande par algorithme génétique
Principes de persistance dans les applications orienté objet
1 Bases de Données Distribuées Chapitre 22, Sections 22.6–22.14.
Bases de Données Réparties
Méthode des k plus proches voisins
L’utilisation des bases de données
Addition vectorielle de vecteurs
Systèmes d'information décisionnels
Staf 2x Cours de bases de données
Universté de la Manouba
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Riadh Ben Messaoud Kamel Aouiche Cécile Favre
Cours de Base de Données & Langage SQL
Cours N°2 Base de Données & Langage SQL
Ontology Evolution and Source Autonomy in Ontology-based Data Warehouses Nguyen Xuan Dung Ladjel Bellatreche
EDA 07 H. Hachim et N. Novelli
Les concepts et les méthodes des bases de données
DynaClose: Une approche de data mining pour la sélection des index de jointure binaires dans les entrepôts de données Université de Bab Ezzouar Alger -
AIP PRIMECA des Pays de La Loire – 9 novembre 2006
Initiation aux bases de données et à la programmation événementielle
Michel Tollenaere SQL et relationnel 1 Cours MSI-2A filière ICL version 1.1 du 2 novembre 2010 Cours de Management des Systèmes dInformation
Michel Tollenaere SQL et relationnel ENSGI Cours MSI 2A Relationnel et SQL version 1.4 du 25 septembre 2007 (ajout jointures) 1 Modèle relationnel Historique.
Gestion de données distribuées Intégration - Médiation
OPTIMISATION DE BASE DE DONNEES ORACLE
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
Vers l'échantillonnage d'un entrepôt de données
Fiabilité des composants électroniques
Introduction.
Soutenance de stage Lieux: CITI – INSA Lyon Marcel Pierrick Année IUT Valence – 51, rue B. de Laffemas VALENCE – Département GTR Développement.
DESIGN D’UN CODEUR- DÉCODEUR CHAOTIQUE AUTO-SYNCHRONISANT EN TEMPS RÉEL ET EN PRÉSENCE DE BRUIT Laboratoire d’Automatique et d’Informatique Industrielle-POITIERS.
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Cours n°4M2. ESCE (S. Sidhom) Séminaire ( 6-12 Février 2007 ) Promo. M2 ESCE-Tunis 2006/07 Conception d’un système d'information sur Internet Architecture.
Bases de données   J-L Hainaut III. Méthodologie des bases de données [long] 1. Méthodologie des BD5. Conception physique 2. Le modèle Entité-association6.
Bases de données fédéréEs hétérogènes
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Travaux Pratiques Optimisation Combinatoire
Structures de données avancées : Fichiers multidimensionnels Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI) zegour.esi.dz
Classification de données par l’algorithme FPSO-GA
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
Quinio1 Bases de données : modèlisation et SGBD Séance 3 B Quinio.
Algorithmes génétiques en optimisation combinatoire
Intégration des Tableaux Multidimensionnels en Pig pour
Des fonctions d’oubli intelligentes dans les entrepôts de données
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Systèmes d'information décisionnels
Cours 11 Entrepôts de données
Transcription de la présentation:

EDA’05 La fragmentation dans les entrepôts de données : une approche basée sur les algorithmes génétiques Ladjel Bellatreche LISI/ENSMA - Université de Poitiers bellatre@ensma.fr Kamel Boukhalfa LGP U. Laghouat - ALGERIE k.boukhalfa@mail.lagh-univ.dz

Contexte Optimiser les requêtes de jointure en étoile (star join query): Plusieurs opérations de jointure suivies par des opérations de sélection Techniques d’optimisation : Vues matérialisées Index Fragmentation (Oracle) Exemple de création d’une table fragmentée horizontalement (tuples): CREATE TABLE sales (acct_no NUMBER(5), acct_name CHAR(30), amount_of_sale NUMBER(6), week_no INTEGER) PARTITION BY RANGE (week_no) (PARTITION sales1 VALUES LESS THAN (4) TABLESPACE ts0, PARTITION sales2 VALUES LESS THAN (8) TABLESPACE ts1, . . . PARTITION sales13 VALUES LESS THAN (52) TABLESPACE ts12) Traitement parallèle INTRODUCTION

Une classification de techniques d’optimisation Structures non redondantes Traitement parallèle Fragmentation Index Vues matérialisées Mono-index Index binaire Arbre B Multi-index Index de jointure Structures redondantes - Espace de stockage - Coût de maintenance Horizontale Verticale

Plan Problème de sélection de schéma de fragmentation Un algorithme génétique de sélection Expérimentations Conclusion et perspectives PLAN

Comment fragmenter un entrepôt ? Fragmentation horizontale est bien adaptée aux entrepôts de données relationnels Méthode : Décomposer une (des) table(s) de dimensions en utilisant les prédicats de sélection définis dans les requêtes fréquentes Fragmentation virtuelle ou physique Décomposer la table des faits en fonction des schémas de fragmentation des tables de dimensions Fragmentation horizontale dérivée

Exemple N =  Mi Age  18 18 < Age  30 30 < Age  40 VENTE1 CLIENT1 PRODUIT Age  18 VENTE2 CLIENT2 18 < Age  30 TEMPS VENTE3 CLIENT3 30 < Age  40 VENTE4 CLIENT4 Age > 40 Optimisation des requêtes de jointure Parallélisme Utilisation des structures redondantes sur un schéma fragmenté N =  Mi - Mi : le nombre de fragments de la table de dimension Di - k : nombre de tables de dimensions fragmentées k I =1 CLIENT : 50 fragments sur l’attribut “Etat” TEMPS : 48 fragments sur l’attribut “Mois” PRODUIT : 100 fragments sur l’attribut "type de produit". N=: 50 × 48 × 100 = 240 000 fragments de la table des faits Impossibilité de gérer et maintenir ce grand nombre de fragments

Problème de sélection de schéma de fragmentation Entrées : Schéma en étoile S (F, D1, D2, …, Dk) Ensemble de requêtes fréquentes Q Contrainte de maintenance : nombre maximal de fragments de la table des faits Sortie : Ensemble de sous-schémas en étoile minimisant le coût d’exécution de requêtes et satisfaisant la contrainte de maintenance

Extraction de prédicats Algorithme génétique Requêtes fréquentes Extraction de prédicats de fragmentation Génération des sous domaines Codage des individus Sélection Croisement Mutation - Fréquence d’accès - Facteurs de sélectivité Fonction d’évaluation Modèle de coût

Codage Trois attributs de fragmentation : Client.Sexe, Produit.Gamme, Temps.Saison Domaines des attributs de fragmentation : Sexe Gamme Saison F M T A P E H Codage d’un individu : Client : 2 fragments Produit : 2 fragments Saison : 2 fragments 1 2 Clauses définissant les fragments de la table des faits : F1: Sexe =‘F’ & Gamme = ‘T’ & Saison = ‘P’ or ‘H’ F2: Sexe =‘F’ & Gamme = ‘T’ & Saison = ‘E’ or ‘A’ F3: Sexe = ‘F’ & Gamme = ‘A’ & Saison = ‘P’ or ‘H’ F4: Sexe = ‘F’ & Gamme = ‘A’ & Saison = ‘E’ or ‘A’ F5: Sexe = ‘M’ & Gamme = ‘T’ & Saison = ‘P’ or ‘H’ F6: Sexe = ‘M’ & Gamme = ‘T’ & Saison = ‘E’ or ‘A’ F7: Sexe = ‘M’ & Gamme = ‘A’ & Saison = ‘P’ or ‘H’ F8: Sexe = ‘M’ & Gamme = ‘A’ & Saison = ‘E’ or ‘A’

Sélection & croisement Sexe Gamme Saison Evaluation Sélection Croisement 1 1 2 1 1 1 2 3 4 0.6 1 5 2 2 1 1 1 2 1 2 2 3 0.52 1 1 5 3 1 2 1 1 1 1 2 2 0.33 4 1 2 1 2 1 2 3 3 0.45 5 0.65 1 1 2 1 1 1 2 1 1 1 1 Croisement de l'individu 1 avec le 5 1 2 3 4 1 1 1 2 1 1 3 4 1 2 1 1 1 2 1 1

Schéma final de fragmentation Evaluation 1 1 1 2 1 1 3 4 0.72 1 2 1 1 1 2 1 1 0.45 Gamme = ‘T’ & Saison = ‘P’ or ‘E’ Gamme = ‘T’ & Saison = ‘A’ Gamme = ‘T’ & Saison = ‘H’ Gamme = ‘A’ & Saison = ‘P’ or ‘E’ Gamme= ‘A’ & Saison = ‘A’ Gamme = ‘A’ & Saison = ‘H’ Attribut Sexe n’est pas pris en considération dans le processus de fragmentation

Expérimentation (I) 900 9000 24786000 24 9 Custlevel Prodlevel Actvars Customer_level Product_level Channel_level Time_level UnitsSold DollarSales DollarCost Actvars Store_level Retailer_level Custlevel Code_level Class_level Group_level Family_level Line_level Division_level Prodlevel Base_level all_level Chanlevel Tid Year_level Quarter_level Month_level Timelevel 24786000 9 9000 24 900 EXPERIMENTATION Taux de croisement : 70% Taux de mutation : 30% -----> 6% Nombre total de générations : 1500 Nombre d’individus par génération : 40 Modèle de coût calculant le nombre d’E/S Tables de dimensions stockées en mémoire

Expérimentation (II) Effet du nombre d’attributs de fragmentation sur la performance EXPERIMENTATION Effet du type de la répartition sur la performance

Expérimentation (III) EXPERIMENTATION Effet du seuil sur la performance

Expérimentation (V) Seuil: 50 - Résultat : 48 fragments Code_level 1 Fragment Prodlevel Group_level 1 Fragment Prodlevel Family_level 2 3 2 Fragments Prodlevel Line_level 1 Fragment Prodlevel Division_level 1 Year_level 1 Fragment Timelevel Month_level 7 10 6 9 6 Fragments Timelevel Retailer_level 1 Fragment Custlevel All_level 2 Fragments Chanlevel EXPERIMENTATION Seuil: 2000 - Résultat : 2016 fragments Code_level 1 2 3 Fragments Prodlevel Group_level 2 Fragments Prodlevel Family_level 3 4 Fragments Prodlevel Line_level 1 Fragment Prodlevel Division_level Year_level 1 Fragment Timelevel Month_level 5 10 7 4 7 Fragments Timelevel Retailer_level 2 Fragments Custlevel All_level 3 Fragments Chanlevel

Conclusion & perspective Problème de sélection d’un schéma de fragmentation Algorithme génétique de sélection Évaluation de notre approche Paramétrage de l’algorithme génétique (auto-administration d’un entrepôt) Application du même algorithme pour la sélection des index de jointure binaire CONCLUSION