Sélection automatique d’index et de vues matérialisées dans les entrepôts de données EDA 2006 - Versailles Nora MAIZ, Kamel AOUICHE et Jérôme DARMONT Laboratoire ERIC 5 avenue pierre Mendès-France 69676 Bron Courriel : nmaiz@eric.univ-lyon2.fr
Plan Contexte et motivation État de l’art Sélection simultanée d’index et de vues matérialisées Expérimentation Conclusion et perspectives
Contexte et motivation Optimiser les performances Automatisation des tâches d’administration Auto-administration des entrepôts de données
Problème de sélection d’index Charge de requêtes Temps de réponse Temps Configuration d’index Temps de réponse Sélection d’index Gain Contrainte d’espace de stockage Configuration d’index Maximiser
Problème de sélection de vues matérialisées Temps Charge de requêtes Temps de réponse Gain Configuration de vues Temps de réponse Sélection de vues matérialisées Contrainte d’espace de stockage ou de maintenance Maximiser Configuration de vues
Problème de sélection simultanée d’index et de vues matérialisées candidats Vues candidates Configuration de vues et d’index Contrainte d’espace de stockage Prise en compte des interactions index-vues Gestion efficace de l’espace de stockage Index candidats Vues candidates Sélection d’index Sélection de vues matérialisées Configuration de vues et d’index Contrainte d’espace de stockage Partage statique de l’espace de stockage Sélection isolée d’index et de vues
État de l’art Bellatreche et al. (2000) Agrawal et al. (2000) Rizzi et Saltarelli (2003)
État de l’art Bellatreche et al. (2000) Redistribution de l’espace de stockage Compétition entre deux espions d’index et de vues Politique de remplacement
État de l’art Agrawal et al. (2000) Trois alternatives : MVFIRST INDFIRST Joint enumeration
État de l’art Rizzi et Saltarelli (2003) Détermination a priori d’un compromis entre l’espace de stockage alloué aux index et aux vues Niveau d’agrégation de la requête Liste des attributs de la clause Group by Sélectivité des attributs présents dans les clauses having et where
Sélection simultanée d’index et de vues matérialisées charge Entrepôt de données Métadonnées, schéma, statistiques 1 1. Extraction des requêtes résolues par le système …
Sélection simultanée d’index et de vues matérialisées Entrepôt de données Métadonnées, schéma, statistiques charge 1 Configuration de vues 2 2. Construction de l’ensemble des vues matérialisées candidates Matrice requêtes-vues candidates QV
Sélection simultanée d’index et de vues matérialisées Configuration d’index Entrepôt de données Métadonnées, schéma, statistiques charge 1 de vues 2 3 3. Construction de l’ensemble d’index candidats Matrice requêtes-index candidats QI
Sélection simultanée d’index et de vues matérialisées 3. Construction de l’ensemble d’index candidats Entrepôt de données Métadonnées, schéma, statistiques charge 1 Configuration de vues 2 d’index 3 Matrice vues-index VI
Sélection simultanée d’index et de vues matérialisées Algorithme glouton bénéfice de matérialisation et d’indexation Entrepôt de données Métadonnées, schéma, statistiques charge 1 Configuration de vues 2 d’index 3 Modèles de coût 4 d’index et de vues
Sélection simultanée d’index et de vues matérialisées Configuration d’index et de vues Entrepôt de données Métadonnées, schéma, statistiques charge 1 de vues 2 d’index 3 Modèles de coût 4 5 5. Construction de la configuration finale d’index et de vues matérialisées Algorithme glouton bénéfice de matérialisation et d’indexation
Calcul de bénéfice d’indexation L’ajout d’un index donné à la configuration Config peut améliorer le coût des requêtes de la charge : de façon directe de façon indirecte à travers les vues auxquelles cet index est associé
Calcul du bénéfice de matérialisation L’ajout d’une vue à la configuration Config peut améliorer le coût des requêtes de la charge : De façon directe De façon collaborative avec les index associés à cette vue
Algorithme de sélection simultanée d’index et de vues matérialisées … Configuration d’index et de vues Fonction objectif Vm V2 i0 i2 V1 Charge Coût de la charge 1 V1 Contrainte d’espace de stockage i0 2 Configuration finale d’index et de vues matérialisées V1 i1 3 i2 V2 i2 ij … itérations k i1
Expérimentation Conditions Stratégie Entrepôt de données test au sein du SGBD Oracle 9i PC : Windows XP Pro, processeur Pentium 4 à 2.4 GHz, RAM 512 Mo, Disque dur IDE de 120 Go La charge de requêtes est composée de 64 requêtes Stratégie Mesures observées : le temps d’exécution de la charge : sans vues matérialisées ni index avec index avec vues matérialisées avec vues matérialisées et index
Résultats expérimentaux
Conclusion Une stratégie d’optimisation des performances des entrepôts de données : Sélection simultanée d’index et de vues matérialisées Prend en compte l’interaction vue-index Traite la sélection de vues et d’index simultanément Notre solution : Générique Modulaire Validée par des expérimentations
Perspectives Poursuivre les expérimentations et les comparer avec les approches existantes Rendre la sélection de vues et d’index dynamique : Appliquer les travaux de YAO et al. (2005) pour la détection des sessions basée sur le calcul d’entropie Rendre la méthode orientée utilisateur (profil): Groupe d’utilisateurs Intégrer ou coupler avec d’autres mécanismes d’optimisation de performance comme la gestion de cache, le regroupement et le partitionnement. Agrawal et al.(2004), Zilio et al.(2004), Bellatreche et al.(2005)
Merci de votre attention Questions?