Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Une Approche Pour Spécifier Quand Ré-sélectionner les Vues à Matérialiser Henda Ben Ghezala Abdelaziz Abdellatif Ali Ben Ammar 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Plan Introduction 3-5 Data warehouse Vues matérialisées Problématique 6-8 Solution 9-15 Résultats 16-18 Conclusion et perspectives 19 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Introduction Data Warehouse (DW) Vues matérialisées: V1, V2….Vn Tables de base : T1,T2,……….…………..Tm Extraction et intégration Source 1 Source 2 .............. Source t Architecture générale d’un Data Warehouse 3 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Introduction Un Data Warehouse (DW) est un entrepôt de données extraites à partir de plusieurs sources. Il se caractérise par: Un grand volume de données Des données historisées Des requêtes OLAP qui sont très complexes Afin d’optimiser l’accès au DW les résultats de quelques requêtes, jugées très complexes ou très fréquentes, sont stockés. Ces résultats stockés sont dits vues matérialisées. L’objectif est d’éviter la génération répétitive des données. 4 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Introduction Généralement la gestion des vues matérialisées consiste en: La sélection des vues à matérialiser lorsqu’il est impossible de matérialiser toutes les vues La maintenance des vues matérialisées L’exploitation des vues matérialisées pour l’exécution des requêtes 5 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Problématique Une politique de sélection fait intervenir plusieurs critères: Modèle de coût: (fonction objectif) sert à mesurer le bénéfice ou le coût engendré par la matérialisation d’une vue ou d’un ensemble de vues. Il est utilisé pour identifier les vues les plus propices d’être matérialisées. Contraintes de sélection: Contraintes de ressources (espace de stockage) Contraintes de qualité de service (temps de réponse ou de maintenance) Contraintes de qualité de données (fraîcheur de données) 6 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Problématique Période de sélection: Spécifie les moments d’exécution de l’algorithme de sélection pour Mettre à jour le plan de matérialisation (l’ensemble des vues matérialisées). Sélection dynamique: Contrôle automatique et contenu de l’environnement de matérialisation Périodes très courtes Toute variation de la fonction objectif ou des contraintes peut entraîner l’exécution du programme de sélection pour la recherche d’un nouveau plan de matérialisation 7 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Problématique (+) Garantir, à tout instant, la matérialisation des vues les plus profitables. (-) Charger le système par des exécutions répétitives. (-) Non recommandée pour un environnement de data warehouse qui est caractérisé par un contenu et par des accès peu dynamiques. ? Comment définir cette période de sélection statique Sélection Statique: Périodes définies par l’administrateur Exécution périodique du programme de sélection des vues matérialisées 8 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Rappel: la sélection du plan optimal de matérialisation dépend de: Fréquence d’accès aux vues (besoins) Fréquence de maintenance Ressources disponibles Courte période (1 ou 2 semaines) Longue période (plus qu’un mois) Haute variation des paramètres (+) Optimiser le temps de réponse (-) faible rentabilité du plan de matérialisation Faible variation des paramètres (-) Coût élevé d’intervention (+) Coût d’intervention faible 9 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Notre idée: Utiliser les deux types de périodes P ? SP1 SP4 Lancer le programme de sélection et commencer une nouvelle période P Calculer le coût d’exécution des requêtes durant SP1 et SP2 Chercher les sous-périodes SPi ? Estimer le coût d’exécution des requêtes durant P Si Coût calculé > (1+θ) * Coût estimé Oui Estimer le coût d’exécution des requêtes à la fin de chaque sous-période Non Lancer le programme de sélection et commencer une nouvelle période P Garder le même plan de matérialisation et le vérifier à la fin de la prochaine sous-période 10 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Comment définir SPi ? La sélection du plan optimal de matérialisation dépend entre autres des fréquences d’accès et de maintenance des vues matérialisées. Sélection dynamique Sélection statique Fréquence d’accès > Fréquence de maintenance SPi Spécifier des moments d’accès Spécifier des moments de maintenance Contrôler la rentabilité du plan de matérialisation 11 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Exemple: Requête 1: Les ventes par semaine (V1) Requête 2: La quantité commandée par client par mois (V2) Contribution 1: Utilisation des intervalles de tolérance pour la maintenance des vues matérialisées. Une vue matérialisée ne sera mise à jour qu’en cas de besoin. Au lieu de mettre à jour V1 et V2 au même moment, on doit se baser sur les structures des requêtes pour déduire les périodes de maintenance de chaque vue. 1 2 3 mois SP1 SP2 SP3 SP4 SP8 P V1, V2 V1 V1 V1 V1, V2 V1 V1 V1 V1, V2 V1 V1 V1 V1, V2 12 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Rappel: Chercher un nouveau plan de matérialisation Ou SPi Coût calculé > (1+θ) * Coût estimé P Contribution 2: Utiliser un paramètre de tolérance θ pour lancer le programme de sélection. L’idée est de ne chercher un nouveau plan de matérialisation que si le coût d’exécution des requêtes engendré par le plan actuel dépasse le coût estimé d’un taux non toléré (θ). 13 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Pourquoi θ ? : Ne pas surcharger le système par des exécutions du programme de sélection suite à des faibles variations de quelques paramètres. Pour des faibles variations des paramètres l’exécution du programme de sélection peut donner le même plan de matérialisation. Comment définir θ ? : L’administrateur du DW définit θ en tenant compte: Charge du système. Taille moyenne du plan de matérialisation . 14 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution L’algorithme : t=1 Chercher M ={SP1,SP2,…,SPz} l’ensemble des sous-periodes de P Si t= P alors passer à l’étape 8 Si t M alors passer à l’étape 9 Coût estimé(t) = (t/P)* Coût total estimé Coût calculé (t) = i=1,…,n (fi* coût de Ri ) Si Coût calculé(t) –Coût estimé(t) θ* Coût estimé(t) alors passer à l’étape 9 Ré-exécuter le programme de sélection. Passer à l’étape 1 t=t+1 passer à l’étape 3 15 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Résultats Les objectifs de cette expérimentation sont principalement: Etudier le résultat de l’application de l’algorithme pour différentes valeurs de θ. Comparer les résultats trouvés par les deux méthodes suivantes: Exécution d’un algorithme de sélection à des périodes régulières. Exécution du même algorithme suivant la démarche de notre approche Les données: Un simple DW (schéma en étoile) avec 8 dimensions et une table de faits comptant plus que 2 millions lignes 20 requêtes complexes et plus que 20 vues P = 6 mois 16 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Résultats Trois types de coûts d’exécution des requêtes sont comparés dans les figures suivantes: Coût estimé à la fin de chaque sous période ( ) Coût calculé lorsque la sélection se fait par le Greedy Algorithm [Gupta,1997] ou le Inverted-Tree Greedy Algorithm [Gupta et Mumick, 1999] exécutés à des périodes régulières ( ) Coût calculé lorsque ces deux algorithmes sont exécutés selon la démarche de notre approche ( ) Coût d’exécution des requêtes par application du GA pour θ =0.2 Coût d’exécution des requêtes par application du ITGA pour θ =0.2 17 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Résultats Coût d’exécution des requêtes par application du GA pour θ =0.3 Coût d’exécution des requêtes par application du ITGA pour θ =0.3 Coût d’exécution des requêtes par application du GA pour θ =0.4 Coût d’exécution des requêtes par application du ITGA pour θ =0.4 18 10 Juin 2005
Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Conclusion et perspectives L’efficacité de notre algorithme dépend de l’algorithme de sélection utilisé et de la valeur de θ L’efficacité de l’algorithme augmente lorsque les valeurs de θ sont de plus en plus faibles Dans les prochains travaux nous avons pour ambition : Automatiser la définition de θ Automatiser la spécification des SPi Appliquer l’algorithme pour un DW plus volumineux 19 10 Juin 2005