La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

10 Juin 2005 ENSI Universté de la Manouba Tunisie Une Approche Pour Spécifier Quand Ré-sélectionner les Vues à Matérialiser Henda Ben Ghezala Abdelaziz.

Présentations similaires


Présentation au sujet: "10 Juin 2005 ENSI Universté de la Manouba Tunisie Une Approche Pour Spécifier Quand Ré-sélectionner les Vues à Matérialiser Henda Ben Ghezala Abdelaziz."— Transcription de la présentation:

1 10 Juin 2005 ENSI Universté de la Manouba Tunisie Une Approche Pour Spécifier Quand Ré-sélectionner les Vues à Matérialiser Henda Ben Ghezala Abdelaziz Abdellatif Ali Ben Ammar Laboratoire RIADI

2 10 Juin 2005 ENSI Universté de la Manouba Tunisie Plan Data warehouse Problématique 6-8 Solution 9-15 Résultats Conclusion et perspectives 19 Introduction 3-5 Vues matérialisées Laboratoire RIADI

3 10 Juin 2005 ENSI Universté de la Manouba Tunisie Introduction Laboratoire RIADI 3 Data Warehouse (DW) Vues matérialisées: V 1, V 2 ….V n Tables de base : T 1,T 2,……….…………..T m Extraction et intégration Source 1 Source Source t Architecture générale dun Data Warehouse

4 10 Juin 2005 ENSI Universté de la Manouba Tunisie Introduction Laboratoire RIADI 4 Afin doptimiser laccès au DW les résultats de quelques requêtes, jugées très complexes ou très fréquentes, sont stockés. Ces résultats stockés sont dits vues matérialisées. Lobjectif est déviter la génération répétitive des données. Un Data Warehouse (DW) est un entrepôt de données extraites à partir de plusieurs sources. Il se caractérise par: Un grand volume de données Des données historisées Des requêtes OLAP qui sont très complexes

5 10 Juin 2005 ENSI Universté de la Manouba Tunisie Introduction Laboratoire RIADI 5 Généralement la gestion des vues matérialisées consiste en: La sélection des vues à matérialiser lorsquil est impossible de matérialiser toutes les vues La maintenance des vues matérialisées Lexploitation des vues matérialisées pour lexécution des requêtes

6 10 Juin 2005 ENSI Universté de la Manouba Tunisie Problématique Une politique de sélection fait intervenir plusieurs critères: Modèle de coût: Modèle de coût: Contraintes de sélection: Contraintes de sélection: (fonction objectif) sert à mesurer le bénéfice ou le coût engendré par la matérialisation dune vue ou dun ensemble de vues. Il est utilisé pour identifier les vues les plus propices dêtre matérialisées. Contraintes de ressources (espace de stockage) Laboratoire RIADI 6 Contraintes de qualité de service (temps de réponse ou de maintenance) Contraintes de qualité de données (fraîcheur de données)

7 10 Juin 2005 ENSI Universté de la Manouba Tunisie Problématique Période de sélection: Période de sélection: Spécifie les moments dexécution de lalgorithme de sélection pour Mettre à jour le plan de matérialisation (lensemble des vues matérialisées). Sélection dynamique: Laboratoire RIADI 7 Contrôle automatique et contenu de lenvironnement de matérialisation Toute variation de la fonction objectif ou des contraintes peut entraîner lexécution du programme de sélection pour la recherche dun nouveau plan de matérialisation Périodes très courtes

8 10 Juin 2005 ENSI Universté de la Manouba Tunisie Problématique Sélection Statique: Laboratoire RIADI 8 Périodes définies par ladministrateur (+) Garantir, à tout instant, la matérialisation des vues les plus profitables. (-) Charger le système par des exécutions répétitives. (-) Non recommandée pour un environnement de data warehouse qui est caractérisé par un contenu et par des accès peu dynamiques. Exécution périodique du programme de sélection des vues matérialisées ? Comment définir cette période de sélection statique

9 10 Juin 2005 ENSI Universté de la Manouba Tunisie Solution Laboratoire RIADI 9 Rappel: la sélection du plan optimal de matérialisation dépend de: Fréquence daccès aux vues (besoins) Fréquence de maintenance Ressources disponibles Courte période (1 ou 2 semaines) Longue période (plus quun mois) Haute variation des paramètres (+) Optimiser le temps de réponse (-) faible rentabilité du plan de matérialisation Faible variation des paramètres (+) Optimiser le temps de réponse (-) Coût élevé dintervention (+) Optimiser le temps de réponse (+) Coût dintervention faible

10 10 Juin 2005 ENSI Universté de la Manouba Tunisie Solution Laboratoire RIADI Notre idée: Utiliser les deux types de périodes 0 PSP 1 SP 4 Chercher les sous-périodes SP i Calculer le coût dexécution des requêtes durant SP 1 et SP 2 Oui Non Lancer le programme de sélection et commencer une nouvelle période P Garder le même plan de matérialisation et le vérifier à la fin de la prochaine sous-période Lancer le programme de sélection et commencer une nouvelle période P ? ? Estimer le coût dexécution des requêtes durant P Estimer le coût dexécution des requêtes à la fin de chaque sous-période Si Coût calculé > (1+θ) * Coût estimé 10

11 10 Juin 2005 ENSI Universté de la Manouba Tunisie Solution Laboratoire RIADI Comment définir SP i ? La sélection du plan optimal de matérialisation dépend entre autres des fréquences daccès et de maintenance des vues matérialisées. Fréquence daccès > Fréquence de maintenance Spécifier des moments daccès Contrôler la rentabilité du plan de matérialisation Spécifier des moments de maintenance Sélection dynamique Sélection statique SP i 11

12 10 Juin 2005 ENSI Universté de la Manouba Tunisie Solution Laboratoire RIADI Exemple: Requête 1: Les ventes par semaine (V 1 ) Requête 2: La quantité commandée par client par mois (V 2 ) Contribution 1 Contribution 1: Utilisation des intervalles de tolérance pour la maintenance des vues matérialisées. Une vue matérialisée ne sera mise à jour quen cas de besoin. Au lieu de mettre à jour V 1 et V 2 au même moment, on doit se baser sur les structures des requêtes pour déduire les périodes de maintenance de chaque vue mois V 1, V 2 V1V1 V1V1 V1V1 V1V1 V1V1 V1V1 V1V1 V1V1 V1V1 SP 1 SP 2 SP 3 SP 4 SP 8 P 12

13 10 Juin 2005 ENSI Universté de la Manouba Tunisie Solution Laboratoire RIADI Contribution 2 Contribution 2: Utiliser un paramètre de tolérance θ pour lancer le programme de sélection. Lidée est de ne chercher un nouveau plan de matérialisation que si le coût dexécution des requêtes engendré par le plan actuel dépasse le coût estimé dun taux non toléré (θ). Rappel: Chercher un nouveau plan de matérialisation Ou P SP i Coût calculé > (1+θ) * Coût estimé 13

14 10 Juin 2005 ENSI Universté de la Manouba Tunisie Solution Laboratoire RIADI 14 Pourquoi Pourquoi θ ? : Ne pas surcharger le système par des exécutions du programme de sélection suite à des faibles variations de quelques paramètres. Pour des faibles variations des paramètres lexécution du programme de sélection peut donner le même plan de matérialisation. Comment définir Comment définir θ ? : Ladministrateur du DW définit θ en tenant compte: Charge du système. Taille moyenne du plan de matérialisation.

15 10 Juin 2005 ENSI Universté de la Manouba Tunisie Solution Laboratoire RIADI 15 Lalgorithme Lalgorithme : 1. t=1 2. Chercher M ={SP 1,SP 2,…,SP z } lensemble des sous-periodes de P 3. Si t= P alors passer à létape 8 4. Si t M alors passer à létape 9 5. Coût estimé(t) = (t/P)* Coût total estimé 6. Coût calculé (t) = i=1,…,n (f i * coût de R i ) 7. Si Coût calculé(t) –Coût estimé(t) θ* Coût estimé(t) alors passer à létape 9 8. Ré-exécuter le programme de sélection. Passer à létape 1 9. t=t+1 passer à létape 3

16 10 Juin 2005 ENSI Universté de la Manouba Tunisie Résultats Laboratoire RIADI 16 Les objectifs de cette expérimentation sont principalement: Etudier le résultat de lapplication de lalgorithme pour différentes valeurs de θ. Comparer les résultats trouvés par les deux méthodes suivantes: Exécution dun algorithme de sélection à des périodes régulières. Exécution du même algorithme suivant la démarche de notre approche Les données: Un simple DW (schéma en étoile) avec 8 dimensions et une table de faits comptant plus que 2 millions lignes 20 requêtes complexes et plus que 20 vues P = 6 mois

17 10 Juin 2005 ENSI Universté de la Manouba Tunisie Résultats Laboratoire RIADI Coût dexécution des requêtes par application du GA pour θ =0.2 Coût dexécution des requêtes par application du ITGA pour θ =0.2 Trois types de coûts dexécution des requêtes sont comparés dans les figures suivantes: Coût estimé à la fin de chaque sous période ( ) Coût calculé lorsque la sélection se fait par le Greedy Algorithm [Gupta,1997] ou le Inverted-Tree Greedy Algorithm [Gupta et Mumick, 1999] exécutés à des périodes régulières ( ) Coût calculé lorsque ces deux algorithmes sont exécutés selon la démarche de notre approche ( ) 17

18 10 Juin 2005 ENSI Universté de la Manouba Tunisie Résultats Laboratoire RIADI 18 Coût dexécution des requêtes par application du GA pour θ =0.3 Coût dexécution des requêtes par application du GA pour θ =0.4 Coût dexécution des requêtes par application du ITGA pour θ =0.3 Coût dexécution des requêtes par application du ITGA pour θ =0.4

19 10 Juin 2005 ENSI Universté de la Manouba Tunisie Conclusion et perspectives Laboratoire RIADI 19 Lefficacité de notre algorithme dépend de lalgorithme de sélection utilisé et de la valeur de θ Lefficacité de lalgorithme augmente lorsque les valeurs de θ sont de plus en plus faibles Dans les prochains travaux nous avons pour ambition : Automatiser la définition de θ Automatiser la spécification des SP i Appliquer lalgorithme pour un DW plus volumineux


Télécharger ppt "10 Juin 2005 ENSI Universté de la Manouba Tunisie Une Approche Pour Spécifier Quand Ré-sélectionner les Vues à Matérialiser Henda Ben Ghezala Abdelaziz."

Présentations similaires


Annonces Google