Universté de la Manouba

Slides:



Advertisements
Présentations similaires
Un environnement de développement éducatif
Advertisements

Module Systèmes d’exploitation
Chapitre annexe. Récursivité
DATA WAREHOUSES Selection of Views to Materialize in a Data Warehouse Himanshu Gupta Department of Computer Science Stanford University Bernigaud Sébastien.
1 IXERP consulting. L archivage consiste à extraire de la base de données opérationnelle les informations qu' il n est plus nécessaire de conserver «
Résolution de problèmes et logiciel de calcul symbolique
Sébastien Thomassey Janvier 2005
Licence 2 Option de découverte (1L4INJM) APPLICATIONS INFORMATIQUES POUR LINTERACTION HOMME-ROBOT Responsable : Julien PINQUIER
Projet de Base de Données Groupe Moteur encadré par Mr MAINGUENAUD KikiTeam – ASI3 – 19 / 06 / 2002 Soizic Geslin Minh Le Hoai Samy Fouilleux Maxime Chambreuil.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Eric BONJOUR, Maryvonne DULMET
Module 6 : Gestion et analyse du système DNS
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Démarche de Projet D’après la norme X50-106, un projet est une démarche spécifique qui permet de structurer méthodiquement et progressivement une réalité.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
BDA'02 1 Tolérance aux fautes (TaF) adaptable pour les systèmes à composants : application à un gestionnaire de données Phuong-Quynh Duong, Elizabeth Pérez-Cortés,
Thème « Modélisation comportementale des Systèmes critiques »
Cours Présenté par …………..
1 B Système Enjeux et principes Cours DESS Nantes 04 Décembre 2002 Didier ESSAME.
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
Le 19/ 11/ Modèle de tarification planifiée pour les réseaux mobiles Mustapha OUGHDI Alexandre CAMINADA Sid LAMROUS.
Safae LAQRICHI, Didier Gourc, François Marmier {safae
LA VALORISATION DES STOCKS
Copyright © 2004, SAS Institute Inc. All rights reserved. Processus Stockés SAS une perspective analytique Sylvain Tremblay SAS Canada 25 avril 2006.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Initiation aux bases de données et à la programmation événementielle
Sélection automatique d’index et de vues matérialisées
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Initiation au système d’information et aux bases de données
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Initiation au système d’information et aux bases de données
Maple, modélisation et résolution de problèmes
Plan Évolution Système On Chip Difficultés de la testabilité des SOCs
XT-SOFT SQL-TUNE. 2 Menu dAccueil 3 Sélection des Statistiques Maintenant allons sur Statistics : PF4 04 par PF4 ou en entrant dans Enter option : la.
Application des algorithmes génétiques
Auto-organisation dans les réseaux ad hoc
Les Systèmes Multi-Agents pour la Gestion de Production
ADR Active and Dynamic Routing. Plan Introduction au routage Les réseaux actifs Les agents Mise à jour des matrices de routage Architecture du routage.
Parcours de formation SIN-7
Validation d’applications pour les Legos Mindstorms
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
OLAP : Un pas vers la navigation
Chap 4 Les bases de données et le modèle relationnel
DeltaPROD Suivi des interventions Gestion de configuration
Méthode des k plus proches voisins
IFT-2000: Structures de Données Introduction à lanalyse dalgorithmes Dominic Genest, 2009.
Supply Chain Management
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
DeweyBroche par François-Frédéric Tougas. c i b l e comprendre identifier bâtir l a n c e r évaluer 2.
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Riadh Ben Messaoud Kamel Aouiche Cécile Favre
Modèle d’entrepôt de données à base de règles
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
Ordonnancement de tâches
SEMINAIRE DE CONTACT novembre 2008 Outils de gestion de projet.
Génération de colonnes pour la résolution des problemes de foresterie
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
Vers l'échantillonnage d'un entrepôt de données
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
LE DATA WAREHOUSE.
Optimisation pour la Conception de Systèmes Embarqués
Intégration des Tableaux Multidimensionnels en Pig pour
1 Gestion des voitures médecins d'Urgences-Santé Michel Gendreau Émilie Frot¹ Gilbert Laporte Frédéric Semet¹ Centre de recherche sur les transports Université.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
TD 3: La gestion des stocks avec le logiciel Odyssée (suite)
TD 2: La gestion des stocks avec le logiciel Odyssée
Cours 11 Entrepôts de données
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
Transcription de la présentation:

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Une Approche Pour Spécifier Quand Ré-sélectionner les Vues à Matérialiser Henda Ben Ghezala Abdelaziz Abdellatif Ali Ben Ammar 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Plan Introduction 3-5 Data warehouse Vues matérialisées Problématique 6-8 Solution 9-15 Résultats 16-18 Conclusion et perspectives 19 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Introduction Data Warehouse (DW) Vues matérialisées: V1, V2….Vn Tables de base : T1,T2,……….…………..Tm Extraction et intégration Source 1 Source 2 .............. Source t Architecture générale d’un Data Warehouse 3 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Introduction Un Data Warehouse (DW) est un entrepôt de données extraites à partir de plusieurs sources. Il se caractérise par: Un grand volume de données Des données historisées Des requêtes OLAP qui sont très complexes Afin d’optimiser l’accès au DW les résultats de quelques requêtes, jugées très complexes ou très fréquentes, sont stockés. Ces résultats stockés sont dits vues matérialisées. L’objectif est d’éviter la génération répétitive des données. 4 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Introduction Généralement la gestion des vues matérialisées consiste en: La sélection des vues à matérialiser lorsqu’il est impossible de matérialiser toutes les vues La maintenance des vues matérialisées L’exploitation des vues matérialisées pour l’exécution des requêtes 5 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Problématique Une politique de sélection fait intervenir plusieurs critères: Modèle de coût: (fonction objectif) sert à mesurer le bénéfice ou le coût engendré par la matérialisation d’une vue ou d’un ensemble de vues. Il est utilisé pour identifier les vues les plus propices d’être matérialisées. Contraintes de sélection: Contraintes de ressources (espace de stockage) Contraintes de qualité de service (temps de réponse ou de maintenance) Contraintes de qualité de données (fraîcheur de données) 6 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Problématique Période de sélection: Spécifie les moments d’exécution de l’algorithme de sélection pour Mettre à jour le plan de matérialisation (l’ensemble des vues matérialisées). Sélection dynamique: Contrôle automatique et contenu de l’environnement de matérialisation Périodes très courtes Toute variation de la fonction objectif ou des contraintes peut entraîner l’exécution du programme de sélection pour la recherche d’un nouveau plan de matérialisation 7 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Problématique (+) Garantir, à tout instant, la matérialisation des vues les plus profitables. (-) Charger le système par des exécutions répétitives. (-) Non recommandée pour un environnement de data warehouse qui est caractérisé par un contenu et par des accès peu dynamiques. ? Comment définir cette période de sélection statique Sélection Statique: Périodes définies par l’administrateur Exécution périodique du programme de sélection des vues matérialisées 8 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Rappel: la sélection du plan optimal de matérialisation dépend de: Fréquence d’accès aux vues (besoins) Fréquence de maintenance Ressources disponibles Courte période (1 ou 2 semaines) Longue période (plus qu’un mois) Haute variation des paramètres (+) Optimiser le temps de réponse (-) faible rentabilité du plan de matérialisation Faible variation des paramètres (-) Coût élevé d’intervention (+) Coût d’intervention faible 9 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Notre idée: Utiliser les deux types de périodes P ? SP1 SP4 Lancer le programme de sélection et commencer une nouvelle période P Calculer le coût d’exécution des requêtes durant SP1 et SP2 Chercher les sous-périodes SPi ? Estimer le coût d’exécution des requêtes durant P Si Coût calculé > (1+θ) * Coût estimé Oui Estimer le coût d’exécution des requêtes à la fin de chaque sous-période Non Lancer le programme de sélection et commencer une nouvelle période P Garder le même plan de matérialisation et le vérifier à la fin de la prochaine sous-période 10 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Comment définir SPi ? La sélection du plan optimal de matérialisation dépend entre autres des fréquences d’accès et de maintenance des vues matérialisées. Sélection dynamique Sélection statique Fréquence d’accès > Fréquence de maintenance SPi Spécifier des moments d’accès Spécifier des moments de maintenance Contrôler la rentabilité du plan de matérialisation 11 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Exemple: Requête 1: Les ventes par semaine (V1) Requête 2: La quantité commandée par client par mois (V2) Contribution 1: Utilisation des intervalles de tolérance pour la maintenance des vues matérialisées. Une vue matérialisée ne sera mise à jour qu’en cas de besoin. Au lieu de mettre à jour V1 et V2 au même moment, on doit se baser sur les structures des requêtes pour déduire les périodes de maintenance de chaque vue. 1 2 3 mois SP1 SP2 SP3 SP4 SP8 P V1, V2 V1 V1 V1 V1, V2 V1 V1 V1 V1, V2 V1 V1 V1 V1, V2 12 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Rappel: Chercher un nouveau plan de matérialisation Ou SPi Coût calculé > (1+θ) * Coût estimé P Contribution 2: Utiliser un paramètre de tolérance θ pour lancer le programme de sélection. L’idée est de ne chercher un nouveau plan de matérialisation que si le coût d’exécution des requêtes engendré par le plan actuel dépasse le coût estimé d’un taux non toléré (θ). 13 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution Pourquoi θ ? : Ne pas surcharger le système par des exécutions du programme de sélection suite à des faibles variations de quelques paramètres. Pour des faibles variations des paramètres l’exécution du programme de sélection peut donner le même plan de matérialisation. Comment définir θ ? : L’administrateur du DW définit θ en tenant compte: Charge du système. Taille moyenne du plan de matérialisation . 14 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Solution L’algorithme : t=1 Chercher M ={SP1,SP2,…,SPz} l’ensemble des sous-periodes de P Si t= P alors passer à l’étape 8 Si t M alors passer à l’étape 9 Coût estimé(t) = (t/P)* Coût total estimé Coût calculé (t) = i=1,…,n (fi* coût de Ri ) Si Coût calculé(t) –Coût estimé(t)  θ* Coût estimé(t) alors passer à l’étape 9 Ré-exécuter le programme de sélection. Passer à l’étape 1 t=t+1 passer à l’étape 3 15 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Résultats Les objectifs de cette expérimentation sont principalement: Etudier le résultat de l’application de l’algorithme pour différentes valeurs de θ. Comparer les résultats trouvés par les deux méthodes suivantes: Exécution d’un algorithme de sélection à des périodes régulières. Exécution du même algorithme suivant la démarche de notre approche Les données: Un simple DW (schéma en étoile) avec 8 dimensions et une table de faits comptant plus que 2 millions lignes 20 requêtes complexes et plus que 20 vues P = 6 mois 16 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Résultats Trois types de coûts d’exécution des requêtes sont comparés dans les figures suivantes: Coût estimé à la fin de chaque sous période ( ) Coût calculé lorsque la sélection se fait par le Greedy Algorithm [Gupta,1997] ou le Inverted-Tree Greedy Algorithm [Gupta et Mumick, 1999] exécutés à des périodes régulières ( ) Coût calculé lorsque ces deux algorithmes sont exécutés selon la démarche de notre approche ( ) Coût d’exécution des requêtes par application du GA pour θ =0.2 Coût d’exécution des requêtes par application du ITGA pour θ =0.2 17 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Résultats Coût d’exécution des requêtes par application du GA pour θ =0.3 Coût d’exécution des requêtes par application du ITGA pour θ =0.3 Coût d’exécution des requêtes par application du GA pour θ =0.4 Coût d’exécution des requêtes par application du ITGA pour θ =0.4 18 10 Juin 2005

Universté de la Manouba ENSI Universté de la Manouba Tunisie Laboratoire RIADI Conclusion et perspectives L’efficacité de notre algorithme dépend de l’algorithme de sélection utilisé et de la valeur de θ L’efficacité de l’algorithme augmente lorsque les valeurs de θ sont de plus en plus faibles Dans les prochains travaux nous avons pour ambition : Automatiser la définition de θ Automatiser la spécification des SPi Appliquer l’algorithme pour un DW plus volumineux 19 10 Juin 2005