DATA WAREHOUSES Selection of Views to Materialize in a Data Warehouse Himanshu Gupta Department of Computer Science Stanford University Bernigaud Sébastien.

Slides:



Advertisements
Présentations similaires
Les technologies décisionnelles et le portail
Advertisements

Parcours.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Le langage de requêtes SPARQL SPARQL Protocol And RDF Query Language
EContact Examen de la validation de principe Plan daction « Laccès signifie pour les services gouvernementaux ce que lemplacement signifie pour limmobilier.
Les décisions Pourquoi faut-il prendre des décisions?
Algèbre relationnelle
Vue d’ensemble du Data warehousing et de la technologie OLAP
Définition : ordonnancement o Lordonnancement répartit lensemble des fonctions dans des étapes de contrôle en vérifiant un ensemble de contraintes. o lenchaînement.
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
SGBDR : LA GESTION DES VUES
Manipulation d’XML avec XSL
Plus rapide chemin bicritère : un problème d’aménagement du territoire
VI. Analyse des solutions techniques
Web et sérénité, comment faire ? Quelles sont les démarches quun commerçant ou une PME doit entreprendre pour se lancer de manière professionnelle sur.
E.Dot – juillet 2005 Page 1 Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.
To Tune or not to Tune? To Tune or not to Tune? A Lightweight Physical Design Alerter Costa Jean-Denis Le Yaouanc Aurélie Mécanismes de SGBD 2007.
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
– Les entrepôts de données et lanalyse en ligne – Versaille, le 19 Juin 2006.
Vincent Gramoli, IRISA Advisor: Alex Shvartsman
OLAP : Un pas vers la navigation
4 Sélection d’un matériau 1/2
Algèbre relationnelle et SQL
SWF Opener And Cache Viewer
VI. Analyse des solutions techniques
Cours GOL460 Optimisation avancée avec Lingo
Techniques de prise de notes
Universté de la Manouba
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
Postes clients OLAP Fichiers XML SGBD Requêtes Analyses Reports Intégration Synchronisation Recherche Serveurs.
CSC All Reserved, Usinor Leading to Succes with CSC in the Business Intelligence Projects BW Petit Bateau 28 février 2002.
Similarité Belkhir Abdelkader Laboratoire LSI USTHB
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Entrées et sorties par.
Monitoring the Dynamic Web to respond to Continuous Queries Le titre en français : Surveillance de l'enchaînement dynamique pour répondre aux questions.
Unité 1- La vie contemporaine Education
Commerce International
Bases de Données Temporelles
Optimisation de requêtes
Algorithmes pour le web “A Unified Approach to Personalization Based on Probabilistic Latent Semantic Models of Web Usage and Content”
ASKIT v2.0 Gestion de l’ASCII DAUVERGNE Sébastien DEZE Simon Master 1 Informatique.
LE DATA WAREHOUSE.
Visualisation d’un entrepôt de données Pré soutenance technique
Institut français des sciences et technologies des transports, de l’aménagement et des réseaux Institut français des sciences et technologies.
Le CoCKPIT décisionnel du Top Management
1 J. PHILIPP d'après G. Gardarin SGBDR : la gestion des vues l 1. Contexte l 2. Vues externes l 3. Interrogation des vues l 4. Mises à jour des vues l.
By Perrine Odorowski.  Aberdeen – The Granite City 225,000 inhabitants European capital of Oil and Energy  Robert Gordon University Top university for.
ESPRIT IMS-WG n°21955Lausanne IMS-EUROPE Workshop ORGANISER : CRAN - UNIVERSITY OF NANCY I LOCATION : UNIVERSITY OF NANCY I FACULTY OF SCIENCE (A.I.P.L.)
Prénom Nom Formal Semantics Rolf Ingold Department of Informatics University of Fribourg > Formal Semantics [SP08]
 Persuasive Essay Unité 1- La vie contemporaine Education.
M EILLEURES P RATIQUES : S CHÉMAS DE D ONNÉES E FFICACES James STEWART MEASURE Evaluation 16 février 2011 Suivi et Evaluation des programmes VIH/SIDA –
Intégration des Tableaux Multidimensionnels en Pig pour
System 1 Introduction to Computer Architecture
Génétique de la croissance et de la reproduction du dindon Julien F. Lamérant A. Lapray S. 2ème doctorat – 2006/2007.
Contexte économique : - Environnement concurrentiel - Evolutions rapides - = besoins de réactivité = prise de décision => Information unique (personnalisable),
Présentation et compétences
© Crown copyright 2011, Department for Education These materials have been designed to be reproduced for internal circulation, research and teaching or.
Phase d’étudeDéveloppement Marketing & Vente.
Ahmed Sfayhi, Houari Sahraoui
INFO 2014 Fichiers et base de données Philippe Fournier-Viger Département d’informatique, U.de Moncton Bureau D216
SIO-1000 Systèmes et technologies de l'information Daniel Pascot, Professeur Jacqueline Corbett, Professeure Benoit Raymond, Professeur Et leurs assistants.
LE CHOIX DES ARTICLES Français II Leçon 11. THE DEFINITE ARTICLE Definite articles = the – Le – masculinel’- before a vowel – La – feminineles – plural.
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
COURS INTERMEDIAIRE LES TABLEAUX LES GRAPHIQUES ET LA VALIDATION DES DONNEES EXCEL 1 NSAIBIRNI ROBERT F. JR.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Les sous-requêtes ou requêtes imbriquées B.T.S. S.I.O – SI3 – 1.
Titre de la présentation
Titre de la présentation
Titre de la présentation
Transcription de la présentation:

DATA WAREHOUSES Selection of Views to Materialize in a Data Warehouse Himanshu Gupta Department of Computer Science Stanford University Bernigaud Sébastien Chervy Myriam

PLAN Présentation générale des datawarehouses Formulation du problème de sélection des vues « AND View Graph » « OR View Graph » Sélection des vues dans des « AND-OR Views Graphs » Conclusion

Présentation générale des datawarehouses Entrepôt de données Ensemble de vues de sources différentes Objectif : Implémenter des supports de décision, des requêtes OLAP Contraintes : minimiser les temps de réponse et les coûts de stockage des données Problème : choix de la sélection de vues

Formulation du problème de sélection des vues Quelques définitions sur les « AND-OR View Graphs » Problème de sélection des vues Benefit d un ensemble de vues séléctionnées

Définitions Graphe direct acyclique Racine : V Feuilles : relations de base v 1 …v K fils de u si tous les v i (1<i<k) sont nécessaires pour calculer u Dépendance entre les nœuds : AND arc Chaque AND arc : un opérateur et un coût Opérateur : une fonction k-ary impliquant des opérations comme jointure, union, agrégation… Coût : somme des coûts associés à chaque fils AND-DAG expression pour une requête ou une vue V

Définitions (suite) Exemple : AND k ih g d c b a

Définitions (suite) AND OR-DAG expression pour une requête ou une vue V Graphe direct acyclique Racine : V Feuilles : relations de base Chaque nœud possède 1 ou plusieurs AND arcs

Définitions (suite) Exemple : AND a bc def gm l k ji h

AND-OR View Graph pour les vues v 1 …v k Rq : u calculable à partir de v,u 1,…,u k et v calculable à partir de v 1,…,v l u calculable à partir de u 1,…,u k,v 1,…,v l Définitions (suite) Graphe G Pour chaque v i G i G i : sous graphe de G G i : AO-DAG expression pour v i Pour chaque nœud u de G : f u, S u, g u f u : fréquence des requêtes sur u S u : espace occupé par u g u : fréquence des mises à jour sur u

Définitions (suite) Exemple : AND a bc def gm l k ji h AND-OR View Graph pour n importe quels sous ensembles des vues a,b,c,d,e,f

Problème Donnée : un AND-OR View Graph G et une quantité despace libre S Pb : sélectionner un ensemble de vues M M : sous ensemble des nœuds de G Contraintes : minimiser les temps de réponse et les coûts de maintenance, espace occupée par M<S

Problème (suite) Q(u,M) : coût de réponse d une requête u utilisant le sous ensemble M U(u,M) : coût de maintenance pour la vue u dans M

Problème (suite) Donnée : un AND-OR View Graph G et une quantité despace libre S But : sélectionner M = {v1,…vm} Contrainte : minimiser (G,M), (v M) S v S (G,M) = (i=1 à k) f Qi Q(Q i,M) + (i=1 à m) g vi U(v i,M) Conclusion :

Benefit Donnée : C un sous ensemble arbitraire de G Benefit de C = B(C,M) B(C,M) = (G,M) - (G,M C) Benefit de C par unité despace = B(C,M)/S(C) Benefit absolu de C = B(C, )

« AND View Graph » Motivations Sélection de vues dans un « AND View Graph » Incorporation des coûts de mise à jour « AND View Graph » avec index

Motivations Problème de sélection = simplifié Approximation du problème général Optimiseur de requêtes multiples plan global Plan global AND View Graph

Sélection de vues Contexte : AND View Graph sans mises à jour Donnée : AND View Graph G et une quantité S Trouver M qui minimise (G,M) avec S(M) S

Sélection de vues (suite) Greedy Algorithm BEGIN M= ; while (S(M)<S) Soit C tq B(C,M)/S(C)=max(B(X,M)/S(X)) M=M C; end while; return M; END.

Sélection de vues (suite) Greedy-Interchange Algorithm BEGIN M=solution du Greedy Algorithm; repeat Soit (C 1,C 2 ) une pair de vues tq C 1 M et le benefit absolu de (M-C 1 ) C 2 est plus grand que celui de M. M= (M-C 1 ) C 2 ; until (il nexiste plus de pair (C 1,C 2 )); return M; END.

Sélection de vues (suite) Compétitivité : non prouvée Solution : au moins aussi bonne que Greedy Algorithm Temps dexécution : illimité En pratique : plus performant que Greedy Algorithm

Mises à jour Si g v < f v Greedy Algorithm est aussi performant que sans mises à jour

Index Pas dindex matérialisé sans sa vue Entre u et v : autant darêtes que dindex sur v Coût associé à un arc label (i,t i ) associé à chaque arête entre u et v t i (i>0) : coût de calcul de u avec utilisation de li ème index de v f : coût de calcul de u à laide de tous ses fils utilisant leurs index respectifs f : k-ary fonction, f(t 1,…t k )

Index (suite) Pour chaque v i : on construit IG i IG i = v i incrémenté des index (meilleur localement) tant que S(IG i )<S C = IG i de benefit maximal par unité despace Pour chaque index tel que la vue M : le comparer avec C M = M C On recommence Inner-Level Greedy Algorithm

« OR View Graph » Motivations Sélection de vues dans un « OR View Graph » « OR View Graph » avec index

Motivations Datacubes : Databases avec 1 valeur critique organisée en plusieurs dimensions Ex : ventes de voitures organisées par modèles,couleurs,…

Motivations (suite) Cas des Datacubes : AND-OR OR 1 vue est calculée de plusieurs façons Chaque façon utilise une seule autre vue Bases OLAP : peu de mises à jour On supposera quon a pas de mises à jour pour cette partie

Sélection de vues Algorithme pour les problèmes de sélection de vue dans un OR View Graph sans mise à jour Donnée : OR View Graph et S Problème : trouver M qui minimise (G,M) avec S(M)<S sans mise à jour

Sélection de vues (suite) Greedy Algorithm : même performances Greedy-Interchange Algorithm : temps dexécution un peu moins qu1,5 fois celui du Greedy Algorithm Solution retournée : meilleure

Index Donnée : OR View Graph avec index et S Problème : trouver M qui minimise (G,M) avec S(M)<S sans mise à jour OR View Graph avec index sans mise à jour : Inner-Level Greedy Algorithm M qui utilise au plus 2S

Sélection des vues dans des « AND-OR Views Graphs » Quelques définitions L AO-Greedy Algorithm Le Multi-Level Greedy Algorithm

Définitions Graphe biparti G=(Q,E) Q : requêtes supportées par le datawarehouse : sous ensemble de V V : ensemble des vues E : ensemble des arêtes (q, ) tq permet de calculer q AND-OR View Graph Query View Graph équivalent Query View Graph

LAO-Greedy Algorithm F = D D : ensemble des arêtes (, ) tq H : sous-graphe de F V H : des ensembles de vues correspondant aux sommets de H Ajout de V H avec profit maximal à M Arrêt : quand S(M)>S

Multi-Level Greedy Algorithm G=query view graph (Q,E) F = son graphe dintersection où v à chaque nœud de F Pas de v AO-Greedy algorithme sur G =enlever v dans chaque élément de F =graphe dintersection correspondant

Multi-Level Greedy Algorithm (suite) F i : parties connectées à F U : selectionné à laide de Greedy U : initialisé avec v À chaque étape : sélection de J J : ensemble de vues, sous-graphe dun F i, benefit par unité despace maximal Ajout de J à U Arrêt quand benefit de U ne peut plus être amélioré

Multi-Level Greedy Algorithm (suite) Algo : choix dun nouveau U et ajout à M Arrêt : S(M)>S Exécution : exponentielle (tous les sous- graphes de F i possibles)

Conclusion Structure pour le problème général de sélection des vues dans un datawarehouse Heuristiques compétitives dans un temps polynomiale pour les cas particuliers importants Heuristiques compétitives dans un temps polynomiale pour dautres cas particuliers (arbres and-or,arbres and-or binaires,…) ? Techniques développées : aperçu significatif de lheuristique de Greedy