Des fonctions d’oubli intelligentes dans les entrepôts de données

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Théorie des graphes.
DTD Sylvain Salvati
1 Bases de donn é es relationnelles. 2 Introduction au mod è le relationnel les donn é es sont repr é sent é es par des tables, sans pr é juger de la.
Collecte de données F. Kohler.
Optimisation de Requêtes
Programme Introduction aux BD et aux SGBD Le modèle relationnel
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Les fonctions.
Sélection automatique d’index et de vues matérialisées
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Ticket de caisse d’un café moderne
JLMVPC Saisir une commande.
Initiation au système d’information et aux bases de données
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Initiation au système d’information et aux bases de données
Contrôles d'accès aux données
Rappel sur les bases de données et le vocabulaire
Algorithmes Branch & Bound
Initiation à la conception de systèmes d'information
Initiation aux bases de données et à la programmation événementielle
Chap 4 Les bases de données et le modèle relationnel
Les bases de donnÉes I DÉFINITION Ensemble structuré d’informations
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Bases de données lexicales
Quest-ce quune classe dallocation? Une classe dallocation détermine la portée et la durée de vie dun objet ou dune fonction.
Cas pratique : Interim.
Espaces vectoriels Montage préparé par : S André Ross
MODELE RELATIONNEL concept mathématique de relation
Mehrdad Salehi, candidat au doctorat Directeur: Dr. Yvan Bédard Codirecteur: Dr. Mir Abolfazl Mostafavi Conseiller: Dr. Jean Brodeur Chaire de recherche.
Systèmes d'information décisionnels
Mise en œuvre du langage MDX
Courbes de Bézier.
3.2 PRODUIT VECTORIEL Cours 7.
Universté de la Manouba
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Les devis Le devis ODF.
Programmation linéaire en nombres entiers : les méthodes de troncature
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
Introduction Le SQL (Structured  Query Language) est un langage universel de gestion des bases de données. Il a une triple fonction : LDD Langage de Définition.
Complexité des Problèmes Combinatoires Module IAD/RP/RO/Complexité Philippe Chrétienne.
1 G. Gardarin Optimisation de Requêtes  1. Introduction  2. Arbres relationnels  3. Restructuration algébrique  4. Modèle de coût  5. Choix du meilleur.
1 PHP 5 Notions fondamentales (cours #5) Formation continue – Cégep de Sainte-Foy.
INTRODUCTION VANET, c’est un réseau constitué d’un ensemble d’objets mobiles qui communiquent entre eux à l’aide de réseau sans fil de type IEEE
DOSSIER G10 – La base de données Relationnelle
Structures de données avancées : Fichiers multidimensionnels Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI) zegour.esi.dz
P2. Le modèle multidimensionnel est bien adapté pour mesurer des données que l’on peut exprimer comme cela. Le modèle OLAP STD - Notes1.
Sélection de colonnes (la projection)
Ceci est une session expert Cette session est déconseillée aux novices des moteurs Analysis Services 2000 ou 2005 La session « Découverte de Analysis.
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Performance de circuits.
Gérer les utilisateurs
Banc d’essai des serveurs OLAP MSQL Server 2005 beta et Oracle OLAP 10g release 1 Marie-Josée Proulx, Sonia Rivest, Eveline Bernier et Suzie Larrivée,
Les vues Une vue: c’est une relation virtuelle. Définie par:
GENIE MULTIMEDIA Restitution de documents CSS Christine Vanoirbeek EPFL – IC – CGC Bâtiment BC (Station 14) 1015 LAUSANNE
Intégration des Tableaux Multidimensionnels en Pig pour
Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI.
Structures de données avancées : MLH (Multidimensional linear hashing) D. E ZEGOUR Institut National d ’Informatique.
Présentation de projet
Systèmes d'information décisionnels
Initiation aux bases de données et à la programmation événementielle
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Université Sidi Mohamed Ben Abdellah
Les vues, indexes, séquences.  Qu’est ce qu’une vue 1. Une vue est une vision partielle ou particulière des données d'une ou plusieurs tables de la base.
Cours 11 Entrepôts de données
Les bases, les entrepôts et l’exploration de données
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 4 Support de cours rédigé par Bernard COFFIN Université.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

Des fonctions d’oubli intelligentes dans les entrepôts de données Un article de : Aliou Boly Sabine Goutier Georges Hébrail Encadré par: L. Lamrini Présenté par: Adil Bouchana Ait Skourt Brahim

Plan Motivation Etat de l’art Critères d’oubli et exemple de motivation Gestion des fonctions d’oubli Gestion de conservation d’echantillons Conclusion et perspectives

Motivation Les entrepôts de données stockent des quantités de données de plus en plus massives et arrivent vite a saturation. Un langage de spécifications de fonctions d’oubli est défini pour résoudre ce problème. Ce langage est défini pour déterminer les données qui doivent être présentes dans l’entrepôt de données a chaque instant supprimer de façon mécanique les données a ‘oublier’, tout en conservant un résumé de celles-ci par agrégation et par échantillonnage

Etat de l’art (Jensen, 1995): lorsqu’une date particuliére est spécifiée, les données antérieures a cette date sont considérées comme étant inaccessibles et doivent donc être supprimées physiquement de la base de données. Dans (Skyt et al., 2001), une technique de réduction des données est décrite dans le cadre des bases de données multidimensionnelles Ces travaux sont similaires au travail présenté. Cependant, les approches proposées s’appliquent aux entrepôts de données et plus largement aux bases de données relationnelles, ou des contraintes référentielles peuvent exister entre les tables

Critères d’oubli 1/2

Critères d’oubli 2/2

Exemple de motivation

Le langage de spécification Le langage a été définit pour spécifier la fonction d’oubli associée a chaque table de la base de donnée.

Gestion des fonctions d’oubli Par agrégation : Stockage des données agrégées Pour ce faire on a utilisé des familles de cubes. Les spécifications ‘’LESS THAN’’ nous indique les données pour agréger. Une famille de cubes C est une liste (D1,.....Dn,,. TL. M). où D1,..... Dn, sont des noms de dimensions. TL est la dimension Temps et M un espace vectoriel de mesures. A chaque dimension Di est associée une liste ordonnée de niveaux Li=Niveau(Di), comprenant la valeur ALL qui agrège complètement la dimension. Considérant notre exemple, nous avons :

Gestion des fonctions d’oubli C_COMMANDE = (EMPLACEMENT. SEXE. TL. TOTAL_MONTANT) Pour la dimension EMPLACEMENT on a : levels EMPLACEMENT = (VILLE. DÉPARTEMENT. RÉGION, ALL). Pour la dimension SEXE on a : levels SEXE = (SEXE. ALL). Pour la dimension TL on a : levels TL = (DAY, MONTH, YEAR. ALL) En utilisant la famille de cubes. on peut associer un cube de cette famille à chaque spécification d‘agrégation.

Gestion des fonctions d’oubli Reprenons notre exemple : pour chaque spécification on a un cube associé pour stocker les données. S1- LESS THAN 3 MONTH : SUM (montant) BY Ville. Sexe. DAY -) C1=(VILLE, SEXE, DAY, SUN_MONTANT) S2- LESS THAN l YEAR : SUM (montant) BY Département, MONTH -) C2=(DEPARTEMENT, ALL, MONTH, SUM_MONTANT) S3- LESS THAN 5 YEAR : SUM (montant) BY Région. YIEAR -) C3 =(REGl0N, ALL, YEAR. SUM_MONTANT) S4- LESS THAN 10 YEAR : SUM (montant) BY YEAR -) C4=(ALL, ALL, YEAR, SUM_MONTANT)

Gestion des fonctions d’oubli Mise à jour des données agrégées : Les algorithmes proposés pour la mise à jour sont basé sur trois propriétés : - Additivité des mesures d’agrégation : cette propriété assure que si deux cubes C et C’ sont tels que C <= C’, les données appartenant au cube C’ peuvent être calculées à partir des données du cube C. - Les différents cubes sont disjoints : Considérons deux spécifications Si-1 et Si avec age(Si-1)<=age(Si). Un tuple d d’une table est pris en compte dans un seul cube. d ϵ Ci si age(Si-1)<=age(d)<age(Si). - Commutativité des mises à jour : - un n-uplet de détail à archiver doit être stocké dans un seul cube - des données déjà agrégées d’un cube peuvent être transférées dans un autre cube plus agrégé.

Conclusion ** interface web, entre la version synthétisée par la méthode 1 et par la méthode 2 Au total, la préférence pour la version utilisant la méthode 2 est de 75%