Vers l'échantillonnage d'un entrepôt de données

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Structures de données avancées : MBT ( Multidimensional B-trees )
Structures de données avancées : MTH ( Multidimensional trie hashing )
Chap. 4 Recherche en Table
III. IDENTIFICATION PARAMETRIQUE DES SYSTEMES LINEAIRES
Algorithmes et structures de données avancés
Assistance et logistique pour les Essais Cliniques
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Calculs de complexité d'algorithmes
Collecte de données F. Kohler.
Inférence statistique
Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid.
Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER
Centrée à lorigine sur loptimisation des systèmes de production, cette option existe depuis les débuts de lEcole. Son contenu a suivi lévolution du domaine.
(c) N. Rossignol Voici deux séries de prix Mon salaire, tout comme l'ordinateur que je compte acheter, augmente d'année en année (sauf en 2007 pour mon.
EA 202 Eléments de stratégie
Tests et Validation du logiciel
Ordonnancement des mouvements de deux robots
Apprendre à se servir d’un tableur
To Tune or not to Tune? To Tune or not to Tune? A Lightweight Physical Design Alerter Costa Jean-Denis Le Yaouanc Aurélie Mécanismes de SGBD 2007.
MIAGE MASTER 1 Cours de gestion de projet
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Manuel de formation PNUEThème 15 Diapo 1 Utilisation de lÉIE pour sorienter vers le développement durable F lÉIE est un instrument de fondation F lÉIE.
EXCEL Premiers pas dans les formules. Opérations simples Soient 2 nombres inscrits dans 2 cellules 12 dans B1 et 5 dans B2 Réalisons les 4 opérations.
LANGAGES LIES AU MODELE RELATIONNEL
Sections sélectionnées du Chapitre 11
Comprendre la variation dans les données: Notions de base
LIEU DES PÔLES.
LES ARBRES IUP 2 Génie Informatique
Structures de données IFT-10541
Colloque IC-2012– Montréal 6-7 juin 2012
LA VALEUR ÉCONOMIQUE AJOUTÉE (VÉA)
Courbes de Bézier.
Gestion de Fichiers Hachage Extensible.
Universté de la Manouba
Le forage de données ou data mining
SEMINAIRE DE CONTACT novembre 2008 Outils de gestion de projet.
Programmation linéaire en nombres entiers : les méthodes de troncature
Découverte de correspondances entre ontologies distribuées
Urbanisation des SI Réalisé par: Kerai yassine kertiou ismail
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
1 Notations Asymptotiques Et Complexité Notations asymptotiques : 0 et  Complexité des algorithmes Exemples de calcul de complexité.
Structures de données avancées : Hachage dynamique
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Stratégie d’entreprise - Alstom Transport – Marco Férrogalini
David Rivreau Table de hachage David Rivreau
Module 8 : Surveillance des performances de SQL Server
Sciences de l’ingénieur ?
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Optimisation de requêtes
Programmation linéaire en nombres entiers
Marquez cette valeur sur le diagramme à points de la question 6. La moyenne réelle des nombres de lettres par mots dans la population de l'ensemble des.
Echantillonage pour une Evaluation d’Impact
Construction d'une hiérarchie mémoire faible consommation
Structures de données avancées : Fichiers multidimensionnels Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI) zegour.esi.dz
LE DATA WAREHOUSE.
Cours LCS N°4 Présenté par Mr: LALLALI
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Management de la qualité
TNS et Analyse Spectrale
Structures de données avancées : LH (Hachage linéaire) D. E ZEGOUR Institut National d ’Informatique.
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
Contrôle des coûts.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Résolution des équations différentielles
RAPIDO SITUATION ▪France & Europe MÉTIER ▪Construction de véhicules automobiles (2910Z) NOMBRE D’EMPLOYÉS ▪600 CHIFFRE D’AFFAIRES SOLUTION.
La Maîtrise Statistique des Procédés
L'exécution d'un programme nécessite l'utilisation des ressources de l'ordinateur : temps de calcul pour exécuter les opérations, et l'occupation de la.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Transcription de la présentation:

Vers l'échantillonnage d'un entrepôt de données Raphaël Féraud et Fabrice Clérot

Relever le défi de la volumétrie Une tendance lourde depuis la fin du siècle dernier est l'augmentation exponentielle des volumes de données stockés. La capacité à transformer les données en information n'évolue pas aussi vite que les volumes stockés : Le processus d'analyse des données nécessite une intervention humaine. Le traitement des données utilise souvent des algorithmes de complexité supérieur à o(n) : Pour un algorithme de complexité o(n²), le doublement de la puissance de calcul ne permet d'augmenter que de racine de 2 les capacités de traitements. EDA/2007/Raphaël Féraud

Le système d'information décisionnel Traitements d ’interface E/S Traitements d'alimentation Rapports prédéfinis – OLAP - Requêtes ad hoc – Data mining Entrepôt de données : données de détails sur tous les métiers de l'entreprise. Datamarts : données agrégées et préparées pour un métier particulier. Facturation Ventes Logs Contact Enquêtes Catalogue … EDA/2007/Raphaël Féraud

Limitations La volumétrie très importante de l'entrepôt conduit à administrer fortement les requêtes ad hoc, voire à les prohiber. L'utilisation de datamarts spécialisés permet de limiter les effets de la volumétrie au prix d'une spécification a priori de l'espace des requêtes. Dans un contexte très évolutif comme celui des nouvelles technologies, cette architecture montre ses limites : les datamarts doivent être constamment actualisés. L'information contenue dans l'entrepôt est sous exploitée. EDA/2007/Raphaël Féraud

Une autre approche est-elle envisageable ? Question : quel est le nombre moyen d'emails reçus en mars 2007 par les clients Orange ? Réponse : 18,3456 A-t-on réellement besoin d'une telle précision ? Pour les requêtes ad hoc ou pour le calcul d'indicateurs de suivi de l'activité, la réponse est clairement non. Il est possible d'échanger de la précision sur le calcul contre du coût de traitement. EDA/2007/Raphaël Féraud

L'approche synopsis L'approche synopsis permet de gérer séparément les requêtes approximées. EDA/2007/Raphaël Féraud 9

Échantillonnage d'une équijointure Soit R1 et R2, deux tables reliée par une clé n'étant pas la clé primaire d'aucune des tables, J l'équijointure de R1 et R2 et l un taux d'échantillonnage, et Sl l'opérateur d'échantillonnage. La solution triviale consiste à calculer l'équijointure, puis à échantillonner : Le résultat est optimal, mais le temps de traitements est élevé. La solution naïve consiste à échantillonner chacune des tables pour de les joindre : Le temps de calcul est minimal, mais qu'en est-t-il de la qualité de l'échantillon ? Parler du problème de permutation des opérateur JOIN et SAMPLE ? EDA/2007/Raphaël Féraud

Difficulté de l'échantillonnage d'une équijointure EDA/2007/Raphaël Féraud 22

Comment améliorer la méthode triviale ? La solution triviale est lente car elle nécessite de joindre les tables, ce qui demande un accès aléatoire dont le coût est prohibitif lorsque les tables ne tiennent plus en mémoire. Une amélioration importante de la solution triviale consiste à : indexer les n-uplets des tables à joindre suivant a, la clé de jointure, et non plus suivant la clé des tables, calculer les fréquences de la clé de jointure dans la jointure, tirer les n-uplets suivant les fréquences de la clé de jointure. On passe ainsi d'une complexité de o(n log n) à o(k log n), où n est la taille de la plus grande table à joindre et k la fréquence de la clé de jointure, avec k < n. Que faire lorsque l'index sur k ne tient plus en mémoire ? EDA/2007/Raphaël Féraud

Echantillonnage par hachage Avec une fonction de hachage bien choisie, nous pouvons borner la ressource mémoire utilisée pour indexer suivant la clé de jointure : h(x) = x mod N, avec N nombre premier. Lorsque la ressource mémoire nécessaire à l'index dépasse N, il y a des collisions : La fréquence de la clé de jointure dans la jointure est estimée, La présence de n-uplets ne faisant pas partie de la jointure diminue la taille de l'échantillon. La valeur de N permet de maîtriser le coût de traitement en jouant sur la qualité de l'échantillon. L'échantillonnage d'une équijointure par hachage comprend trois étapes : Hachage des tables sur l'identifiant de la clé de jointure. Estimation des fréquences de la clé de jointure dans la jointure. Tirage de l'échantillon. EDA/2007/Raphaël Féraud

Etape 1 : hachage R1 R1 R2 ki=aj mod N R2 A B a1 b1 a2 b2 a3 b3 b4 … EDA/2007/Raphaël Féraud

Estimation des fréquences k1 k3 k2 k4 R2 k1 k3 k2 k4 EDA/2007/Raphaël Féraud

Echantillonnage R1 k1 k3 k2 k4 R2 k1 k3 k2 k4 EDA/2007/Raphaël Féraud

La base de données La jointure de EDP x CRU sur la clé étrangère ID_Tiers génère 39 000 000 d'enregistrements : Chacun des 81500 éléments de parc produit en moyenne à 486 compte-rendu d'usages. Chacun des 6 000 000 comptes-rendus d'usages est rattaché en moyenne à 6 éléments de parc. La clé de jointure possède 15 000 valeurs différentes. EDA/2007/Raphaël Féraud

Choix de N Nous avons tracé le temps nécessaire au calcul de l'échantillon en fonction de N pour une taille d'échantillon constante. Pour la suite des expérimentations, nous avons choisi N = 6007 pour indexer les 15 000 valeurs de la clé de jointure. Nombre important de collisions Faible nombre de collisions Dépassement mémoire : index sur disque EDA/2007/Raphaël Féraud

Précision de l'estimation La précision d'un estimateur se décompose en deux grandeurs, la variance et le biais : Nous avons construit dix échantillons de 5% de la jointure pour chacune des méthodes d'échantillonnage. Nous avons calculé la valeur moyenne de la précision, du biais et la variance des estimateurs des fréquences des valeurs de la clé de jointure. Échelle : x'=log(109.x) EDA/2007/Raphaël Féraud

Conclusion Nous avons proposé une méthode d'échantillonnage d'une jointure par hachage permettant de contrôler les ressources mémoire utilisées. Les résultats obtenus sur nos expérimentations montre qu'avec trois fois moins de ressources mémoire, nous obtenons la même qualité d'estimation que la méthode triviale, qui donne le résultat optimal. EDA/2007/Raphaël Féraud

Perspectives L'échantillonnage d'une équijointure sur clé étrangère n'est qu'une étape vers l'échantillonnage d'un entrepôt de données : Il y a potentiellement 2K jointures dans une base de données contenant k tables ! L'échantillonnage d'une jointure de flux de données est une brique technologique importante pour un Data Stream Manager System : La méthode proposée nécessite une lecture complète des tables avant de tirer l'échantillon ! EDA/2007/Raphaël Féraud