La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Research & development © France Telecom research & development © France Télécom Vers l'échantillonnage d'un entrepôt de données Raphaël Féraud et Fabrice.

Présentations similaires


Présentation au sujet: "Research & development © France Telecom research & development © France Télécom Vers l'échantillonnage d'un entrepôt de données Raphaël Féraud et Fabrice."— Transcription de la présentation:

1 research & development © France Telecom research & development © France Télécom Vers l'échantillonnage d'un entrepôt de données Raphaël Féraud et Fabrice Clérot

2 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Relever le défi de la volumétrie Une tendance lourde depuis la fin du siècle dernier est l'augmentation exponentielle des volumes de données stockés. La capacité à transformer les données en information n'évolue pas aussi vite que les volumes stockés : Le processus d'analyse des données nécessite une intervention humaine. Le traitement des données utilise souvent des algorithmes de complexité supérieur à o(n) : Pour un algorithme de complexité o(n²), le doublement de la puissance de calcul ne permet d'augmenter que de racine de 2 les capacités de traitements.

3 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Le système d'information décisionnel Traitements d ’interface E/S Traitements d'alimentation Rapports prédéfinis – OLAP - Requêtes ad hoc – Data mining Entrepôt de données : données de détails sur tous les métiers de l'entreprise. Datamarts : données agrégées et préparées pour un métier particulier. FacturationVentesLogsContactEnquêtesCatalogue …

4 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Limitations La volumétrie très importante de l'entrepôt conduit à administrer fortement les requêtes ad hoc, voire à les prohiber. L'utilisation de datamarts spécialisés permet de limiter les effets de la volumétrie au prix d'une spécification a priori de l'espace des requêtes. Dans un contexte très évolutif comme celui des nouvelles technologies, cette architecture montre ses limites : les datamarts doivent être constamment actualisés. L'information contenue dans l'entrepôt est sous exploitée.

5 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Une autre approche est-elle envisageable ? Question : quel est le nombre moyen d' s reçus en mars 2007 par les clients Orange ? Réponse : 18,3456 A-t-on réellement besoin d'une telle précision ? Pour les requêtes ad hoc ou pour le calcul d'indicateurs de suivi de l'activité, la réponse est clairement non. Il est possible d'échanger de la précision sur le calcul contre du coût de traitement.

6 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud L'approche synopsis 9 L'approche synopsis permet de gérer séparément les requêtes approximées.

7 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Échantillonnage d'une équijointure Soit R 1 et R 2, deux tables reliée par une clé n'étant pas la clé primaire d'aucune des tables, J l'équijointure de R 1 et R 2 et un taux d'échantillonnage, et S l'opérateur d'échantillonnage. La solution triviale consiste à calculer l'équijointure, puis à échantillonner : Le résultat est optimal, mais le temps de traitements est élevé. La solution naïve consiste à échantillonner chacune des tables pour de les joindre : Le temps de calcul est minimal, mais qu'en est-t-il de la qualité de l'échantillon ?

8 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Difficulté de l'échantillonnage d'une équijointure 22

9 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Comment améliorer la méthode triviale ? La solution triviale est lente car elle nécessite de joindre les tables, ce qui demande un accès aléatoire dont le coût est prohibitif lorsque les tables ne tiennent plus en mémoire. Une amélioration importante de la solution triviale consiste à : 1. indexer les n-uplets des tables à joindre suivant a, la clé de jointure, et non plus suivant la clé des tables, 2. calculer les fréquences de la clé de jointure dans la jointure, 3. tirer les n-uplets suivant les fréquences de la clé de jointure. On passe ainsi d'une complexité de o(n log n) à o(k log n), où n est la taille de la plus grande table à joindre et k la fréquence de la clé de jointure, avec k < n. Que faire lorsque l'index sur k ne tient plus en mémoire ?

10 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Echantillonnage par hachage Avec une fonction de hachage bien choisie, nous pouvons borner la ressource mémoire utilisée pour indexer suivant la clé de jointure : h(x) = x mod N, avec N nombre premier. Lorsque la ressource mémoire nécessaire à l'index dépasse N, il y a des collisions : La fréquence de la clé de jointure dans la jointure est estimée, La présence de n-uplets ne faisant pas partie de la jointure diminue la taille de l'échantillon. La valeur de N permet de maîtriser le coût de traitement en jouant sur la qualité de l'échantillon. L'échantillonnage d'une équijointure par hachage comprend trois étapes : 1. Hachage des tables sur l'identifiant de la clé de jointure. 2. Estimation des fréquences de la clé de jointure dans la jointure. 3. Tirage de l'échantillon.

11 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Etape 1 : hachage R1R1 AB a1a1 b1b1 a2a2 b2b2 a3a3 b3b3 a3a3 b4b4 …… R2R2 AB a1a1 c0c0 a1a1 c1c1 a2a2 c2c2 a1a1 c2c2 …… k i =a j mod N R1R1 k1k1 k3k3 k2k2 k4k4 R2R2 k1k1 k3k3 k2k2 k4k4

12 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Estimation des fréquences R1R1 k1k1 k3k3 k2k2 k4k4 R2R2 k1k1 k3k3 k2k2 k4k4

13 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Echantillonnage R1R1 k1k1 k3k3 k2k2 k4k4 R2R2 k1k1 k3k3 k2k2 k4k4

14 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud La base de données La jointure de EDP x CRU sur la clé étrangère ID_Tiers génère d'enregistrements : Chacun des éléments de parc produit en moyenne à 486 compte- rendu d'usages. Chacun des comptes-rendus d'usages est rattaché en moyenne à 6 éléments de parc. La clé de jointure possède valeurs différentes.

15 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Choix de N Nous avons tracé le temps nécessaire au calcul de l'échantillon en fonction de N pour une taille d'échantillon constante. Pour la suite des expérimentations, nous avons choisi N = 6007 pour indexer les valeurs de la clé de jointure. Nombre important de collisions Faible nombre de collisions Dépassement mémoire : index sur disque

16 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Précision de l'estimation La précision d'un estimateur se décompose en deux grandeurs, la variance et le biais : Nous avons construit dix échantillons de 5% de la jointure pour chacune des méthodes d'échantillonnage. Nous avons calculé la valeur moyenne de la précision, du biais et la variance des estimateurs des fréquences des valeurs de la clé de jointure. Échelle : x'=log(10 9.x)

17 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Conclusion Nous avons proposé une méthode d'échantillonnage d'une jointure par hachage permettant de contrôler les ressources mémoire utilisées. Les résultats obtenus sur nos expérimentations montre qu'avec trois fois moins de ressources mémoire, nous obtenons la même qualité d'estimation que la méthode triviale, qui donne le résultat optimal.

18 research & development © France Telecom France Telecom Group EDA/2007/Raphaël Féraud Perspectives L'échantillonnage d'une équijointure sur clé étrangère n'est qu'une étape vers l'échantillonnage d'un entrepôt de données : Il y a potentiellement 2 K jointures dans une base de données contenant k tables ! L'échantillonnage d'une jointure de flux de données est une brique technologique importante pour un Data Stream Manager System : La méthode proposée nécessite une lecture complète des tables avant de tirer l'échantillon !


Télécharger ppt "Research & development © France Telecom research & development © France Télécom Vers l'échantillonnage d'un entrepôt de données Raphaël Féraud et Fabrice."

Présentations similaires


Annonces Google