Intégration des Tableaux Multidimensionnels en Pig pour

Slides:



Advertisements
Présentations similaires
DATA WAREHOUSES Selection of Views to Materialize in a Data Warehouse Himanshu Gupta Department of Computer Science Stanford University Bernigaud Sébastien.
Advertisements

ACubeOLAP Client Olap en ACube.
Using Semantic Caching to Manage Location Dependent Data in Mobile Computing (2000) Qun Ren, Margaret H. Dunham Southern Methodist University Dallas, Texas.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
la visio conférence Université Sidi Mohamed Ben Abdellah
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Les décisions Pourquoi faut-il prendre des décisions?
Laboratoire d'InfoRmatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon.
Vue d’ensemble du Data warehousing et de la technologie OLAP
Informatique parallèle hautes performances
Architecture de machines Principes généraux
Sélection automatique d’index et de vues matérialisées
Un système de médiation basé sur les ontologies
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Optimisation et parallélisation de code pour processeur à instructions SIMD multimedia François Ferrand.
Universté de la Manouba
Riadh Ben Messaoud Kamel Aouiche Cécile Favre
Modèle d’entrepôt de données à base de règles
Les systèmes multiplateformes
Travaux de thèse de Julien FRANCOIS
Initiation aux bases de données et à la programmation événementielle
SUPPLY CHAIN MANAGEMENT et stratégie industrielle
D. E ZEGOUR Institut National d ’Informatique
Les réseaux de neurones à réservoir en traitement d’images
Groupe Supply Chain Midi-Pyrénées Coordination d’entreprises dans la chaîne logistique au niveau du Plan Industriel et Commercial (PIC) Présenté par: Roberta.
Initiation à la conception des systèmes d'informations
P2. Le modèle multidimensionnel est bien adapté pour mesurer des données que l’on peut exprimer comme cela. Le modèle OLAP STD - Notes1.
Projet de Fin d’Etudes – Optimisation SSE 1/28. 1) Présentation du Stage 2) Les instructions SSE 3) Algorithme DSP Audio Conclusion 2/28 Projet de Fin.
Encadré par : nomprénom Travail réalisé par : nomprénom Lycée :
Ceci est une session expert Cette session est déconseillée aux novices des moteurs Analysis Services 2000 ou 2005 La session « Découverte de Analysis.
LE DATA WAREHOUSE.
Un processus pour la prise de décision spatiale.
Prototypage Rapide Du modèle numérique au modèle physique
Solution ERP pour la société CHAUSSFUN
Microsoft Dynamics CRM Online : l’efficacité utilisateur au premier plan
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
L’enseignement de spécialité SLAM
PROJET CAPS Compilation, Architecture, Processeurs Superscalaires et Spécialisées.
Module 1 : Vue d'ensemble de Microsoft SQL Server
Équipe ISLanD Laboratoire GREYC Université de Caen / Basse-Normandie Des outils pour chercher sur la Toile Fête de la Science 2005.
21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.
Logiciel pour la résolution des programmes linéaires : « LINDO »
Dr Mohamed Anis BACH TOBJI
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Alti Copyright All rights reserved.. 2 ALTI Copyright All rights reserved. Sommaire Architecture BI 1 Entrepôt de données 2 Acquisition de.
OPTIMISATION DES PERFORMANCES DES ENTREPÔTS DE DONNÉES VIA LES INDEX
Visualisation des flots optiques en 3D
Des fonctions d’oubli intelligentes dans les entrepôts de données
Création et Optimisation de Modules Audio avec les instructions SSE
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Présentation de projet
Kawthar Karkouda, Nouria Harbi, Jérôme Darmont, Gérald Gavin,
INTRODUCTION AUX BASES DE DONNEES
Systèmes d'information décisionnels
Introduction Module 1.
DATA Warehouse Elabore par: Ajlani Wael Karous Nabil Salhi Mahmoud.
Université Sidi Mohamed Ben Abdellah
Étude de faisabilité Dell pour le Big Data et les analyses Présentation client des solutions AE Juin 2015.
Analyse, élaboration et exploitation d’une Base de Données
Algorithmes parallèles
ECR (Efficient Consumer Response)
Raison d'être de la structure de fichiers : Les premiers travaux : Début des années 1960 : En 1963 : Près de 10 ans plus tard... (à peu près 1973) : Durant.
Cours 11 Entrepôts de données
Introduction SGDBOO Sommaire Définition d’un SGBD (6 services)
Projet de session Par Eve Grenier Dans le cadre du cours SCG Réalisation d’applications en SIG Jeudi le 20 avril 2006.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
PetaSky: Expérimentations avec HadoopDB et Hive 1 Amin Mesmoudi.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

Intégration des Tableaux Multidimensionnels en Pig pour Université Sidi Mohammed Ben Abdellah Faculté des Sciences et Techniques Fès Sais Master Systèmes Intelligents et Réseaux Entrepôt de données Intégration des Tableaux Multidimensionnels en Pig pour l’Entreposage de Données sur les Nuages Encadré par : Prof. LOUBNA LAMRINI Présenté par : OUBELQUE KHALID & TAHBOUN ANASSE

Plan : Partie1 Partie2 Introduction Contexte et motivation Tableaux multidimensionnels dans les nuages Partie2 Validation Perspectives de recherche Conclusion

Introduction

Introduction Les Architectures Hautes Performances visent à faire face aux besoins croissants en terme de calcul et de stockage des applications scientifiques et industrielles Parmi ces architectures, les nuages informatiques (cloud computing) sous l’impulsion d’entreprises telles que Google, Microsoft et Amazon suscitent actuellement une attention particulière.

Introduction Les entrepôts de données et les systèmes OLAP dans les nuages soulèvent différents problèmes liés à la performance du stockage et de l’interrogation : -> facturation à l’utilisation (sur Microsoft Azure [5] le coût CPU pour une heure d’exécution est 0,12 $, le stockage revient à 0,15 $ par Go et par mois, alors que la consommation de bande passante est facturée par Go 0,10 $ en chargement et 0,15 $ en téléchargement.) -> facilité d’utilisation Solution :un algorithme qui transforme les données stockées sous forme de tableaux multidimensionnels suivant le modèle de données Pig . Ceci permet d’exécuter les requêtes OLAP en utilisant le paradigme MapReduce Résultat : réduire de manière significative les coûts de stockage et de calcul pour les requêtes OLAP en accord avec la contrainte des nuages informatiques de facturation à l’utilisation.

Contexte

Contexte MOLAP Gestion de données dans les nuages Les architectures MOLAP utilisent des structures de données multidimensionnelles telles que les tableaux multidimensionnels construits à partir des données originales, qui sont en général stockées dans des bases de données relationnelles. Les architectures MOLAP permettent d’optimiser le stockage pour les entrepôts de données denses à l’aide de ce modèle de stockage de données particulier Gestion de données dans les nuages

Tableaux multidimensionnels dans les nuages

Tableaux multidimensionnels dans les nuages Cas d’étude l’analyse OLAP des ventes de magasins d’une chaîne d’approvisionnement, situés dans chaque département français. Deux dimensions Dimension spatiale : regroupant les départements en régions Dimension temporelle : une hiérarchie jour, mois et année, tandis que la mesure est le profit.

Tableaux multidimensionnels dans les nuages Exemple de requête : Une requête OLAP classique sur ces données est : "quel est le profit total pour chaque région entre 1990 et 1991 ?"

Tableaux multidimensionnels dans les nuages Les avantages de PIG : Il est à noter que contrairement à celles écrites en SQL pour lesquelles un optimiseur est utilisé afin de choisir un plan d’exécution à partir d’éléments d’optimisation, les requêtes en langage Pig Latin correspondent à un ensemble d’instructions dont l’ordre est laissé à la responsabilité de l’utilisateur, ce qui peut conditionner le temps de calcul et par conséquent le prix à payer.

Tableaux multidimensionnels dans les nuages

Tableaux multidimensionnels dans les nuages Algorithme

Validation

Validation Outils utilisés Processeur Intel Core 2 duo à 2,2 GHz RAM de 4Go Toutes les expérimentations ont été réalisées sur un ordinateur possédant:

Validation Espace de stockage FIG – Consommation d’espace de stockage Le système est moins coûteux en terme de stockage.

Validation Conversion de données FIG – Consommation d’espace de stockage Ce coût additionnel peut être considéré comme négligeable.

Validation Optimisation de requête Temps de réponse moyen (secondes) Requête optimisée ( FILTER, GROUP et Agrégation ) 130 Requête naïve ( GROUP, Agrégation, et FILTER ) 190 TAB– Influence de l’optimisation d’une requête Pig sur le temps de réponse L’optimisation proposée accélère le processus d’évaluation

Perspectives de recherche

Perspectives de recherche Optimisation des performances Introduction d’optimiseurs de plan d’exécution pour les requêtes OLAP écrites en Pig Latin. Implémentation d’index pour les entrepôts de données en utilisant le paradigme MapReduce. Définition d’algorithmes de sélection de vues matérialisées basés sur le modèle de facturation à l’utilisation. Intégration de caches pour l’amélioration de la qualité de service et la réduction des coûts d’utilisation.

Perspectives de recherche Modélisation et interrogation Intégration des opérateurs SQL pour OLAP comme opérateurs natifs de Pig Latin. Implantation des propriétés avancées de modélisation multidimensionnelle grâce à Pig.

Conclusion

Conclusion