PetaSky: Expérimentations avec HadoopDB et Hive 1 Amin Mesmoudi.

Slides:



Advertisements
Présentations similaires
Projet de Virtualisation dans le cadre d’un PCA/PRA
Advertisements

Montée en charge avec SQL Server 2005: bonnes pratiques & performances
Bases de Données XML Natives
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Master de recherche informatique Université de Montpellier 2
Le serveur NAS Network Attached Storage, (NAS) désigne un périphérique de stockage relié à un réseau dont la principale fonction est le stockage de données.
Serveur NAS storex.
CLUSTERING Grappe d'ordinateurs.
Les jeux persistants massivement Multijoueurs : problèmes techniques Vincent Roudaut MASTER M2 ESTC/CAM
Jean-François Deverge, Sébastien Monnet
Informatique parallèle hautes performances
Sélection automatique d’index et de vues matérialisées
Système de stockage réseaux NAS - SAN
Bases et Principes de la Virtualisation. Votre infrastructure informatique ressemble-t-elle à cela ? 2.
ARCHITECTURE DES ORDINATEURS
MRP, MRP II, ERP : Finalités et particularités de chacun.
Disponibilité d’une architecture virtualisée avec VMware ESX/ESXi
Cloud Computing et mesures de performances
Services fournis par le SI et technologies associées
Les systèmes multiprocesseurs Ph. Sèvre le 19/12/08.
Annexe E : Administration des disques à tolérance de pannes
LES SUPPORTS INDIVIDUELS D AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B.
Introduction : Présentation de Linux Choix d’une distribution
Eléments pour GridExplorer (GdX). Evalutation de grand système Modélisation Simulation Emulation Exécution (In-situ) Quelle méthodologie pour l'évalutation/test.
Mesure des performances WEB en introduisant un contrôle dadmission.
Tracer la voie de votre environnement vNext Damir Bersinic Conseiller principal en plateformes, Microsoft
L’adaptativité pour un solveur de l’équation de Vlasov
Plan Définitions et exemples Composants de cluster
Bases de données fédéréEs hétérogènes
Yonel Grusson 1 SQL SERVER 2000 CLIENT/SERVEUR. Yonel Grusson 2 PLAN Présentation Installation Résultat de l'installation L'administration –Par le SQL.
Le réseau Data Center « Hadoop-ready » by
“Software defined Storage”
EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.
D. E ZEGOUR Institut National d ’Informatique
Offre DataCenter & Virtualisation Laurent Bonnet, Architecte Systèmes Alain Le Hegarat, Responsable Marketing 24 Novembre 2009.
Les différents modèles d’architecture technique
1 Cours Installation & Configuration de machines Linux Formation GTI Ahmed Jebali.
Optimisation par la virtualisation, et réflexions pour aller au-delà
Architecture des ordinateurs, Environnement Numérique de Travail
Votre devis. Sommaire I ) Configuration en montage personnalisé II ) Configuration pré-montée III ) Les Netbooks IV ) Les ordinateurs portables.
Plate-forme bioinformatique de OUEST-genopole® Amnesix : Serveur de sauvegardes Stockage réseau Sun StorEdge(4 To) Matrix Cluster Alambix : Sun Fire
Réunion ANR - GCPMF 15/01/2008 Xavier WARIN (EDF R&D - OSIRIS)‏ Stéphane VIALLE (SUPELEC - IMS)‏ Constantinos MAKASSIKIS (SUPELEC - IMS, LORIA - AlGorille)‏
La mise en place d’une infrastructure performante ne s’invente pas …
Solution Virtualisation Full 12Go Vous avez un projet de migration de serveurs physiques vers des machines virtuelles Cyceo Informatique vous propose une.
Intégration des Tableaux Multidimensionnels en Pig pour
Réponse à l'appel d'offre de la société GSB
Plateforme de Calcul Intensif “HPC” de l’lnstitut Pytheas M. Libes, C. Pinazo Juin 2015.
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Réalisé par : Encadré par : - Keheli adnane Pr L.Lamrini
OCS Inventory BENCHIKH.
Veille Technologique SGBD Open Source PostgreSQL.
HEPIX N. Neyroud 1.
INTRODUCTION EMC Avamar : Sauvegarde et restauration rapides et efficaces grâce à une solution logicielle et matérielle complète. Intégrant une technologie.
Architecture matérielle Bilans et perspectives. Les processeurs Intel Core I7 : 6 coeurs AMD : repasse dans le vert - o processeurs Phenom 4 ou 6 coeurs.
Introduction Rappels : Accès serveurs Unix Ensimag via ssh et sftp
Historique L’évolution des architectures du début à nos jours.
Calcul pour le spatial & le CC-IN2P3 Jean-Yves Nief (CC-IN2P3)
Vendre l’offre StorageWorks GV13 Identifier les opportunités.
Proposition de possibilité d’évolution de nos spécialités Deux projets (liés) : Projet 1 : Informatique Computationnelle – Etudiants 4 e et 5 e IR Projet.
Equipe Projet DOLPHIN 03/04/08.
Plateforme de Calcul Intensif “HPC” de l’lnstitut Pytheas M. Libes UMS 3470 Pytheas C. Pinazo UMR 7294 MIO Juin 2015.
Hébergement d’une infrastructure de Cloud Expérience d’un laboratoire Guillaume Philippon.
Amin Mesmoudi. Les Besoins LSST en stockage et accès aux données (1/2) Stockage: 2 TableTaille#enregistrements#colonnes (arité) Object109 TB38 B470 Moving.
Journées informatique IN2P3/Dapnia, Lyon Septembre 2006 Consolidation des serveurs par virtualisation Retour d’expérience sur l’utilisation de VMware.
Rappel : les différentes architectures de stockage Attachement direct NAS SAN.
1DSM - DAPNIA / MW0901 Lustre au DAPNIA. 2DSM - DAPNIA / MW0901 Machines utilisées –2 PC DELL de bureau optiplex GX280 : NODE08 : P4 à 3,2 Ghz – 2Mo de.
Evaluation de requêtes Quelques résultats préliminaires 1 Amin Mesmoudi.
Transcription de la présentation:

PetaSky: Expérimentations avec HadoopDB et Hive 1 Amin Mesmoudi

Objectifs généraux 140 PB Proposer une architecture distribuée capable de stocker 140 PB de données secondes jours Pouvoir évaluer aussi bien des requêtes simples (quelques secondes de calculs) que des requêtes complexes (des jours de calculs) (>> 1 PB Possibilité d’accéder à des objets en utilisant des indexes ou en procédant à un parcours (scan) complet des grosses tables (>> 1 PB) 2

Petasky: Où est-ce qu'on en est ? (1/3) Mise en place d’une plateforme de gestion de données avec 50 machines Virtuelles. Déploiement de systèmes de gestion de données: – Centralisés: Mysql, PostgresQL et Oracle – Distribués (utilisant du Map/Reduce): Hive et HadoopDB Caractérisation des requêtes selon la difficulté du traitement – Extraction d’un jeu de données de 13 requêtes types compatibles avec les systèmes existants Caractérisation et analyse des données issues du Projet Petasky 3

Développement d’un outil de génération de données qui permet de préserver les caractéristiques de données réelles – 4 To de données ont été générées afin d’évaluer la capacité des systèmes existants (centralisés et distribués) Développement d’un benchmark comprenant: – Un outil de déploiement massif des systèmes distribués sur un cluster de plusieurs centaines de machines – Des métriques d’évaluation des systèmes existants: l’accélération, le passage a l’échelle, la latence et la tolérance aux pannes 4 Petasky: Où est-ce qu'on en est ? (2/3)

Evaluation expérimentale de la capacité des systèmes existants à gérer les données et les requêtes Petasky: – Utilisation de nos métriques de Benchmarking – Evaluation des techniques d’optimisation disponibles (Compression de données, Distribution de calculs, Indexation, Utilisation de cache, …) 5 Petasky: Où est-ce qu'on en est ? (3/3)

Matériels La plateforme est constituée de 10 machines DELL C6220 Configuration matérielle des machines 24 processeurs (Xeon E avec 6 cœurs) 8X6 disques 1To SATA 7200rpm 2X2 disques 1To SATA 7200rpm 3X64 Go de RAM 3X92 Go de RAM 2X128 GO de RAM 1X240 Go de RAM 1X32 Go de RAM (contrôleur) Taux de transfert Réseau: 2 Gb/s Virtualisation: OpenStack (Libvirt, Ceph, KVM, …) OS: Ubuntu Deux clusters de 25 et 50 machines virtuelles Chaque machine: 8 Go de RAM, 2X Intel et 300 Go d’espace de stockage 6 Resourcedisponible RAM1 TO Espace Disque52 TO #Processeurs240 Description de la plate-forme

Quelques Résultats (1/3) Hive : – Purement Map/Reduce – Indexation globale et distribuée – Temps proportionnel à la volumétrie – 16 heures pour 2 TB / 50 machines HadoopDB : Map/reduce + PostgreSQL – Partitionnement personnalisé – Tolérance aux pannes non garanti – Indexation gérée par nœud (parallélisable) – minute / 5 index 7

Quelques Résultats (2/3) Hive > HadoopDB Sélection avec index Group by sur requêtes non sélectives (HadoopDB ne profite pas des index) Jointures (traitement parallélisé) HadoopDB > Hive Sélection sans index Group By sur requêtes sélectives; avec optimisation sur l'attribut de partitionnement Order by (non parallélisable en Map/Reduce) 8

Quelques Résultats (3/3) 9 Sélection sans index Sélection avec index Pour plus de détails:

Prochaines étapes … Passage l’échelle en termes de machines: – 100, 200 et 300 machines Passage a l’échelle en termes de volumétrie: – 4, 8 et 16 To de données Outils: – Hive, HadoopDB et Oracle RAC Métriques: – Performances, accélération et tolérance aux pannes Impact de l’indexation, de la compression, d’utilisation du cache et du partitionnement 10

Configuration nécessaire Type de machines: physiques ou virtuelles Chaque machine – Go de RAM – 200 – 300 Go d’espace de stockage – OS: Ubuntu ou Debian – Hadoop 1.1 et Hadoop 0.19 – PostgreSQL Le Master sera équipé de HadoopDB et Hive Accès aux machines via SSH 11