Grid-Computing et gestion massive de données Yves Denneulin Laboratoire ID, Grenoble Jean-François Méhaut Laboratoire GRIMAAG, Pointe-à-Pitre et Schoelcher.

Slides:



Advertisements
Présentations similaires
CGP2P, école des mines Sous-projet V La participation du LAL au projet CGP2P DataGRID CGP2P.
Advertisements

« Les Mercredis du développement » Introduction Office « 12 » Présenté par Bernard Fedotoff Microsoft Regional Director Agilcom.
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Microsoft Office Groove Le contexte Une utilisation des postes de travail en très grande évolution chez les professionnels. Des lieux de travail.
- Couche 7 - Couche application. Sommaire 1)Introduction 1)DNS 1)FTP et TFTP 1)HTTP 1)SNMP 1)SMTP 1)Telnet.
Le Grid Computing Par Frédéric ARLHAC & Jérôme MATTERA.
Stockage dans DIET Groupe de travail du 16 décembre 2002.
Reference Model of Open Distributed Processing
CC-Lyon le 21/12/01VO et outil de maj des grid-mafile VO et outil de mise à jour des grid-mapfile
WP9 – Earth Observation Applications – n° 1 Rapport du WP9 ESA, KNMI, IPSL Présenté by L. Peltier, IPSL.
Septembre 2001Y. Schutz - ALICE / WP6 France1 Activités GRILLE dALICE.
Grid France – CC In2p3 – 19/07/2001 Travaux du WP4
Etat du site Datagrid à lIPSL 1. sur la machine Amundsen : Installation de linterface Utilisateur (UI) et tests de fonctionnalités réussis Monitoring réseau.
PROJET DATAGRID À lIPSL (Pôle Données) C. Boonne Réunion DataGRID - 31/01/ Lyon.
Nadia LAJILI DataGRID WP6 - Testbed Integration-BILAN Lyon, 12 Juillet 2001.
TESTGROUP ORGANISATION ACTIVITE OUTILS CONCLUSION.
TOOLKIT INSTALLATION Disponible pour i686 uniquement sur marianne. ( Version unique pour.
LCG DATAGRID - France 8 Juillet 2002 LCG : LHC Grid computing - qui, quoi, quand, comment ? Quoi ? But : préparer l'infrastructure informatique des 4 expériences.
User Support Sophie Nicoud DataGrid France – CPPM 22/09/02.
18 avril 2002réunion Datagrid France1 E-toile Plate-forme RNTL 2001 Environnement matériel et logiciel pour le développement et l expérimentation de grille.
DataGrid Revue Résumé de la seconde revue européenne du projet Datagrid.
Grid Information Index Service D. Calvet, M. Huet, I. Mandjavidze DAPNIA/SEI CEA Saclay Gif-sur-Yvette Cedex.
Nadia LAJILI STATUS REPORT WP6 Workshop Oxford Lyon,le 19 Juillet 2001.
MDS 2 Michel Jouvin LAL Pourquoi changer ? Sécurité –MDS non intégré avec GSI –Pas didentification des serveurs ni des utilisateurs.
Intégration du système de production LHCb sur la DataGRID V. Garonne, CPPM, Marseille Réunion DataGRID France, 13 fv fév
NFE 107 : Urbanisation et architecture des systèmes d'information
Rennes, le 18 septembre 2006 Support du paradigme maître-travailleur dans les applications à base de composants Tâche 2.2 Hinde Bouziane Réunion LEGO.
Plateforme de Calcul pour les Sciences du Vivant Le Système dInformation de gLite.
ATLAS Data Challenges. Les Data Challenges (DC) en français Challenges des Données ont pour but de Valider: –le modèle dorganisation et dutilisation des.
Soutenance de stage de fin d’études
1 Grille de calcul et physique des particules Vincent Garonne CPPM, Marseille Novembre 2003 Contenu de la présentation Etat de lart : Grille de calcul.
1 CGP2P XtremWeb :mise en œuvre et management Laboratoire de laccelerateur lineaire, Paris Sud University, Orsay, France
LEGO – Rennes, 18 Septembre 2006 Un outil de monitoring pour le déploiement dynamique de JuxMem Loïc Cudennec IRISA / INRIA, PARIS project-team Stage de.
Vue d'ensemble Configuration d'adresses IP
4 - Annuaires Les Annuaires d ’Entreprises Offres et solutions
Active Directory Windows 2003 Server
GDS – Paris, 13 Octobre 2006 Un outil de monitoring pour le déploiement dynamique de JuxMem Loïc Cudennec IRISA / INRIA, PARIS project-team Stage de M2RI.
Partage de mémoire à très grande échelle sur des réseaux pair-à-pair
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
31/01/2001Réunionn WP6-Y. Schutz (SUBATECH) 1 Simulation-Reconstruction ALICE Une application pour le TestBed 0 ?
Plan Définitions et exemples Composants de cluster
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
EGEE is a project funded by the European Union under contract IST Noeud de Grille au CPPM.
Projet LCG: Déploiement Pierre Girard EGEE/LCG ROC EGEE/LCG site deployment Centre de Calcul de l’IN2P3 LCG France Lyon, 14 décembre.
1Auteur : Oleg LODYGENSKY XtremWeb-HEP Atelier Opérations France Grille Lyon – Villeurbanne 13 et 14 octobre.
P2pWeb Une boite à outils pour construire un réseau coopératif d’hébergement de site Web –Réseau coopératif réseau physique de nœuds sur l ’Internet réseau.
CMS ATLAS LHCb CERN Tier 0 Centre at CERN National Centres Lab a Russia Lab c Uni n Lab b Manno Canada Uni y Uni x Tier3 physics department  Ge  Germany.
Résumé CHEP 2010 Distributed processing and analysis Grid and cloud middleware Thèmes : 1.
Réunion Toulouse Data Node GIEC/IPCC - Prodiguer Lundi 23 novembre Sébastien Denvil Pôle de Modélisation, IPSL PRODIGUER un nœud de distribution.
Tier1 at the CC-IN2P3 March Current state at the CC-IN2P3 storage, computation, network...
Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
Réunion calcul simulations GIEC/IPCC - Prodiguer Lundi 23 Mars PRODIGUER un noeud français de distribution des données GIEC/IPCC Sébastien Denvil.
Un service de partage de données pour DIET : GDS basé sur JuxMem Mathieu Jan Projet PARIS Lyon, 5 décembre 2003.
F. Ohlsson-Malek Data GRID/WP6 meeting Lyon, 8 juillet 2002 ATLAS Data-Grid au CERN et au CCin2p3 F. Ohlsson-Malek, ISN-Grenoble et ATLAS-France.
Gestion des données sur la grille C. Charlot / LLR CNRS & IN2P3 For the European DataGrid Project Team
Module 1 : Vue d'ensemble de Microsoft SQL Server
21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
D0 côté info D0 à FNAL  Données du RunII  Infrastructure matérielle  Infrasturucture logicielle  Monte Carlo à D0 D0 à Lyon  Production Monte Carlo.
Yannick Patois _ Journée du Libre _ 1er Novembre n° 1 Datagrid Une grille de calcul sous Linux Yannick Patois.
Retour d'expérience de l'utilisation du cloud comme infrastructure de service Guillaume PHILIPPON.
Contrôle, configuration et acquisition de données à l’Irfu Laboratoire d’Ingénierie Logicielle pour les Applications Scientifiques.
INFSO-RI Enabling Grids for E-sciencE Les services d’EGEE Fede Eric Inspirée de la présentation de Frédéric Hemmer JRA1 EGEE 1 st.
Projet LCG: Vue d’Ensemble Fabio Hernandez Responsable Technique LCG-France Centre de Calcul de l’IN2P3 Rencontre IN2P3/STIC Grenoble, 25.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
Réunion des sites LCG France- Marseille juin ACTIVITES DU GROUPE ACCOUNTING FRANCE GRILLES Cécile Barbier (LAPP)
Resource allocation: what can we learn from HPC? 20 janvier 2011 Vincent Breton Crédit: Catherine Le Louarn.
EGEE induction course, 22/03/2005 INFSO-RI Enabling Grids for E-sciencE Infrastructure Overview Pierre Girard French ROC deputy.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Monitoring dans EGEE Frederic Schaer ( Judit.
INFSO-RI Enabling Grids for E-sciencE Data management Daniel Jouvenot IN2P3-LAL ORSAY - 02/02/2007.
Transcription de la présentation:

Grid-Computing et gestion massive de données Yves Denneulin Laboratoire ID, Grenoble Jean-François Méhaut Laboratoire GRIMAAG, Pointe-à-Pitre et Schoelcher Les travaux du projet DataGrid

The Beginning of DataGRID The DataGRID project evolved from the conjunction of uthe search for a practical solution to building the computing system for CERN’s next accelerator – the Large Hadron Collider (LHC) uand the appearance of Ian Foster and Carl Kesselman’s book – The GRID – Blueprint for a New Computing Infrastructure

Enabling Worldwide Scientific Collaboration

Considérations techniques… u Applications à gros volumes de données u Enormes besoins de calcul u Utilisateurs répartis sur les différents continents

The Large Hadron Collider Project 4 detectors CMS ATLAS LHCb Capacité de stockage – Raw recording rate 0.1 – 1 GBytes/sec Accumulating at 5-8 PetaBytes/year 10 PetaBytes of disk Puissance de calcul – 200,000 of today’s fastest PCs CERN

Utilisateurs du CERN Europe: 267 institutes, 4603 users Elsewhere: 208 institutes, 1632 users

Observation de la terre u Satellite data u ENVISAT for Ozone Monitoring u Etc.

Biology Applications u Grid-aware bio-informatic platform u Large Scale Comparative Sequence Analysis u Medical imaging u Etc.

DataGrid: objectifs uPartager de grandes quantités de données en utilisant les réseaux actuellement disponibles  Construire une architecture logicielle utilisable  Tester sur des applications réelles Ù Physique des hautes énergies Ù Biol-sciences Ù Observation et étude de la terre

The Data Grid Project - Summary uEuropean dimension  EC funding 3 years, ~10M Euro  Closely coupled to several national initiatives uMulti-science uTechnology leverage –  Globus, Condor, HEP farming  Rapid deployment of working prototypes - production quality  Collaboration with other European and US projects uStatus –  Started 1 January 2001 uOpen –  Open-source and communication  Global GRID Forum  Industry and Research Forum

DataGRID Partners (1) Managing partners UK PPARCItaly INFN France CNRSHolland NIKHEF Italy ESA/ESRIN CERN proj.mgt. - Fabrizio Gagliardi Industry IBM (UK), Communications & Systems (F), Datamat (I)

DataGRID Partners (2) Associate partners Finland- Helsinki Institute of Physics & CSC, Swedish Natural Science Research Council (Parallelldatorcentrum–KTH, Karolinska Institute), Istituto Trentino di Cultura, Zuse Institut Berlin, University of Heidelberg, CEA/DAPNIA (F), IFAE Barcelona, CNR (I), CESNET (CZ), KNMI (NL), SARA (NL), SZTAKI (HU)

Projet Datagrid : les Work Packages

DataGrid Work Packages WP8-10 Applications Grid Services GRAM Grid Fabric CondorPBSInternetLinux Application Toolkits MPICH-G2Condor-G GridFTPMDS SUN WP1& 8-10 sw WP2,3,5,(7) WP4,7

Architecture Globus Applications Core Services Metacomputing Directory Service GRAM Globus Security Interface Heartbeat Monitor Nexus Gloperf Local Services LSF CondorMPI NQEEasy TCP SolarisIrixAIX UDP High-level Services and Tools DUROCglobusrunMPINimrod/GMPI-IOCC++ GlobusViewTestbed Status GASS

Construction du testbed DataGrid u Basé sur Globus u Utilise et étend les services Globus standards u Processus d’intégration, validation et déploiement u Architectures en couches à 2 niveaux  Niveau Fabric : composants pour le middleware seulement, non accessibles par les applications  Niveau « Grid » : composants du middleware Grid Services GRAM Grid Fabric CondorPBSInternetLinux GridFTPMDS SUN

Installation du testbed u Installation automatisée et gestion des nœuds  Serveur de configuration et d’installation (local à chaque site)  Séquence d’installation Ù Boot + DHCP Ù Montage (par NFS) d’un filesystem root distant Ù Installation à partir de ce FS

Testbed Sites Dubna Moscow RAL Lund Lisboa Santander Madrid Valencia Barcelona Paris Berlin Lyon Grenoble Marseille Brno Prague Torino Milano BO-CNAF PD-LNL Pisa Roma Catania ESRIN CERN HEP sites ESA sites IPSL Estec KNMI (>40) -

Groupe middleware u 5 work packages  Gestion de la charge de travail  Gestion des données  Monitoring de la grille  Stockage massif des données  Gestion de la structure

Gestion de la charge de travail u Contexte de la grille  Charge de travail non prévisible  Chaotique Ù Un grand nombre d’utilisateurs indépendants u Thème d’étude  Ordonnancement distribué  Allocation de ressources u Eléments de solution  Disponibilité des données, charge CPU, réseaux  Co-allocation

Solutions mises en oeuvre u Allocation des ressources (CERN)  Gestionnaires de batchs  Scripts de jobs  Système d’informations u Gestion de configuration (CERN)  Stocke toutes les informations de configuration (au sens « système» du terme)  Tout est exprimé en XML  Configuration automatique des machines

Ordonnanceur de grilles uResponsable des choix de placement et d’exploitation des ressources (INFN, Italie) uDeux éléments clés :  Resource broker : choisit un élément (nœud de stockage, de calcul, réseau pour communiquer, etc.) répondant à une requête  Job submission service : exécute (soumission, annulation, surveillance) les décisions prises par le resource broker

Ordonnanceur de grilles (2) uCommunication par le biais de :  Job Description Language (JDL) décrit les jobs ÙMême langage pour la description des besoins (clients) et des ressources (serveur) ÙLangage ClassAds (issue du projet Condor)  Services d’enregistrement (logging) et bookkeeping (persistance) des jobs et de leur status uResource Broker  Développement interne à DataGrid  Fonctionne en distribué ÙUn resource broker par site ÙCoopération entre les brokers

Gestion des données u Granularité  Unité de partage: fichiers  Bientôt : collection de fichiers u Dispositif de réplication  Améliorer l’efficacité des accès  Transparent pour les utilisateurs u Types de fichiers  Physiques  Logiques (un ou plusieurs fichiers physiques,…) u Métadonnées  Statistiques d’accès, monitoring,…

Réplication des fichiers u Deux types de fichiers  Fichier maître (original) créé par le propriétaire  Fichier réplicat (copies) créés par le middleware u Gestionnaire de réplicats et catalogue de réplicats u Service de consistence des réplicats  Répercuter les mises-à-jour sur les réplicats u Mécanisme de synchronisation  Destruction du maître et des réplicats

Système de Gestion des Replicats u Décide de la politique de replication des ensembles de fichiers u Utilise :  Catalogue des replicats  Transfert de fichiers des GSE pour performances u Inclut un module d’optimisation pour minimiser les mouvements de données  Estimation des coûts de duplication, bande passante u Prévue pour la prochaine version, l’outil actuellement utilisée pour cela est manuel : GDMP

Catalogue des réplicats (UK) u Fonctionnement  Fait la correspondance entre un nom logique et un (ou un ensemble) de fichiers physiques  Gère également des métadonnées (taille, heure de modification, propriétaire, …)  S’appuie sur un annuaire LDAP u SQL  Composant d’interface avec des SGDR

Système de gestion du stockage u Gestion du stockage (CERN, RAL/UK)  Interface entre les services grid et les systèmes de stockage sous-jacent  Utilisation des outils globus Ù GSI pour authentification Ù Globus-url-copy Ù GridFTP u Monitoring  En cours de développement

GridFTP uUniversal high-performance file transfer uExtends the FTP protocol with:  Single sign-on ( GSI, GSSAPI, RFC2228 )  Parallel streams for speed-up  Striped access (ftp from multiple sites to be faster)  Clients: gsincftp, globus-url-copy.

Service de stockage (CERN) u Fonctionnement  Gère les GSE (Grid Storage Element) : tout composant permettant de stocker des données  Produit : GDMP (Grid Data Mirroring Package) Ù Développement spécifique à Datagrid Ù Mirroring automatique entre GSE Ù Existence d’un catalogue local pouvant être recopié Ù Commandes : -Put_local, get_local : mise de fichiers dans la base locale -Publish_catalog, get_catalog : exportation, importation de base locale -Replicate_get, replicate_put : push/pull de fichiers vers/de un hôte distant

Service commun d’interfaçage uFonctionnement:  Permet de communiquer avec n’importe quel composant de niveau structure  Exemples : Ù Soumission de jobs  Utilise les composants globus : Ù Gatekeeper Ù Job manager

Autres services uAuthentification et accounting (CERN)  Utilisation complète du GSI  Quelques mécanismes d’automatisation ont été ajoutés ÙOutil de configuration LDAP ÙRegénération périodique des listes d’autorisation ÙOutils visuels de manipulation d’arborescence uIndex des services  Découverte automatique des services fournis par la grille  Pas encore développé, fera partie du prochain testbed

Autres services (2) uInformation et monitoring  Gère toute la connaissance de l’architecture distribuée  Gestion répartie  3 implantations coexistent Ù MDS de Globus Ù Ftree Ù R-GMA implantation du GMA (Grid Monitoring Architecture) proposé par le Global Grid Forum

Conclusion u Expérience en vraie grandeur d’une infrastructure pour le stockage distribué de grandes quantités de données u Ça marche!  Plateforme de test avec plus de 30 sites  Tout n’est pas fini mais des expériences tournent u RPM d’installation/intégration disponible  Supporte RH 6.2 seulement  Validation par le CERN