La grille et DataGRID une nouvelle génération d'infrastructure informatique Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon fabio@in2p3.fr IReS, 4 octobre 2002
Table des Matières Le concept de grille Architecture de grille Cas concret Infrastructure DataGRID Applications Perspectives Conclusion F. Hernandez
Le concept de grille Infrastructure matérielle et logicielle visant à fournir un accès sûr, cohérent, économique à des ressources informatiques hétérogènes distribuées géographiquement gérées de façon décentralisée Intégration massive des ressources Diversité des ressources calculateurs, dispositifs de stockage, sources de données, ressources humaines, ... F. Hernandez
Le concept de grille (suite) Diversité des besoins performances, bande passante, latence, sécurité, intégrité, fiabilité, capacité de calcul, disponibilité de services logiciel Accès à des services standards via des interfaces standards comment cacher l'hétérogénéité sans compromettre les performances? Pour se généraliser, les services proposés doivent être accessibles à des coûts intéressants et avec une certaine "qualité de service" (disponibilité, prévisibilité, ...) F. Hernandez
Le concept de grille (suite) Plusieurs profiles d'applications Calcul intensif distribué utilisation d'un grand nombre des ressources pour la résolution de problèmes qui ne peuvent être abordés avec les capacités locales Analyse des grandes quantités de données exploration des données géographiquement dispersées Calcul à la demande satisfaire des besoins ponctuels de puissance de traitement Travail coopératif visualisation de données, formation, conception distribuée F. Hernandez
Architecture de grille Diversité des applications et des utilisateurs (profile, nombre, ...) supposent des solutions différentes architectures différentes avec des services communs et plus ou moins de recouvrement Services de base authentification: établir l'identité de l'utilisateur autorisation: établir le droit d'un utilisateur à utiliser des ressources (données, CPUs, ...) communication entre tâches F. Hernandez
Architecture de grille (suite) Services de base (suite) contrôle de tâches: création, suspension, arrêt de l'exécution politiques d'allocation de ressources comptabilité de l'utilisation de ressources et mécanismes de paiement mécanismes de protection des tâches/données services de stockage (fichier, mémoire virtuelle, base de données, ...) F. Hernandez
Architecture de grille (suite) Problèmes inhérents authentification unique spécification des ressources nécessaires pour une tâche localisation des ressources disponibles gestion des autorisations réservation des ressources accès aux données distantes collecte de résultats comptabilité ... F. Hernandez
Architecture de grille (suite) Complexité des applications parallèles, interactives, multimédia, ... Les caractéristiques des ressources est très variable (temps, espace) Absence de contrôle global de l'infrastructure comment proposer et garantir un service cohérent et un certain niveau de qualité? Problèmes inhérents aux politiques de chaque site (fournisseur de ressources) sécurité, autorisations, comptabilité, budget F. Hernandez
Architecture de grille (suite) : E.g., Resource-specific implementations of basic services E.g., transport protocols, name servers, differentiated services, CPU schedulers, public key infrastructure, site accounting, directory service, OS bypass Resource-independent and application-independent services authentication, authorisation, resource location, resource allocation, events, accounting, remote data access, information, policy, fault detection Distributed computing toolkit Grid Fabric (Resources) Grid Services (Middleware) Application Toolkits Data- intensive applications Collaborative Remote Visualisation Problem solving instrumentation Applications Chimie Biologie Cosmologie High Energy Physics Environnement F. Hernandez
DataGRID Titre: Research and Technological Development for an International Data Grid Projet européen conduit par la communauté de physique des particules organisée autour du CERN Subvention: ~10 M€ sur 3 ans (2001-2003) pour des salaires partenaires apportent au moins autant Objectif: "To enable next generation scientific exploration which requires intensive computation and analysis of shared large-scale databases, from hundreds of terabytes to petabytes, across widely distributed scientific communities." F. Hernandez
DataGRID: objectif Développer un prototype du logiciel intermédiaire (middle-ware) Déployer une plate-forme de test du système Physique des particules Applications bio-médicales Observation de la terre Permettre le transfert des technologies de ce type vers l'industrie F. Hernandez
DataGRID: partenaires Partenaires principaux Partenaires associés En France: Comissariat à l'Energie Atomique (CEA-Saclay), Communication et Systèmes D'autres instituts de recherche/sociétés en Italie, Finlande, Espagne, Suède, Hongrie, Grande Bretagne, Pays Bas F. Hernandez
DataGRID: organisation Groupes de travail (work packages) Middleware WP1: Workload management (Francesco Prelz - INFN) WP2: Data management (Peter Kunszt - CERN) WP3: Monitoring services (Steve Fischer – RAL) WP4: Fabric management (Olof Barring – CERN) WP5: Mass storage management (John Gordon – RAL) Infrastructure WP6: Integration testbed (François Etienne – CNRS/IN2P3) WP7: Network services (Pascale Primet – CNRS/ENS Lyon) F. Hernandez
DataGRID: organisation (suite) Groupes de travail (suite) Applications WP8: High-Energy physics applications (Franck Harris – LHCB-Oxford/CERN) WP9: Earth observation science application (Luigi Fusco – ESA) WP10: Biology science application (Vincent Breton – CNRS/IN2P3) Management WP11: Dissemination (Maurizio Lancia – INFN) WP12: Project Management (Fabrizio Gagliardi – CERN) F. Hernandez
DataGRID: technologies de base Utilisation de Globus comme middle-ware de bas niveau Boîte à outils généraliste pour la construction de grilles de calcul développée conjointement entre Univ. Chicago/Argonne et Univ. Southern California Séparation entre services locaux (à un site/domain) et services globaux (pour la grille) Services de base utilisés dans DataGRID service d'information sécurité (authentification) gestion de ressources gestion des fichier distants F. Hernandez
DataGRID: état d'avancement Des composants middle-ware au dessus de Globus Plate-forme de test déployée sites: CERN (CH), CC-IN2P3 (FR), CNAF (IT), NIKHEF (NL), RAL (UK) première version (Testbed 1) en mars 2002 pour la démonstration aux rapporteurs de l'UE deuxième version en cours de déploiement plusieurs releases entre temps Tests grandeur réelle par plusieurs applications Physique (Atlas, CMS, D0,...), Bio-médicales (génomique), observation de la terre (analyse de données de satellite) F. Hernandez
DataGRID: état d'avancement (suite) F. Hernandez
DataGRID: état d'avancement (suite) Quelques services de base en place Authentification utilisation de l'infrastructure de sécurité proposée par Globus (certificats X509 et échanges chiffrés) autorités de certification pour délivrer des certificats aux individus/machines participant au projet Soumission et ordonnancement des travaux batch service central d'ordonnancement s'appuyant sur les gestionnaires locaux à chaque site Gestion des données catalogue et moyens d'accès aux données F. Hernandez
DataGRID: vue d'ensemble IN2P3 Computing Center ……. …… 2 1 3 Resource Broker 4 ……. …… Data transfer service User Home Laboratory Data localization service DataGRID Services CERN Computing Center F. Hernandez
DataGRID: vue d'ensemble (suite) JDL Replica Catalog Input Sandbox Job Submission Service Computing Element 1b Job Submit Event 2a 3a 4a Job Status Ressource Broker 3b 4b Site Information Provider Site Logging & Bookeeping Servicec F. Hernandez
DataGRID au CC-IN2P3 Toute la plate-forme sous Linux est accessible depuis la grille BQS (le gestionnaire de batch) gère tous les jobs Les jobs grille s'exécutant à Lyon peuvent accéder aux données de la même façon que les jobs conventionnels données dans HPSS/Xtage accessibles La partie User Interface est installée sur toutes les machines Linux Bonne intégration avec la plate-forme de production existante données (AFS, HPSS, Xtage, ...) calcul F. Hernandez
DataGRID au CC-IN2P3 (suite) Batch Scheduler BQS Computing Element Batch Workers Storage Element Globus Gatekeeper HPSS ……. …… Xtage F. Hernandez
DataGRID au CC-IN2P3 (suite) Gatekeeper Computing Element F. Hernandez
DataGRID au CC-IN2P3 (suite) F. Hernandez
DataGRID au CC-IN2P3 (suite) Fourniture des services transversaux pour le projet Mise en place et exploitation du repository central du logiciel pour tout le projet ligne de commande (local et remote) et interface web Exploitation du serveur central de distribution du logiciel Développement d'outils de vérification de la conformité aux règles du projet cibles des Makefile, nomenclature, numérotation des versions F. Hernandez
DataGRID au CC-IN2P3 (suite) Développement d'outils pour la construction du logiciel faite toutes les nuits sur RedHat 6.2 RedHat 7.2 en cours de déploiement Développement d'outils pour faciliter l'installation génération et publication de listes des RPMs nécessaires pour installer un composant (UI, WN, CE, ...) F. Hernandez
Applications Atlas souhaite utiliser les outils de grille pour ses Data Challenges DC1 (octobre 2002) sera fait pour une partie substantielle sur la grille Atlas-EDG Task Force créée en août 2002 pour évaluer la faisabilité d'utiliser des outils grille pour les DC aider l'expérience à adapter son logiciel à cette infrastructure traitement de 5 datasets 2000 sur le testbed DataGRID + Karlsruhe continuer avec d'autres datasets si succès input: événements générés sous la forme de fichiers ROOT F. Hernandez
Applications (suite) Atlas (suite) traitement: simulation avec le logiciel Atlas v3.2.1 pré-installé sur les sites participants à partir d'une distribution commune installation faite par les administrateurs de site output: événements simulés sous la forme de fichiers ZEBRA plus histogramme HBOOK et logs (stdout, stderr) total: 9 GB input, 100 GB output, 2000 heures de CPU bilan partiel: possibilité d'exécuter des tâches et de transférer des données avec une seule "connexion à la grille" possibilité de repartir la charge sans se connecter explicitement sur chaque site pilotage centralisé de la production rendu plus aisé F. Hernandez
Applications (suite) Atlas (suite) CMS bilan partiel (suite) infrastructure en développement è instabilité interruptions de transferts des gros fichiers (> 1.3 GB) quelques jobs perdus par le système instabilité du système d'information CMS production de 200K événements à partir de nov. 2002 sans Objectivity durée: 3 ou 4 semaines sites: CERN, Lyon, X, CNAF (Bologne), Padoue, RAL, IC ressources nécessaires: 100 workers, 300 GB disque F. Hernandez
Applications (suite) Babar EDG installé à SLAC, Imperial College et Lyon possibilité de soumission de jobs sur ces sites travail actuellement sur l'implémentation de leur catalogue de méta-données séparation d'un job en tâches qui seront exécutées là où se trouvent les données évaluation de SRB comme catalogue local des données de chaque site outil de soumission transparente des jobs sera mis à disposition pour les beta-testeurs F. Hernandez
Applications (suite) LHCb des nouveaux outils de production en cours de déploiment au CERN, Lyon, NIKHEF, CNAF (Bologne), RAL et 10 autres sites tests de base génération de 500 événements stockage sur un Storage Element stockage des logs et histogrammes au CERN reconstruction avec stockage de la sortie dans CASTOR utilisation des données dans CASTOR pour l'analyse (hors grid) F. Hernandez
Applications (suite) Rugbi mise en oeuvre d'une grille pour la bio-informatique: fourniture des services pour l'analyse à grande échelle des structures des protéines utilisateurs: les laboratoires académiques, les sociétés de biotechnologie, des PME du Biopôle Clermont-Limagne partenaires: IN2P3, CS, IBCP, Univ. Blaise Pascal, Biopôle Clermont-Limagne F. Hernandez
Applications (suite) OpenPlast grille informatique pour la simulation de la mise en forme des polymères utilisateurs: industriels de la plasturgie (Rhône-Alpes est la première région de la plasturgie en France) et laboiratoires partenaires: C-S, Ecole Supérieure de Plasturgie, IN2P3, Pôle Européen de Plasturgie projet RNTL F. Hernandez
Perspectives "Mouvance grille" est dans ses débuts Travaux sur les grilles et les services web commencent à converger OGSA: Open Grid Software Architecture évolution de Globus participation active de l'industrie définition et premières implémentations des interfaces et comportements standards d'un service grille implémentation basée sur les services web (XML, SOAP, UDDI, WSDL, ...) indépendance du langage nouvelles opportunités pour les fournisseurs de service F. Hernandez
Conclusions Emergence d'une nouvelle infrastructure sur laquelle la science et l'économie seront bâties Grille est appelée à un succès plus grand encore que le web Beaucoup de travail reste à faire pour que l'utilisation de cette infrastructure soit réellement facile Des nouveaux services vont naître F. Hernandez
Pour en savoir plus... …sur le projet …sur le testbed http://www.eu-datagrid.org …sur le testbed http://marianne.in2p3.fr …sur l'état d'avancement au CCIN2P3 http://ccgrid.in2p3.fr …sur le logiciel DataGRID http://datagrid.in2p3.fr …sur Globus http://www.globus.org F. Hernandez
Questions ? F. Hernandez
Exemples: soumission de job Connexion à la grille grid-proxy-init Description du job JDL: langage de description des jobs Fichier HelloWorld.jdl Executable = "/bin/echo"; Arguments = "Hello World"; StdOutput = "hello.out"; StdError = "hello.err"; OutputSandbox = {"hello.out","hello.err"}; F. Hernandez
Exemples: soumission de job (suite) dg-job-submit HelloWorld.jdl Etat du job dg-job-status <jobId> Récupération de la sortie dg-job-get-output <jobId> F. Hernandez
Exemples: transport de l'exécutable Description du job Executable = "MyExecutable"; Arguments = "1234 test"; StdOutput = "output"; StdError = "error"; InputSandbox = "/home/fabio/MyExecutable"; OutputSandbox = {"output","error"}; Requirements = Member(other.RunTimeEnvironment, "CC-IN2P3"); F. Hernandez