Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement
F. Hernandez2 Table des Matières Objectifs Stratégie Calendrier Etat d’avancement Calcul Stockage Applications Etapes suivantes
F. Hernandez3 Objectifs Fournir le plus grand nombre possible de ressources de calcul et de stockage pour les 4 expériences LHC Contexte Expériences souhaitent utiliser les ressources du CC avec ou sans le middleware de grid (LCG dans notre cas) Contraintes Plate-forme LINUX en exploitation au CC est RH7.2 Les différences avec RH7.3 sont minimes Middleware LCG-2 est supporté officiellement uniquement sur RH7.3 Le middleware marcherait sur RH7.2 Les applications au dessus du middleware LCG exigent RH7.3 (?)
F. Hernandez4 Objectifs (suite) Contraintes (suite) Les expériences prenant des données actuellement (D0, BABAR) ont besoin de RH7.2 Impossibilité de migrer immédiatement toute la plate-forme de production vers RH7.3 Le suivi de la production des expériences LHC via LCG doit être au même niveau de qualité que celui de la production « conventionnelle »
F. Hernandez5 Stratégie Configurer la plate-forme batch pour accepter plusieurs systèmes différents en production Mécanisme utilisé lors des migrations des OS Avantages Soumission conventionnelle des jobs reste possible Il faut fournir les bons arguments lors de la soumission du job Jobs soumis via LCG sont dirigés exclusivement sur les worker nodes configurés pour LCG Tous les jobs sont gérés par BQS Suivi de la production identique (mêmes outils, mêmes personnes, mêmes mécanismes, …)
F. Hernandez6 Stratégie (suite) BQS Master …… WN RH7.2 WN RH7.3/LCG-2 Gatekeeper Local User Grid User Middleware
F. Hernandez7 Calendrier Février 04Mars 04 Avril 04 18/02: Démarrage déploiement LCG-2 Beta 01/04: Installation via LCFGng OK Problèmes avec l’installation automatisée 23/03: Installation manuelle UI et WN 02/04: Procédure d’installation WN prête 08/04: Version LCG- 2_0_0 officiellement disponible 26/04: Modifications de BQS terminées 24/04: Procédure installation de BQS sur CE
F. Hernandez8 Etat d’avancement: Calcul Version LCG-2_0_0 Computing Element de validation déployé Installation automatisée via LCFGng du gatekeeper (CE) et de l’UI Installation « manuelle » de la couche LCG-2 sur la plate-forme RH7.3 standard CC-IN2P3 (AFS, compilateurs, ….) sur un ensemble de machines de test Mécanisme d’installation automatisée de la partie LCG-2 WN en cours de finalisation Soumission des jobs vers BQS opérationnelle Interaction Globus-BQS (i.e. jobmanager) en fonctionnement Jobs LCG sont dirigés vers les workers avec la couche LCG-2 WN installée Information Provider de BQS en cours de modification Le schéma a légèrement changé depuis DataGRID Pas de documentation: il faut faire de la « rétro ingénierie »
F. Hernandez9 Etat d’avancement: Stockage Intégration GridFTP et HPSS Objectif: monter un Classic-SE avec HPSS comme dispositif de stockage au lieu de disque local Des transferts des fichiers depuis et vers HPSS sont possibles Performances ne sont pas satisfaisantes pour être une solution à long terme Des détails de syntaxe à valider pour les interactions avec le Replica Manager Besoin du système d’information du site opérationnel pour pouvoir valider toute la chaîne Contact avec E. KNEZO (CERN) Intégration de dCache et HPSS faite au CC-IN2P3 Il manque la couche SRM: en attente de packaging officiel de dCache par LCG En contact direct avec M. ERNST (DESY/FNAL)
F. Hernandez10 Etat d’avancement: Stockage (suite) Implémentation de SRM pour HPSS: HRM La licence était le point de blocage pour démarrer les tests: problème résolu temporairement HRM utilise une version ancienne de Orbacus (CORBA ORB), un outil devenu payant depuis La partie Orbacus sera remplacée par des outils non soumis à licence payante Des tests sont en cours: HRM utilise pFTP (Parallel FTP) pour interagir avec HPSS A terme, nous préférerions utiliser RFIO Nouvelle version sera disponible en 4Q2004: nous pourrons intégrer notre interface RFIO D’un point de vue architecture, HRM correspond mieux à nos besoins Les tests permettront de valider cet outil pour notre site
F. Hernandez11 Etat d’avancement: Stockage (suite) SRB Une « proof of concept » faite par le CC-IN2P3 pour CMS SRB est interfacé avec HPSS et utilisé en production par Babar et SuperNovae Expérience opérationnelle avec cet outil Résultat: il est possible d’utiliser SRB depuis des jobs LCG Problème: le Replica Manager ne sais pas interagir avec SRB SRB n’est pas supporté par LCG
F. Hernandez12 Etat d’avancement: Applications Stratégie Utilisation d’AFS pour le software des expériences Accessibilité à partir de tous les workers Gestion centralisée: installation, mise à jour, réplication, … Installation en cours du soft Atlas (v8.0.1) Faite par D. Bouvet avec information fournie par F. Derue et K. Bernadet
F. Hernandez13 Etapes Suivantes Déploiement de LCG-2 WN sur un ensemble de workers nodes sous RH7.3 (combien?) Enregistrement de notre site sur la TestZone de LCG-2 Tests du Classic-SE avec HPSS Utilisation du disque local si tests non concluants Fourniture de l’outil d’installation du logiciel des expériences via un job grid Gestion des autorisations et automatisation de l’installation Tests de toute la chaîne de soumission avec des jobs Atlas
F. Hernandez14 Equipe LCG Nadia Lajili (Grid Management) Yannick Perret (Fabric Management) Lionel Schwarz (Storage Management) Yves Fouilhé (Batch Scheduler) Philippe Olivero (BQS Information Provider) Pascal Calvat/Jean-Yves Nief (SRB) David Bouvet (EGEE-HEP Grid Applications) Fabio Hernandez (Coordination, BQS jobmanager, AFS integration)
F. Hernandez15 Questions