LCG-France Tier-1 & AF Réunion mensuelle de coordination 21/04/2018 21/10/2010 LCG-France Tier-1 & AF Réunion mensuelle de coordination Pierre Girard Pierre.girard@in2p3.fr
Avancement des chantiers Evénements Plan Nouvelles de LCG Planning des expériences CR du GDB et MB Résultats du site Disponibilité Septembre 2010 Point de vue des VOs LHC Avancement des chantiers Evénements 21/10/2010
Nouvelles de LCG 21/10/2010
Planning des expériences Source:https://espace.cern.ch/be-dep/BEDepartmentalDocuments/BE/2010-LHC-schedule_v1.9.pdf Discussion en cours: “[…] Fine as well to schedule downtimes at any time, independent of LHC status. As Ron reminds, this is good to avoid more than 1 Teir1 down at the same time. […]” Vers un agenda des T1s 21/10/2010
Planning des expériences Exemple: le calendrier d’Atlas http://atlas-agis-dev.cern.ch/agis/calendar/?show_T1=1 Arrêt du CC du 22/09 Rien de prévu encore pour notre prochain arrêt, le 7/12. 21/10/2010
Nouvelles de LCG 21/10/2010
GDB du 13/10/2010 Agenda Matinée « Issues » http://indico.cern.ch/conferenceDisplay.py?confId=72063 Matinée « Issues » Operational Security OPN Troubleshooting Procedures Middleware New Support Units in GGUS Installed Capacity Reporting Après-midi « Data Access and Management Demonstrators » Présentations de différents travaux autour du stockage et de la gestion des catalogues Ex.: MSG/catalogue synchronisation & MSG/ACL propagation, NFS4.1 as access protocol, diverses utilisations de Xrootd, etc. Pas de participant LCG-France/CC-IN2P3 au GDB Collision avec Workshop des opérations « France Grilles » Soyez curieux, jetez un œil aux présentations sur l’agenda 21/10/2010
Rappel: réunion T1/AF le jeudi de la semaine suivante. Il devrait y avoir aussi le MB la veille et un jamboree LHCb dans la même semaine Source: http://indico.cern.ch/materialDisplay.py?contribId=0&sessionId=0&materialId=slides&confId=72063 21/10/2010
GDB du 13/10/2010 Migration vers Nagios en cours pour les VOs LHC. Source: http://indico.cern.ch/materialDisplay.py?contribId=0&sessionId=0&materialId=slides&confId=72063 21/10/2010
GDB du 13/10/2010 Source: http://indico.cern.ch/materialDisplay.py?contribId=4&sessionId=0&materialId=slides&confId=72063 21/10/2010
Installed capacities (suite) Pledges également disponibles en ligne GDB du 13/10/2010 F.C Installed capacities (suite) Pledges également disponibles en ligne http://gstat-wlcg.cern.ch/apps/pledges/ Objectif WLCG : comparaison http://gstat-wlcg.cern.ch/apps/capacities/comparision/ 21/10/2010
GDB du 13/10/2010 F.C Publication par VO à vérifier 21/10/2010
GDB du 13/10/2010 Source: http://indico.cern.ch/materialDisplay.py?contribId=7&sessionId=1&materialId=slides&confId=72063 21/10/2010
GDB du 13/10/2010 Source: http://indico.cern.ch/materialDisplay.py?contribId=5&sessionId=1&materialId=slides&confId=72063 21/10/2010
GDB du 13/10/2010 Source: http://indico.cern.ch/materialDisplay.py?contribId=15&sessionId=1&materialId=slides&confId=72063 21/10/2010
Whole node job submission MB du 12/10/2010 F.C Whole node job submission Outcome of the 2nd workshop on vitualization (June 2010) Requirement confimed by the 4 experiments 2 reasons for this to run the multi-threaded and multi-process applications that are being developed◦ to allow the pilot job frameworks to manage the correct mix of jobs to best optimize the entire node resources Whole-node Task force to be set-up (Pere Mato) Issues : Vos taking responsibility for ensuring that the node is fully utilized end-to-end changes Requires adaptation of accounting and monitoring tools 21/10/2010
Résultats du site 21/10/2010
Disponibilité Septembre/Nagios ALICE: 81% ATLAS: 78% CMS: 78% LHCB: 66% Faille sécurité + Arrêt = 6 jrs d’indisponibilité 24 jrs sur 30 jrs de disponibilité, soit 80% Source: http://gvdev.cern.ch/GRIDVIEW/downloads/Reports/201009/wlcg/Tier1_Summary_Sep2010.pdf 21/10/2010
Disponibilité LHCB/Sept.: détails Rappel Août 21/10/2010
Disponibilité ALICE/Sept.: détails Alice n’utilise plus les LCG-CEs Passage à Xrootd et fin de l’utilisation de Dcache 21/10/2010
Avancement des chantiers 21/10/2010
Problèmes résolus Chantiers en cours 2 failles de sécurité avec exploit Saturation réseau Transferts BNL/Dcache-CC Correction interface BQS/CREAM CE Glexec/Argus fonctionnel selon Nagios LHCb LFC Atlas stabilisé (?) Publication des capacités CPUs T1/T2 Pledges 2010 21/10/2010
Chantiers en cours Problèmes en cours de traitement WN SL5 + AFS ATLAS, CMS (?) et LHCB Plusieurs lots de WNs avec différents patchs: progrès ? Installation du soft des VOs sur AFS ATLAS (?) et LHCB Dcache Deux serveurs de disque rendu aux sysunix après l’arrêt Remplacement de barettes mémoire sur 15 serveurs de disque Plantage de Chimera 134k fichiers coincés dans le buffer d’import (ATLAS, CMS) Transferts à l’export Pb ressenti surtout par Atlas mais pb Multi-VOs Solution passant par un « downgrade » sur les serveurs de pool Séparation de CMS et OPS dans les pools de transferts Qd CMS remplit les pools, ça pénalise OPS Xrootd Alice Plugin d’authentification d’Alice pour xrootd non supporté sur Solaris Passage à Linux (avec serveur de disque Dell) ? 21/10/2010
Chantiers en cours Gros oeuvres Migration vers (O)GE Groupe de travail « NBS » Configuration « BQS-Like » avancée Interfaçage grille via CREAM CE Jobs et Publication Ferme d’analyse (LAF) Etat de l’infrastructure Problème avec le matériel Dell (statut ?) Enregistrement des utilisateurs via VOMS Aucun avancement Infrastructure VMWare de production En attente de l’achat d’un serveur de disque Temporairement, montage NFS d’un Thumper semble OK Administration du service à définir Déploiement de services De tests / pré-prod : possible De production : pas encore 21/10/2010
Chantiers en cours Chantiers au point mort Déploiement grille Glite-ARGUS de production, CREAM-CEs, Site-BDII (SL5), mise-à-jour des WNs, des UIs, et des VOBOXes (?). Calendrier des expériences Déclencher une réunion avec exploitation, hpssmaster, etc. Publication du site (T1, T2 et T3) Pas de solution connue pour le stockage Nouvelle infrastructure d’accounting (glite-APEL) Déploiement d’un nœud Glite-APEL ? Monitoring Grille Déploiement de machines pour étendre l’infrastructure Nagios local UI-NRPE, MyProxy Intégrer NRPE à l’installation des nœuds de grille pour monitorer l’état des machines et des services Collecte de données de la « Nagios Box » française 21/10/2010
Evénements Passés En cours/A venir EGI Technical Forum, Amsterdam,13-17 September LHCOPN, CERN, 7-8 October Quattor Workshop, RAL, 11-13th October Tutorial Nagios Box : Bonnes pratiques des outils de monitoring regional, Opérations France Grilles, CC-IN2P3, 12 Octobre Atelier France Grilles – Opérations, CC-IN2P3, 13-14 Octobre En cours/A venir Formations “France Grillse”, (utilisateurs, administrateurs, DIRAC, etc.), CC-IN2P3 et CPPM, du 18 au 27 Octobre http://indico.in2p3.fr/categoryDisplay.py?categId=254 CHEP 10, Taipei, 17-22 October HEPiX Fall Meeting, Cornell, 1-5 November Réunion des sites LCG France, CC-IN2P3, 22-23 Novembre EMI All Hands Meeting, Prague, 22-24 November EGI User Forum, Vilnius, 11-15th April, 2011 21/10/2010