Consolidation des services de grille de production

Slides:



Advertisements
Présentations similaires
Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -
Advertisements

Déploiement LCG-2 Etat actuel au CC-IN2P3 Fabio Hernandez Centre de Calcul de l’IN2P3 Lyon, 22 juillet 2004.
EGEE is a project funded by the European Union under contract INFSO-RI Copyright (c) Members of the EGEE Collaboration Infrastructure Overview.
Mercredi 22 juin 2016 Suivi des jobs grille Colloque LCG France Mars 2007.
Colloque LCG France14-15 mars SURVEILLANCE ET GESTION D’INCIDENTS Cécile Barbier (LAPP)
08/02/2007 Site Grille : Ambitions 2007 Pierre Girard LCG-France Tier
05-fevrier-2007Eric Lancon1 ATLAS Bilan Planning 2007.
Nombre de job slot par machine Server_priv/node. Node1 np=2 Règle de 1 core = 1 job slot = 2 Go. Sur un bi-processeur bi-core on annonce alors np=4 Pas.
Le projet MUST Méso infrastructure de calcul et de stockage ouverte sur la grille européenne LCG/EGEE Colloque Grille Rhône-Alpes 10 janvier 2008.
Fabio HERNANDEZ Responsable Grid Computing Centre de Calcul de l'IN2P3 - Lyon Lyon, 30 avril 2004 Déploiement LCG-2 au CC-IN2P3 Etat d’avancement.
Quattor Status Guillaume PHILIPPON. Résumé EMI 2 / 3 DPM Changement de nom de profile SPMA 3 Aquillon Stratuslab Organisation de la communauté Quattor.
INFSO-RI Enabling Grids for E-sciencE Statistiques d'usage d'un site de la grille LCG/EGEE Emmanuel Medernach, IN2P3 LPC.
Evolution des services Retour sur les incidents récents: Disfonctionnements cluster SUN (répertoires disques) : – Incidents et actions réalisées Disfonctionnements.
Lundi 11 juillet 2016 Exploitation globale de la grille Hélène Cordier Operations LCG.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Grid Service Monitoring Working Group Exemple.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR Marseille Juin 2010Jean-Michel BARBET Subatech 1 /22 Support de la VO Alice à.
Alice LCG Task Force Meeting 16 Oct 2008 BARBET Jean-Michel - 1 /20 LCGFR-T2T3, Annecy Mai 2009Jean-Michel BARBET Subatech 1 /18 IN2P3-SUBATECH :
LHC Computing Grid Évolution du T2 de l'IPHC Yannick Patois.
Messagerie Open Source à la DGCP Implémentation réalisée par IBM et Pilot Systems Sylvain Viollon.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
EGI FT 2010 European Grid Infrastructure H.Cordier Credit: C. L’Orphelin, D.Fouossong, E.Urbah, M.Pellen.
Michel Jouvin LAL/Orsay
LCG-France Tier-1 & AF Réunion mensuelle de coordination
Passage de Main SYSGRID Réunion 1
Réunion Opérations France Grilles – 6 juin 2017
GENIUS – GANGA Alternative à la CLI
Le portail des opérations: retour d'expérience
Réunion Analyse D0 France au CCIN2P3 19 janvier 2004
C. Loomis (LAL-Orsay) Tutorial EGEE Utilisateur (LAL) 2 février 2007
Vue d'ensemble de l'utilisation du CCIN2P3 par les expériences LHC
GRIF : Grille pour la Recherche en
Etat des services grid de production
Point sur avancement du service de monitoring NAGIOS
Surveillance des services grille par NAGIOS
Intégration de BQS dans CREAM
Pierre Girard LCG-France Tier
Pierre Girard LCG-France Tier
Fonctionnement de la grille
Consolidation des services FTS et LFC
Surveillance des services grille par NAGIOS
Etat des lieux des VO Boxes LHC
Intégration de BQS dans CREAM
2ème coloque LCG-France
Configuration FTS pour CMS
Déploiement d’un LCG CE
Réunion de Coordination – Bilan des opérations LCG Hélène CORDIER
Statut du T2 Île de France
Etat actuel et perspectives des CEs
CeMEB La plateforme MBB
LCG-France Tier-1 & AF Réunion mensuelle de coordination
David Bouvet LCG France T2 T3 – LPNHE
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 11 Juin- 10 Septembre Hélène CORDIER.
Jobs ATLAS sur la grille
Suzanne Poulat - Philippe Olivero
L’exploitation des données du collisionneur LHC: un défi pour le calcul scientifique un enjeu pour le LAPP S. Jézéquel.
Tutorial Utilisateurs EGEE
CeMEB La plateforme MBB
Synthèse problèmes rencontrés par les expériences LHC au CC-IN2P3
CREAM-CE et SGE.
Exploitation et déploiement
Atelier régulation de la production dans un contexte grille
LCG –France Tier2 & AF Réunion de Coordination – Problèmes récurrents des VOs 10 Septembre – 21 Octobre Hélène CORDIER.
Infrastructure Opérationnelle d’EGEE
GRIF : Site EGEE au Service de la Recherche en IdF
Déploiement de noeuds de clusters chez EDF R&D avec GOsa²
Middleware : Status et Evolution
Infrastructure Opérationnelle d’EGEE2
DC04 CMS Objectif Status Planning
Chaque transparent est divisé en 3 parties : 1/Vision/ But
Résumé des Actions Suite aux Réunions CB et MB
Transcription de la présentation:

Consolidation des services de grille de production 03/08/2018 07/06/2007 Consolidation des services de grille de production Pierre Girard LCG-France Tier-1 2007-06

Système d’information des CEs Déploiement des CEs Monitoring 03/08/2018 Plan Statut du déploiement VOMS et pool de comptes Système d’information des CEs Déploiement des CEs Monitoring Pierre Girard / Consolidation des services de grille de production 07/06/2007

Statut du déploiement Release officielle du M/W : 3.0.2 Update 25 03/08/2018 Statut du déploiement Release officielle du M/W : 3.0.2 Update 25 Site IN2P3-CC : 3 LCG CEs en 3.0.5 au lieu de la 3.0.13 Mais partiellement mis à jour (updates critiques) 1 nouveau LCG CE en 3.0.11 cclcgceli04 Prévu en remplacement de cclcgceli02 (après l’arrêt du 12/06) UI/WN: 3.0.13-0 au lieu de 3.0.21-0 Mise à jour à prévoir rapidement car de nombreuses corrections (lcg-utils, voms-proxy, etc) Top BDII Regional « Tuning » efficace par P-E Fin de RLS/RMC et SEs classiques fin juin Site IN2P3-CC-T2 Enregistré dans la GOC DB Site BDII cclcgbdiili02 Alias: cclcgip03 LCG CE en 3.0.11 cclcgceli05 VOs: Atlas, Cms Mise en place du référentiel grille sur SVN (en cours) Pierre Girard / Consolidation des services de grille de production 07/06/2007

Statut du déploiement (suite) 03/08/2018 Statut du déploiement (suite) Problèmes Exploitation CE: mauvais nettoyage du gasscache, triangle des bermudes pour certains utilisateurs CE: Beaucoup de « memory size exceeded » dus à des jobs demandant plus de mémoire que classe BQS cachée derrière une queue du CE. UI: 50% d’erreurs à la soumission. Pb de configuration avec +ieurs RB/LB. Ticket GGUS. VOMSification multiplication des comptes anonymes (stratégie « only pool of accounts») Système d’information prenant en compte le découpage VOMS Déploiement Toujours le problème de la mise-à-jour des CEs Révision de la distribution des VOs par CE Accounting Modification pour prendre en compte le T2 Stockage Quel stockage pour le T2 Migration des services (matériel vieillissant et hors garantie) Plus de V20Z, mais de nouvelles machines de service viennent d’être livrée Support de SL3 problématique sur le nouveau matériel Pierre Girard / Consolidation des services de grille de production 07/06/2007

VOMS et pool de comptes Depuis l’avant-dernière update du M/W 03/08/2018 VOMS et pool de comptes Depuis l’avant-dernière update du M/W Mapping uniquement vers des pools de comptes Role=Production: atlaprod001, atlaprod002, atlaprod003, … Changement pas vraiment annoncé, ni mesuré La recommandation pour décider de la taille du pool est: Compter le nombre d’utilisateurs potentiellement mappés sur un rôle Avec cette logique, on aura plus de comptes que d’utilisateurs réels !! On a patché YAIM pour revenir à l’ancienne situation Doit-on vraiment créer tant de comptes ? Éventuellement, se limiter en se basant sur des statistiques d’utilisation du site (Nb de certificats mappé simultanément...) Mais cette logique ne passera pas à l’échelle Quid du stockage ? LFC ? Pierre Girard / Consolidation des services de grille de production 07/06/2007

Système d’information des CEs 03/08/2018 Système d’information des CEs Publier autant de (Glue)Clusters que de classes BQS utilisées par un CE. Problème « RAMSize » est publiée sur le (Glue)SubCluster, un CE ne publie qu’un (Glue)SubCluster rattaché à toutes les queues Un job posant un « requirement » mémoire va donc aléatoirement sur l’une des queues Ce job explosera si la classe BQS correspondante offre moins de mémoire que demandé par le job au RB Solution Associer à chaque queue du CE un SubCluster qui précise une RAMSize égale au max de la classe BQS associée à cette queue Solution validée au RAL Modification de YAIM faite et testée sur le CE de préprod Cclcgceli07 publie déjà 3 Clusters qui affichent respectivement les mémoires max des classes A, G et T Chaque queue du CE se voit associer le cluster qui lui correspond (/classe BQS) Pierre Girard / Consolidation des services de grille de production 07/06/2007

Système d’information des CEs (suite) {ccali34}~/dev/perl(0)>/usr/bin/time perl test.pl Status of BQS: Production MaxWallTime of BQS: 2520 Total objective of BQS: 294450000 Max CPU Times for BQS [A]: 13 Max CPU Times for BQS [J]: 1751 Max CPU Times for BQS [W]: 4126 Max CPU Times for BQS [T]: 2501 Max CPU Times for BQS [X]: 1251 Max CPU Times for BQS [P]: 1751 Max CPU Times for BQS [V]: 251 Max CPU Times for BQS [Z]: 201 Max CPU Times for BQS [G]: 626 Workers for BQS [LINUX]: 607 Processors for BQS [LINUX]: 1785 Average: 2.94069192751235585 Job slots for BQS [A]: 681 Job slots for BQS [J]: 2134 Job slots for BQS [W]: 2648 Job slots for BQS [T]: 2988 Job slots for BQS [X]: 2 Job slots for BQS [P]: 10 Job slots for BQS [V]: 107 Job slots for BQS [Z]: 574 Job slots for BQS [G]: 2988 Total Running: 482 Total Waiting: 1050 VO Group: /atlas/ROLE=lcgadmin (Waiting:   0.00%, Running:  0.00%)         Class [A]:                 Running: 0                 Waiting: 0                 Ended: 9                 RTSum: 1631                 WRT: 328                 Estimated Response Time: 181                 Worst Response Time: 328         Class [T]:                 Running: 0                 Waiting: 0                 Ended: 4                 RTSum: 46153                 WRT: 29947                 Estimated Response Time: 11538                 Worst Response Time: 29947         Class [G]:                 Running: 0                 Waiting: 0                 Ended: 32                 RTSum: 48102                 WRT: 22774                 Estimated Response Time: 1503                 Worst Response Time: 22774 VO Group: atlas (Waiting:   0.00%, Running:  0.41%)         Class [A]:                 Running: 0                 Waiting: 0                 Ended: 190                 RTSum: 343037                 WRT: 40041                 Estimated Response Time: 1805                 Worst Response Time: 40041         Class [T]:                 Running: 1                 Waiting: 0                 Ended: 286                 RTSum: 1892496                 WRT: 13428                 Estimated Response Time: 6617                 Worst Response Time: 13428         Class [G]:                 Running: 0                 Waiting: 0                 Ended: 881                 RTSum: 20646913                 WRT: 133410                 Estimated Response Time: 23435                 Worst Response Time: 133410 VO Group: /atlas/ROLE=production (Waiting: 100.00%, Running: 99.59%)         Class [T]:                 Running: 480                 Waiting: 1050                 Ended: 2889                 RTSum: 135505478                 WRT: 215960                 Estimated Response Time: 46903                 Worst Response Time: 215960         Class [G]:                 Running: 0                 Waiting: 0                 Ended: 3                 RTSum: 900                 WRT: 602                 Estimated Response Time: 300                 Worst Response Time: 602 0.49user 0.20system 0:00.72elapsed 94%CPU (0avgtext+0avgdata 0maxresident)k 0inputs+0outputs (3570major+882minor)pagefaults 0swaps 03/08/2018 Système d’information des CEs (suite) Prise en compte des attributs VOMS Problème Nouveau modèle Une queue est divisée en VOViews Chaque VOView correspond à une règle VOMS Exploitable par le Glite WMS Ex.: le T1 pourra être limité au rôle « Production » Solution YAIM modifié et testé sur cclcgceli07 pour la création des VOViews (fait) Autopsie du lcg-info-scheduler de J. Templon (fait) « Refactoring » pour adaptation au cas BQS Utilisation uniquement pour le calcul de l’Estimated Response Time Réingénierie du Lcg-info-dynamic-bqs (en cours) Séparation des générations des données et de leur présentation (LDIF) Prototypage d’un GIP simplifié Fichier de configuration XML Transformation XSL pour générer le Glue (LDIF ou XML) Utilisation de Make 0:00.72elapsed Pierre Girard / Consolidation des services de grille de production 07/06/2007

Déploiement des CEs (1) Actuellement Problèmes 03/08/2018 Déploiement des CEs (1) Actuellement Problèmes Tolérance à la panne pour une VO Mises-à-jour « sans arrêt » sont trop compliquées Par utilisation d’un CE de remplacement Par migration temporaire des VOs sur les autres Ces Car les VOs utilisent les hostnames de CEs Configurations hétérogènes Computing Element Computing Element Computing Element Computing Element BQS Anastasie WN Calcul Pierre Girard / Consolidation des services de grille de production 07/06/2007

Déploiement des CEs (2) Actuel Futur ? BQS BQS Computing Element 03/08/2018 Déploiement des CEs (2) Actuel Futur ? Computing Element Computing Element Computing Element Computing Element Computing Element Computing Element Computing Element Computing Element BQS Anastasie WN Calcul BQS Anastasie WN Calcul Pierre Girard / Consolidation des services de grille de production 07/06/2007

Déploiement des CEs (3) Problèmes identifiés Solutions Futur ? Mapping 03/08/2018 Déploiement des CEs (3) Problèmes identifiés Mapping vers les comptes 2 utilisateurs différents ne doivent pas partager le même compte Pour T1 et T2, le pool actuel est scindé en deux sous-pools 1 même utilisateur ne devrait pas consommer des comptes différents Solutions Partage entre les CEs du gridmapdir GPFS ? Futur ? Computing Element Computing Element Computing Element Computing Element Mapping Pierre Girard / Consolidation des services de grille de production 07/06/2007

Déploiement des CEs (4) Problèmes identifiés Futur ? VO-oriented 03/08/2018 Déploiement des CEs (4) Problèmes identifiés Load-balancing Dépend de la stratégie d’élection du CE par la VO Risque de surcharge d’un seul CE Solution ? Hypothèse: les VOs utilisent le Système d’Information Jouer sur le système d’information Donner la vision que chaque CE gère un cluster différent (division logique du cluster de BQS) Futur ? VO-oriented Load-Balancing Computing Element Computing Element Computing Element Computing Element Pierre Girard / Consolidation des services de grille de production 07/06/2007

Déploiement des CEs (4) Futur +/- lointain ? 03/08/2018 Déploiement des CEs (4) VO submission Futur +/- lointain ? Mise en place d’un service « BQS Frontend » Service de mapping partagé Service de répartition allouant logiquement une partie de la ferme Computing Element Computing Element Computing Element Computing Element Mapping Répartition BQS Anastasie WN Calcul Pierre Girard / Consolidation des services de grille de production 07/06/2007

Monitoring Nagios Lemon 03/08/2018 Monitoring Nagios Toujours en service, tant que Lemon n’aura pas fait ses preuves Mais la configuration de Nagios doit se référer à la configuration du site Lemon Toujours en test Problème pour faire fonctionner le système d’alerte Réinstallation en cours sur SL5 Monitoring actuel est équivalent à du « smurf » Développement « témoin » d’un capteur pour suivre les jobs BQS venant de la grille A l’étude, développement d’un capteur sur le Top BDII Recensement des capteurs existants par noeuds. Pierre Girard / Consolidation des services de grille de production 07/06/2007