La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Consolidation des services de grille de production

Présentations similaires


Présentation au sujet: "Consolidation des services de grille de production"— Transcription de la présentation:

1 Consolidation des services de grille de production
03/08/2018 07/06/2007 Consolidation des services de grille de production Pierre Girard LCG-France Tier

2 Système d’information des CEs Déploiement des CEs Monitoring
03/08/2018 Plan Statut du déploiement VOMS et pool de comptes Système d’information des CEs Déploiement des CEs Monitoring Pierre Girard / Consolidation des services de grille de production 07/06/2007

3 Statut du déploiement Release officielle du M/W : 3.0.2 Update 25
03/08/2018 Statut du déploiement Release officielle du M/W : Update 25 Site IN2P3-CC : 3 LCG CEs en au lieu de la Mais partiellement mis à jour (updates critiques) 1 nouveau LCG CE en cclcgceli04 Prévu en remplacement de cclcgceli02 (après l’arrêt du 12/06) UI/WN: au lieu de Mise à jour à prévoir rapidement car de nombreuses corrections (lcg-utils, voms-proxy, etc) Top BDII Regional « Tuning » efficace par P-E Fin de RLS/RMC et SEs classiques fin juin Site IN2P3-CC-T2 Enregistré dans la GOC DB Site BDII cclcgbdiili02 Alias: cclcgip03 LCG CE en cclcgceli05 VOs: Atlas, Cms Mise en place du référentiel grille sur SVN (en cours) Pierre Girard / Consolidation des services de grille de production 07/06/2007

4 Statut du déploiement (suite)
03/08/2018 Statut du déploiement (suite) Problèmes Exploitation CE: mauvais nettoyage du gasscache, triangle des bermudes pour certains utilisateurs CE: Beaucoup de « memory size exceeded » dus à des jobs demandant plus de mémoire que classe BQS cachée derrière une queue du CE. UI: 50% d’erreurs à la soumission. Pb de configuration avec +ieurs RB/LB. Ticket GGUS. VOMSification multiplication des comptes anonymes (stratégie « only pool of accounts») Système d’information prenant en compte le découpage VOMS Déploiement Toujours le problème de la mise-à-jour des CEs Révision de la distribution des VOs par CE Accounting Modification pour prendre en compte le T2 Stockage Quel stockage pour le T2 Migration des services (matériel vieillissant et hors garantie) Plus de V20Z, mais de nouvelles machines de service viennent d’être livrée Support de SL3 problématique sur le nouveau matériel Pierre Girard / Consolidation des services de grille de production 07/06/2007

5 VOMS et pool de comptes Depuis l’avant-dernière update du M/W
03/08/2018 VOMS et pool de comptes Depuis l’avant-dernière update du M/W Mapping uniquement vers des pools de comptes Role=Production: atlaprod001, atlaprod002, atlaprod003, … Changement pas vraiment annoncé, ni mesuré La recommandation pour décider de la taille du pool est: Compter le nombre d’utilisateurs potentiellement mappés sur un rôle Avec cette logique, on aura plus de comptes que d’utilisateurs réels !! On a patché YAIM pour revenir à l’ancienne situation Doit-on vraiment créer tant de comptes ? Éventuellement, se limiter en se basant sur des statistiques d’utilisation du site (Nb de certificats mappé simultanément...) Mais cette logique ne passera pas à l’échelle Quid du stockage ? LFC ? Pierre Girard / Consolidation des services de grille de production 07/06/2007

6 Système d’information des CEs
03/08/2018 Système d’information des CEs Publier autant de (Glue)Clusters que de classes BQS utilisées par un CE. Problème « RAMSize » est publiée sur le (Glue)SubCluster, un CE ne publie qu’un (Glue)SubCluster rattaché à toutes les queues Un job posant un « requirement » mémoire va donc aléatoirement sur l’une des queues Ce job explosera si la classe BQS correspondante offre moins de mémoire que demandé par le job au RB Solution Associer à chaque queue du CE un SubCluster qui précise une RAMSize égale au max de la classe BQS associée à cette queue Solution validée au RAL Modification de YAIM faite et testée sur le CE de préprod Cclcgceli07 publie déjà 3 Clusters qui affichent respectivement les mémoires max des classes A, G et T Chaque queue du CE se voit associer le cluster qui lui correspond (/classe BQS) Pierre Girard / Consolidation des services de grille de production 07/06/2007

7 Système d’information des CEs (suite)
{ccali34}~/dev/perl(0)>/usr/bin/time perl test.pl Status of BQS: Production MaxWallTime of BQS: Total objective of BQS: Max CPU Times for BQS [A]: 13 Max CPU Times for BQS [J]: Max CPU Times for BQS [W]: Max CPU Times for BQS [T]: Max CPU Times for BQS [X]: Max CPU Times for BQS [P]: Max CPU Times for BQS [V]: 251 Max CPU Times for BQS [Z]: 201 Max CPU Times for BQS [G]: Workers for BQS [LINUX]: 607 Processors for BQS [LINUX]: Average: Job slots for BQS [A]: 681 Job slots for BQS [J]: Job slots for BQS [W]: Job slots for BQS [T]: Job slots for BQS [X]: 2 Job slots for BQS [P]: 10 Job slots for BQS [V]: 107 Job slots for BQS [Z]: 574 Job slots for BQS [G]: Total Running: 482 Total Waiting: VO Group: /atlas/ROLE=lcgadmin (Waiting:   0.00%, Running:  0.00%)         Class [A]:                 Running: 0                 Waiting: 0                 Ended: 9                 RTSum:                 WRT: 328                 Estimated Response Time: 181                 Worst Response Time: 328         Class [T]:                 Running: 0                 Waiting: 0                 Ended: 4                 RTSum:                 WRT:                 Estimated Response Time:                 Worst Response Time:         Class [G]:                 Running: 0                 Waiting: 0                 Ended: 32                 RTSum:                 WRT:                 Estimated Response Time:                 Worst Response Time: VO Group: atlas (Waiting:   0.00%, Running:  0.41%)         Class [A]:                 Running: 0                 Waiting: 0                 Ended: 190                 RTSum:                 WRT:                 Estimated Response Time:                 Worst Response Time:         Class [T]:                 Running: 1                 Waiting: 0                 Ended: 286                 RTSum:                 WRT:                 Estimated Response Time:                 Worst Response Time:         Class [G]:                 Running: 0                 Waiting: 0                 Ended: 881                 RTSum:                 WRT:                 Estimated Response Time:                 Worst Response Time: VO Group: /atlas/ROLE=production (Waiting: %, Running: 99.59%)         Class [T]:                 Running: 480                 Waiting:                 Ended:                 RTSum:                 WRT:                 Estimated Response Time:                 Worst Response Time:         Class [G]:                 Running: 0                 Waiting: 0                 Ended: 3                 RTSum: 900                 WRT: 602                 Estimated Response Time: 300                 Worst Response Time: user 0.20system 0:00.72elapsed 94%CPU (0avgtext+0avgdata 0maxresident)k 0inputs+0outputs (3570major+882minor)pagefaults 0swaps 03/08/2018 Système d’information des CEs (suite) Prise en compte des attributs VOMS Problème Nouveau modèle Une queue est divisée en VOViews Chaque VOView correspond à une règle VOMS Exploitable par le Glite WMS Ex.: le T1 pourra être limité au rôle « Production » Solution YAIM modifié et testé sur cclcgceli07 pour la création des VOViews (fait) Autopsie du lcg-info-scheduler de J. Templon (fait) « Refactoring » pour adaptation au cas BQS Utilisation uniquement pour le calcul de l’Estimated Response Time Réingénierie du Lcg-info-dynamic-bqs (en cours) Séparation des générations des données et de leur présentation (LDIF) Prototypage d’un GIP simplifié Fichier de configuration XML Transformation XSL pour générer le Glue (LDIF ou XML) Utilisation de Make 0:00.72elapsed Pierre Girard / Consolidation des services de grille de production 07/06/2007

8 Déploiement des CEs (1) Actuellement Problèmes
03/08/2018 Déploiement des CEs (1) Actuellement Problèmes Tolérance à la panne pour une VO Mises-à-jour « sans arrêt » sont trop compliquées Par utilisation d’un CE de remplacement Par migration temporaire des VOs sur les autres Ces Car les VOs utilisent les hostnames de CEs Configurations hétérogènes Computing Element Computing Element Computing Element Computing Element BQS Anastasie WN Calcul Pierre Girard / Consolidation des services de grille de production 07/06/2007

9 Déploiement des CEs (2) Actuel Futur ? BQS BQS Computing Element
03/08/2018 Déploiement des CEs (2) Actuel Futur ? Computing Element Computing Element Computing Element Computing Element Computing Element Computing Element Computing Element Computing Element BQS Anastasie WN Calcul BQS Anastasie WN Calcul Pierre Girard / Consolidation des services de grille de production 07/06/2007

10 Déploiement des CEs (3) Problèmes identifiés Solutions Futur ? Mapping
03/08/2018 Déploiement des CEs (3) Problèmes identifiés Mapping vers les comptes 2 utilisateurs différents ne doivent pas partager le même compte Pour T1 et T2, le pool actuel est scindé en deux sous-pools 1 même utilisateur ne devrait pas consommer des comptes différents Solutions Partage entre les CEs du gridmapdir GPFS ? Futur ? Computing Element Computing Element Computing Element Computing Element Mapping Pierre Girard / Consolidation des services de grille de production 07/06/2007

11 Déploiement des CEs (4) Problèmes identifiés Futur ? VO-oriented
03/08/2018 Déploiement des CEs (4) Problèmes identifiés Load-balancing Dépend de la stratégie d’élection du CE par la VO Risque de surcharge d’un seul CE Solution ? Hypothèse: les VOs utilisent le Système d’Information Jouer sur le système d’information Donner la vision que chaque CE gère un cluster différent (division logique du cluster de BQS) Futur ? VO-oriented Load-Balancing Computing Element Computing Element Computing Element Computing Element Pierre Girard / Consolidation des services de grille de production 07/06/2007

12 Déploiement des CEs (4) Futur +/- lointain ?
03/08/2018 Déploiement des CEs (4) VO submission Futur +/- lointain ? Mise en place d’un service « BQS Frontend » Service de mapping partagé Service de répartition allouant logiquement une partie de la ferme Computing Element Computing Element Computing Element Computing Element Mapping Répartition BQS Anastasie WN Calcul Pierre Girard / Consolidation des services de grille de production 07/06/2007

13 Monitoring Nagios Lemon
03/08/2018 Monitoring Nagios Toujours en service, tant que Lemon n’aura pas fait ses preuves Mais la configuration de Nagios doit se référer à la configuration du site Lemon Toujours en test Problème pour faire fonctionner le système d’alerte Réinstallation en cours sur SL5 Monitoring actuel est équivalent à du « smurf » Développement « témoin » d’un capteur pour suivre les jobs BQS venant de la grille A l’étude, développement d’un capteur sur le Top BDII Recensement des capteurs existants par noeuds. Pierre Girard / Consolidation des services de grille de production 07/06/2007


Télécharger ppt "Consolidation des services de grille de production"

Présentations similaires


Annonces Google