Pierre Girard LCG-France Tier-1 2008-01 05/07/2018 11/01/2007 Consolidation des services: Ressources de calcul et Système d’Information Pierre Girard LCG-France Tier-1 2008-01
Robustesse et load-balancing 05/07/2018 Plan Affaires courantes Interfaçage des CEs Système d’information JobManager Robustesse et load-balancing Pierre Girard / Etat des services grid de production 11/01/2007
Affaires courantes Mises à jour à effectuer Priorités 05/07/2018 Affaires courantes Mises à jour à effectuer WNs et UIs: passer de 3.1.0-x à 3.1.2-0 SL(C)4/x86_64 en cours de certification (date de release ?) Release 3.1 maintenant disponible pour de nouveaux noeuds SL3 vers SL4_32 Upgrade possible des machines de services vers matériel récent Attention aux problèmes de « low memory » ? LCG-CEs [Pierre-Emm] Implémentation du GRIS avec un BDII Optimisation de la publication des GlueClusters et des Tags des VOs Top/Site BDII Passage à SL4 déjà anticipé pour Top BDII mais détection d’un problème (openldap) avec la publication des attributs VOMS A vérifier ce point lors de la mise à jour officielle Priorités WNs/UIs BDII (cf. « Robustesse et Load-Balancing») LCG-CEs (upgrade des machines ?) Pierre Girard / Etat des services grid de production 11/01/2007
Interfaçage des CEs: Système d’information (1) 05/07/2018 Interfaçage des CEs: Système d’information (1) Nouveau lcg-info-dynamic-bqs Informations VOMS Tient compte de la réelle disponibilité des classes BQS Rappel: classes BQS A, G, et T Ne compte pas un workpoints pour une classe BQS s’il est utilisé par un job d’une autre classe BQS Moins de job slots publiés par queue Fermeture des queues Sélective (déjà en production) Automatique lors du réajustement par l’exploitation du MaxAdmissibleJobDuration MaxCPUTime(queue) > MaxAdmissibleJobDuration Possibilité d’affecter des quotas par groupe/VO Possibilité de pondérer le nombre de job slots par le nombre de CEs en concurrence sur la même ferme Dans l’optique d’une répartition logique de la charge avec un cluster de CEs A finaliser et à packager DENY à implémenter pour les information VOMS ? Pierre Girard / Etat des services grid de production 11/01/2007
Interfaçage des CEs: Système d’information (2) 05/07/2018 Interfaçage des CEs: Système d’information (2) Problème des Glue(Sub)Cluster Publication d’un GlueCluster et d’un GlueSubCluster Par CE et par queue du CE (short, medium, long, long_atlas, etc.) Chaque GlueSubCluster publie tous les tags des VOs Pbs : Redondance, pollution du SI et problème de temps de réponse du GRIS du CE Ex: ~1400 lignes de LDIF juste pour les sous-clusters de cclcgceli02 Des problèmes de publication des CEs sont de nouveau apparus Amélioration du temps de réponse avec la prochaine update du LCG-CE Evolution du M/W intéressante proposée par Steve Traylen http://indico.cern.ch/conferenceDisplay.py?confId=20225 Ajout d’un nouveau nœud : CE-ClusterPublisher Publie les clusters/sous-clusters (indép. des CEs et donc sans redondance) Centralise les VO tags et donc plus de problèmes de synchronisation des CEs partageant le même cluster Discuter avec Steve Pierre Girard / Etat des services grid de production 11/01/2007
Interfaçage des CEs: Système d’information (3) 05/07/2018 Interfaçage des CEs: Système d’information (3) Questions Certaines VOs semblent utiliser le SI en supposant des conventions de nommages qui lient les CEs, aux Clusters et aux SubClusters Pourquoi ? Peuvent-elles éviter ça ? Nous maintenons des queues dédiées pour certaines VOs alors que les VOViews permettent de factoriser les informations Peut-on arrêter ? (lcg-infosites ignorent les VOViews) MaxCPUTime(queue) est relatif à la puissance (KSi2K) affichée par le subcluster Est-ce compris et réellement utilisé ? Notre politique (Artem): on normalise en affichant une puissance de 1KSi2K et un MaxCPUTime en (KSi2K x Minute) Comment font les autres ? Pierre Girard / Etat des services grid de production 11/01/2007
Interfaçage des CEs: JobManager 05/07/2018 Interfaçage des CEs: JobManager Réactualiser le jobmanager actuel Raffiner les états BQS (Cf. Julien) La version actuelle du JobManager fonctionne mais ne tient pas compte de certains états BQS qui sont finaux, et donc la reconnaissance un job grille peut être BQS devrait peut-être mieux distinguer ces états finaux (Ambiguité car un état temporaire qui dure un certain temps devient final) Sortir la gestion des états et de leurs transitions du code du JobManager pour l’intégrer à sa configuration. Permet d’adapter son comportement en cas de changement dans BQS Partager la configuration, au moins partiellement, avec le système d’information. Se préparer à la nouvelle version de BQS avec les sous-groupes Prévu pour le 1er trimestre 2008 (Tests en cours) Qsub --voname cmsf --share prod.T1@cmsf@anastasie Pierre Girard / Etat des services grid de production 11/01/2007
Robustesse et load-balancing 05/07/2018 Robustesse et load-balancing Load-balancing: la solution anti-stress IN2P3-CC GRIF Top BDII IN2P3-CC-T2 IN2P3-LAPP Utilisation de « lbnamed » avec les BDIIs déjà validée. => 2 machines supplémentaires à prévoir Top BDII lbnamed CERN-PROD … RAL-LCG2 Validation d’une solution basée sur GPFS qui stagne faute de temps, mais certainement la priorité MAX. CE Top BDII CE Load-Balancing External Site BDII lbnamed CE CE Pierre Girard / Etat des services grid de production 11/01/2007