La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

HTCondor experience at IRFU and LLR. Motivations Torque 2.X Plus maintenu officiellement (sécurité !) Maui Evolution/maintenance délaissées (moab…) !

Présentations similaires


Présentation au sujet: "HTCondor experience at IRFU and LLR. Motivations Torque 2.X Plus maintenu officiellement (sécurité !) Maui Evolution/maintenance délaissées (moab…) !"— Transcription de la présentation:

1 HTCondor experience at IRFU and LLR

2 Motivations Torque 2.X Plus maintenu officiellement (sécurité !) Maui Evolution/maintenance délaissées (moab…) ! Scaling ? OK @ 4200job slots/10000 queued @IRFU… Pas au delà sans modifications (surtout maui) Tendance générale (hepix) : htcondor

3 HTCondor Pros Equipe réactive Extrêmement complet A priori, meilleur scaling Bien supporté pour les ARC CE Accounting hiérarchique … Cons Concept de batch… « différent » TROP complet ? Moyennement intégré aux CREAM CE (accounting)

4 Generalités htcondor Classad Scoping Batch ? Pas de queues : juste des priorités/réservations Accounting groups/hiérarchique Permet d’obtenir la fonctionnalité des queues 80+40 => 120 == 100% => lab1 % == 100*(40/120) = 33%

5 Généralités htcondor Limitation ressources possible MAIS à définir sur les machines elles même (pas de queue) CGroups Isolation des process possible (PID namespaces) Quotas par job Isolation des filesystems Intégration du cloud (VM kickstarting) …

6 HTCondor@IRFU Goal : s/CREAM|torque|maui/trash/g Config toujours en evaluation 1 ARC CE / condor scheduler – SCHEDD 1 queue single core 1 queue multicore (8 cœurs ou rien) 1 htcondor « mananger » - COLLECTOR/NEGOCIATOR X WN multicore (~8 C6220 / 256 cores) Y WN single core Config grille « standard » IRFU Pool accounts sous NIS Full puppet no yaim Modules HEP-Puppet (ARC, htcondor)/CERNOps(glexec WN) Modules locaux pour la config système

7 HTCondor - Features@IRFU PID namespaces : beau dans la théorie, facile à activer MAIS : atlas se tire une balle dans le pied Filesystem isolation /tmp, /var/tmp isolés (bind mounts) Quotas définis par JOB (tmp inclus…) Dynamic job slots : 1 slot par machine Limites : classads

8 HTCondor – Issues@IRFU Initial setup => coredumps Question mailing list => bug fix < 1 semaine Retry : re-core dump. Re-fix < 1 semaine Dynamic job slots par défaut, ne prend pas en compte l’hyperthreading Accounting groups: Basé sur le nom de VO Séparateur : «. » « vo.irfu.cea.fr, vo.grif.fr » ? => MAIN group : « vo »…

9 HTCondor – Issues@IRFU No queue, no graph (ARC pb ?) Mix single core/MC non testé par manque de jobs Job defrag non testé config queue par atlas/ « install du soft »… ?

10 HTCondor – issues@IRFU RPM conflicts : Condor fournit de nombreuses dépendances globus GAGNE la transaction yum lors de l’install d’un WN Single paquet >> multi-paquets yum --exclude condor install emi-wn Install de emi nécessaire AVANT condor

11 HTCondor@LLR Strategy: minimal impact (and possibly effort) use CREAM-CE (we are almost a unique case) minimal changes to Quattor PBS/CREAM config Status: migrated our PP CE on Oct 2014 tested by NGI & CMS sam tests still missing CMS HC jobs CMS promised test MoltiCore jobs. None seen yet Goal: move to HTCondor in prod by Q1 2015 CMS is not pushing for MC jobs on T2 so we are not in a hurry.

12 HTCondor - Features@LLR 1 head machine: CREAM-CE + SCHEDD + NEGOTIATOR/COLLECTOR 4 * 16Cores Workers Version 8.2.1 (should upgrade to latest) Quattor config Minor changes on CREAM/BDII/Blparser tpls Rather General HTCondor tpls PR currently ongoing on QWG git repo

13 HTCondor - Features@LLR How do we map user into accounting groups? from the condor manual  map at submit time we get (VO,FQAN,DN) and match it against regexps very flexible (…but should check perfs) “Each job must state which group it belongs to. Currently this is opt-in, and the system trusts each user to put the correct group in the submit description file.” Accounting Group

14 HTCondor - Features@LLR BDII publication is currently very basic Using a very old plugin « lcg-info-dynamic-condor-1.1.2- 0.noarch » that I got from Milan T2 Apel accounting: using « RAL solution » Condor  PBS logs translation && use pbs appel parser waiting for a condor appel parser (which is currently in testing) currently publishing on the test instance

15 HTCondor - issues@LLR Problems with BLUpdater: Fixed using the one in the condor package Rewriting the bdii config

16 HTCondor – to do@LLR Test a cluster with separate CREAM/SCHEDD and NEGOTIATOR/COLLECTOR test and implement in quattor the multicore setup give a better look to BDII publication run some load tests with both single and multicore jobs implement job/user limits (max time, max mem, etc…)

17 HTCondor : howto Lister les machines / jobs slots : condor_status Lister les machines down/absentes : condor_status -absent Lister les jobs running : condor_q –run Lister les « fairshares »: condor_userprio –grouporder

18 HTCondor : howto Modifier les quotas d’un job running : condor_qedit -constraint 'RequestCpus == 8' MAX_DISK_KB 'RequestCpus*20*1024*1024' condor_qedit -constraint 'RequestCpus == 8' JobMemoryLimit 41943040 condor_qedit -constraint 'RequestCpus == 8' RequestMemory 5120

19 Summary Workshop@CERN : http://htcondor.org/workshops/PoolAdminWorkshopCe rn2014.html http://htcondor.org/workshops/PoolAdminWorkshopCe rn2014.html

20 Logos : http://www.picturetopeople.orghttp://www.picturetopeople.org


Télécharger ppt "HTCondor experience at IRFU and LLR. Motivations Torque 2.X Plus maintenu officiellement (sécurité !) Maui Evolution/maintenance délaissées (moab…) !"

Présentations similaires


Annonces Google