INFSO-RI Enabling Grids for E-sciencE Support MPI avec Torque/PBS C. Loomis (LAL-Orsay) EGEE-FR Conférence Téléphonique 7 Juin 2005
NA4 Status – C. Loomis – 24/03/ Enabling Grids for E-sciencE INFSO-RI Grandes Lignes Jobs MPI dans LCG2 Problèmes résolus –Logiciel MPICH –Job Managers –Utilisation de CPUs Difficultés non-résolues Informations détaillées –
NA4 Status – C. Loomis – 24/03/ Enabling Grids for E-sciencE INFSO-RI Jobs MPI dans LCG2 JDL –JobType = "MPICH"; –NodeNumber = 11; RB choisit une ressource –other.GlueCEInfoTotalCPUs >= NodeNumber RB envoie un job à gatekeeper –Globus le traite comme job “multiple”. Système de batch démarre le job –Nombre de CPUs nécessaires. Job wrapper –Appelle “mpirun” directement. Traitement de job normal...
NA4 Status – C. Loomis – 24/03/ Enabling Grids for E-sciencE INFSO-RI Logiciel MPICH LCG2 distribution par défaut –MPICH –Installée dans un endroit non-standard. –N'inclut pas les bibliothèques de développement. –N'inclut pas les binaires mpicc, etc. Utilisez une version plus récente –MPICH –Installée dans les répertoires standards. –Inclut tous les outils de développement. –Disponible vers LCG wiki.
NA4 Status – C. Loomis – 24/03/ Enabling Grids for E-sciencE INFSO-RI Job Managers Torque/PBS –lcgpbs peut avoir un système de fichiers non-partagés, mais ne supporte pas les jobs MPI –pbs doit avoir un système de fichiers partagés, et supporte les jobs MPI LSF –Même chose pour “lcglsf” et “lsf”. (Je pense.) Nom de système de batch –Doit être “pbs” ou “lsf”. –“torque”, le défaut, ne marche pas!
NA4 Status – C. Loomis – 24/03/ Enabling Grids for E-sciencE INFSO-RI Utilisation de CPU Différence sémantique entre PBS et maui –PBS utilise des nœuds, mais maui utilise des CPUs. Exemplaire: –Cluster avec 10 nœuds (bi-pro) = 20 CPU. –JDL avec “NodeNumber = 11”. –Maui OK : 11 < 20 CPU disponibles. –PBS NON : 11 > 10 nœuds disponibles. –Le gatekeeper accepte ce job, mais se plante! Solution: –Réécrit la contrainte du nœud au niveau batch. –“-l nodes=11” comme “-l nodes=9+nodes=1,ppn=2”. Torque >= et Maui >= 3.2.6p11
NA4 Status – C. Loomis – 24/03/ Enabling Grids for E-sciencE INFSO-RI Espace Scratch Possible de utiliser une espace disk local: –TMPDIR (torque/PBS) –EDG_WL_SCRATCH (“job wrapper”) Malheursement: –mpirun ne fonctione pas N'utilisez pas EDG_WL_SCRATCH pour MPI
NA4 Status – C. Loomis – 24/03/ Enabling Grids for E-sciencE INFSO-RI Difficultés Non-Résolues Impossible –Configurer MPI sans utiliser tous les CPUs. –Remplacer “mpirun” avec “mpiexec”. Difficultés –Détecter un système de fichiers partagés/non-partagés. –Faire un planning efficace sans contraintes de jobs. Mais... –MPI au niveau de base fonctionne sur LCG2. –Les versions plus récentes de torque, MPICH, et maui arriveront dans les “releases” futures de LCG2.