= NodeNumber RB envoie un job à gatekeeper –Globus le traite comme job “multiple”. Système de batch démarre le job –Nombre de CPUs nécessaires. Job wrapper –Appelle “mpirun” directement. Traitement de job normal..."> = NodeNumber RB envoie un job à gatekeeper –Globus le traite comme job “multiple”. Système de batch démarre le job –Nombre de CPUs nécessaires. Job wrapper –Appelle “mpirun” directement. Traitement de job normal...">

La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

INFSO-RI-508833 Enabling Grids for E-sciencE www.eu-egee.org Support MPI avec Torque/PBS C. Loomis (LAL-Orsay) EGEE-FR Conférence Téléphonique 7 Juin 2005.

Présentations similaires


Présentation au sujet: "INFSO-RI-508833 Enabling Grids for E-sciencE www.eu-egee.org Support MPI avec Torque/PBS C. Loomis (LAL-Orsay) EGEE-FR Conférence Téléphonique 7 Juin 2005."— Transcription de la présentation:

1 INFSO-RI-508833 Enabling Grids for E-sciencE www.eu-egee.org Support MPI avec Torque/PBS C. Loomis (LAL-Orsay) EGEE-FR Conférence Téléphonique 7 Juin 2005

2 NA4 Status – C. Loomis – 24/03/2005 2 Enabling Grids for E-sciencE INFSO-RI-508833 Grandes Lignes Jobs MPI dans LCG2 Problèmes résolus –Logiciel MPICH –Job Managers –Utilisation de CPUs Difficultés non-résolues Informations détaillées –http://goc.grid.sinica.edu.tw/gocwiki/MPI_Support_with_Torque

3 NA4 Status – C. Loomis – 24/03/2005 3 Enabling Grids for E-sciencE INFSO-RI-508833 Jobs MPI dans LCG2 JDL –JobType = "MPICH"; –NodeNumber = 11; RB choisit une ressource –other.GlueCEInfoTotalCPUs >= NodeNumber RB envoie un job à gatekeeper –Globus le traite comme job “multiple”. Système de batch démarre le job –Nombre de CPUs nécessaires. Job wrapper –Appelle “mpirun” directement. Traitement de job normal...

4 NA4 Status – C. Loomis – 24/03/2005 4 Enabling Grids for E-sciencE INFSO-RI-508833 Logiciel MPICH LCG2 distribution par défaut –MPICH 1.2.5 –Installée dans un endroit non-standard. –N'inclut pas les bibliothèques de développement. –N'inclut pas les binaires mpicc, etc. Utilisez une version plus récente –MPICH 1.2.6 –Installée dans les répertoires standards. –Inclut tous les outils de développement. –Disponible vers LCG wiki.

5 NA4 Status – C. Loomis – 24/03/2005 5 Enabling Grids for E-sciencE INFSO-RI-508833 Job Managers Torque/PBS –lcgpbs  peut avoir un système de fichiers non-partagés, mais  ne supporte pas les jobs MPI –pbs  doit avoir un système de fichiers partagés, et  supporte les jobs MPI LSF –Même chose pour “lcglsf” et “lsf”. (Je pense.) Nom de système de batch –Doit être “pbs” ou “lsf”. –“torque”, le défaut, ne marche pas!

6 NA4 Status – C. Loomis – 24/03/2005 6 Enabling Grids for E-sciencE INFSO-RI-508833 Utilisation de CPU Différence sémantique entre PBS et maui –PBS utilise des nœuds, mais maui utilise des CPUs. Exemplaire: –Cluster avec 10 nœuds (bi-pro) = 20 CPU. –JDL avec “NodeNumber = 11”. –Maui OK : 11 < 20 CPU disponibles. –PBS NON : 11 > 10 nœuds disponibles. –Le gatekeeper accepte ce job, mais se plante! Solution: –Réécrit la contrainte du nœud au niveau batch. –“-l nodes=11” comme “-l nodes=9+nodes=1,ppn=2”. Torque >= 1.2.0 et Maui >= 3.2.6p11

7 NA4 Status – C. Loomis – 24/03/2005 7 Enabling Grids for E-sciencE INFSO-RI-508833 Espace Scratch Possible de utiliser une espace disk local: –TMPDIR (torque/PBS) –EDG_WL_SCRATCH (“job wrapper”) Malheursement: –mpirun ne fonctione pas N'utilisez pas EDG_WL_SCRATCH pour MPI

8 NA4 Status – C. Loomis – 24/03/2005 8 Enabling Grids for E-sciencE INFSO-RI-508833 Difficultés Non-Résolues Impossible –Configurer MPI sans utiliser tous les CPUs. –Remplacer “mpirun” avec “mpiexec”. Difficultés –Détecter un système de fichiers partagés/non-partagés. –Faire un planning efficace sans contraintes de jobs. Mais... –MPI au niveau de base fonctionne sur LCG2. –Les versions plus récentes de torque, MPICH, et maui arriveront dans les “releases” futures de LCG2.


Télécharger ppt "INFSO-RI-508833 Enabling Grids for E-sciencE www.eu-egee.org Support MPI avec Torque/PBS C. Loomis (LAL-Orsay) EGEE-FR Conférence Téléphonique 7 Juin 2005."

Présentations similaires


Annonces Google