VIP et GATE-Lab : retour d’expérience 07/04/2017 VIP et GATE-Lab : retour d’expérience Sorina Pop, Rafael Silva, Tristan Glatard Université de Lyon, CREATIS; CNRS UMR5220; Inserm U1044; INSA-Lyon; Université Lyon 1, France JRES, Montpellier 2013
Virtual Imaging Platform (VIP) 07/04/2017 CT and PET whole-body simulations (C. Lartizien, J. Tabary) Plate-forme web intégrant des applications Simulation médicale: CT, IRM, TEP, ultrason, radiothérapie Analyse d’images Connectée à EGI (European Grid Infrastructure) Calcul (+100 clusters, 25,000 cœurs) Stockage (~ 4 PB) Utilisée largement 453 utilisateurs enregistrés de 50 pays 499 années CPU consommées en 2012 Le certificat robot le plus utilisé dans EGI en 2012 Simulated prostate radiotherapy treatment plan (L. Grevillot and D. Sarrut) Simulated cardiac DWI (L. Wang, Y. Zhu, I. Magnin) in-vivo simulated T. Glatard, C. Lartizien, B. Gibaud, R. Ferreira da Silva, G. Forestier, F. Cervenansky, et al. "A Virtual Imaging Platform for multi-modality medical image simulation", IEEE Transactions on Medical Imaging, vol. 32, no. 1, pp. 110-118, 2013 Echocardiographies – parasternal short axis view (O. Bernard and M. Alessandrini) 2/14
Virtual Imaging Platform (VIP) 07/04/2017 Un portail web pour l’exécution des applications d’imagerie médicale sur grilles de calcul Launch applications Transfer files http://vip.creatis.insa-lyon.fr 3/14
GATE-Lab Applet Java intégrée dans VIP Fonctionnalités 07/04/2017 Applet Java intégrée dans VIP Dédiée aux simulations GATE Fonctionnalités Détection des entrées à partir du fichier principal de configuration de GATE Upload automatique des entrées Choix du nombre de tâches parallèles en fonction du temps CPU estimé 4/14
5. Submit and 6. Schedule pilot jobs Architecture VIP 07/04/2017 0. Login 1. Send input data 3. Launch workflow User Workflow engine (Moteur + GASW) Web portal 2. Transfer input files 4. Generate and submit task Storage system 8. Get files 9. Execute 10. Upload results 7. Get task Pilot Manager (DIRAC) Computing sites 5. Submit and 6. Schedule pilot jobs 5/14
Utilisation des tâches pilotes Principe des tâches pilotes Ressources occupées par les pilotes Tâches ordonnancées sur les pilotes Avantages principaux Temps d’attente réduit Impact réduit des erreurs VIP utilise l’instance France Grilles de Dirac Hébergée au Centre de Calcul de l’IN2P3 à Lyon Administrée à tour de rôle par une group de personnes représentant les principales communautés utilisatrices Voir aussi la contribution 66 des JRES 2013 : « France Grilles, des opérations aux utilisateurs », Geneviève ROMIER, Hélène CORDIER, Gilles MATHIEU 6/14
Défis 07/04/2017 Latence Re-soumission des tâches échouées Hétérogénéité (durée d’exécution très variable pour un même calcul) Jobs 7/14
Equilibrage de charge dynamique Simulations Monte-Carlo Simuler P évènements aléatoires Avec n jobs Ex: estimation de π Algorithmes d’équilibrage de charge Statique Dynamique Worker: Simuler E/n évènements http://en.wikipedia.org/wiki/Monte_Carlo_method Worker: While “stop” not received: Simulate 1 event End while Master: While e ≠ E e ←# simulated events Stop the workers 8/14
Equilibrage de charge dynamique : résultats 07/04/2017 Expériences réalisées avec GATE sur EGI 450000 événements, 75 tâches, 3 répétitions pour chaque configuration Static load balancing + pilot jobs Dynamic load balancing + pilot jobs S. Camarasu-Pop, T. Glatard, J. T. Moscicki, H. Benoit-Cattin, and D. Sarrut, "Dynamic partitioning of GATE Monte-Carlo simulations on EGEE“ Journal of Grid Computing, vol. 8, no. 2, pp. 241-259, mar, 2010 9/14
Zoom sur les simulations Monte-Carlo 07/04/2017 Optimalité de l’équilibrage dynamique Statique Dynamique La fusion de résultats partiels reste problématique Utilisations de plusieurs tâches de fusion Sauvegarde périodique de résultats + fusion incrémentale S. Camarasu-Pop, T. Glatard, R. Ferreira da Silva, P. Gueth, D. Sarrut, and H. Benoit-Cattin "Monte-Carlo Simulation on Heterogeneous Distributed Systems: a Computing Framework with Parallel Merging and Checkpointing Strategies" Future Generation Computer Systems, vol. 29, no. 3, pp. 728--738, 03/2013 10/14
Réplication automatique de tâches Répliquer des tâches en retard Faire attention au gaspillage de ressources Algorithme Si La tâche est en retard alors Si Tous les réplicas de la tâche sont en retard alors Si Aucun réplica est en attente alors Répliquer la tâche Fin si Si Un réplica de la tâche est en retard alors Annuler le réplica 11/14
Limitations Exécutions très courtes (< 20 min CPU) Sont pénalisées par les overheads Exécutions très longues (> une année CPU) Ont besoin d’intervention pour finir Support pour les contraintes des applications RAM > 2 GB Espace disque > 2 GB Transfert de gros fichiers L’intégration de nouvelles applications demande l’intervention des experts Développement de workflows 12/14
Conclusion VIP Effort demandé Une des plates-formes les plus utilisées dans EGI Les utilisateurs peuvent transférer des fichiers et lancer des applications Les sites de calcul et l’emplacement de stockage des fichiers sont choisis automatiquement Les applications sont externes aux portail Effort demandé Administration système Support logiciel Support utilisateurs Développement logiciel 13/14
Merci pour votre attention ! Questions ? 14/14