Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
MPICH-Vcl vs MPICH-Pcl
Camille Coti, Thomas Herault, Pierre Lemarinier, Laurence Pilard, Ala Rezmerita, Eric Rodriguez, Franck Cappello Journées GDX, 13/10/06
2
Plan Tolérance aux fautes Pourquoi Comment
Retour sur points de reprise coordonnés Implémentation bloquante Implémentation non bloquante Performances Grande échelle Cluster Cluster à communications rapides
4
MPI Message Passing Interface MPICH, OpenMPI, LAM/MPI, FT-MPI...
MPI_Send(...) MPI_Recv(...) MPICH, OpenMPI, LAM/MPI, FT-MPI... MPI1:1994 MPI2:1997
5
Checkpointing Niveau système Niveau utilisateur Serveur de checkpoints
Pile, registres, VM Volumes importants de données Niveau utilisateur Variables + PC Volumes moins importants Sérialisation explicite Serveur de checkpoints support stable stocke et restitue les checkpoints
6
In distributed systems
État de l'art Automatic Non Automatic coordinated based Log based Coordinated checkpoint Pessimistic log Causal log Optimistic log Cocheck Independent of MPI Framework Optimistic recovery In distributed systems coherent checkpoint Manetho Starfish Enrichment of MPI Clip Semi-transparent checkpoint FT-MPI Modification of MPI routines User Fault Treatment MPI/FT Redundance of tasks Egida LAMMPI MPI-FT Centralized server Pruitt 98 API Communication Lib. MPICH-V Sender based Mess. Log. Level
7
MPICH-V Architecture :
Checkpoint scheduler : permet de faire le garbage quand un checkpoint est pris Checkpoint server : stocke les checkpoints Dispatcher : sert au lancement de l'application
8
Plan Tolérance aux fautes Pourquoi Comment
Retour sur points de reprise coordonnés Implémentation bloquante Implémentation non bloquante Performances Grande échelle Cluster Cluster à communications rapides
9
MPICH-Pcl Implémentation bloquante de Chandy-Lamport
Circulation de marqueurs Synchronisation Reprise de l'exécution une fois que tous les checkpoints ont été pris
10
MPICH-Vcl Implémentation non bloquante de Chandy- Lamport
Enregistrement de messages L'exécution ne s'arrête pas Pas de synchronisation sur l'ensemble du système
11
Plan Tolérance aux fautes Pourquoi Comment
Retour sur points de reprise coordonnés Implémentation bloquante Implémentation non bloquante Performances Grande échelle Cluster Cluster à communications rapides
12
Expérimentations Benchmarks Plate-forme NAS Parallel Benchmarks (NASA)
CG BT Plate-forme Grid'5000 Plate-forme expérimentale Grille Cluster à communication rapides (Myrinet) GdX Cluster à grande échelle
13
Expérimentations sur grille
À grande échelle Avec Pcl, l'exécution s'arrête pour prendre les checkpoints et ne reprend qu'une fois la vague terminée. Synchronisation trop coûteuse avec Pcl
14
Cluster Gigabit Ethernet
Sur grappe de PC Dû au caractère bloquant ou non bloquant. Avec Vcl, les communication et la prise de ckpt sont en compétition. Avec Pcl, l'exécution s'arrête le temps de prendre de ckpt. Plus il y a de CS plus la prise de ckpt va vite, et plus l'exécution peut reprendre rapidement. Nombre de CS : Pcl scalable, pas Vcl
15
Cluster Myricom2000 Grappe à réseau à hautes performances
À fréquence de ckpt trop élevée, Pcl moins performant car coût de la synchronisation. Mais ces fréquences ne sont pas réalistes (qqes 10s secondes). Temps d'exécution fonction linéaire du nb de vagues de checkpoints pour Pcl : une vague prend toujours le même temps, et les communications ne sont pas en concurrence avec la prise de ckpt. Surcoût dû aux copies de Vcl
16
Apports Apport de GdX Apport de Grid'5000 Apport de Kadeploy
Expérience de cluster à grande échelle Apport de Grid'5000 Grille Réseau rapide à Bordeaux Apport de Kadeploy Utilisation de la librairie BLCR
17
Vcl vs Pcl : conclusion Pcl n'est pas adapté à un contexte de grille
Synchronisation trop coûteuse Compétition messages / transferts de checkpoints Dans Pcl : pas de compétition Dans Vcl : compétition donc ralentissement Pcl : temps d'exécution fonction linéaire du nombre de vagues de checkpoints Message-logging de Vcl coûteux sur Myrinet
18
Travaux futurs Vers des protocoles plus adaptés aux grilles GdX2
Évaluation des protocoles pour clusters Conception de protocoles spécifiques (hiérarchiques ?) GdX2 Réseau rapide à grande échelle
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.