Jeudi 8 Février 2007 REMISE DES PRIX de la Fondation Louis Leprince Ringuet Conception et évaluation d’un algorithme de tolérance aux fautes par points de reprise coordonnés pour MPICH2 Camille Coti, Télécom INT
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Le calcul à hautes performances Applications : Recherche médicale (“in silico”) Simulation de catastrophes naturelles Calculs pour la physique Optimisation combinatoire Prévisions météorologiques … Obtention de performances importantes de calcul Supercalculateurs Mutualisation de ressources (grilles)
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Le projet MPICH-V Taille des systèmes actuels Blue Gene/L : processeurs Nouveaux problèmes liés au nombre de composants La norme MPI Stage effectué à l’INRIA Futurs Équipe : Grand Large Partenariat avec le LRI (UMR Université Paris-Sud & CNRS) Équipe : Parallélisme Earth Simulator ASCI Q
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Le problème des pannes Source : Pr. Daniel Reed ASCI White Blue Gene/L
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Ma mission Implémentation et évaluation d’un protocole Implémentation complète (production d’un logiciel) Implémentation du serveur de points de reprise Évaluation du protocole Conception d’un protocole Conception théorique Prototypage et évaluation
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES MPICH2-Pcl Retour sur points de reprise coordonnés Algorithme de Chandy-Lamport : implémentation bloquante Synchronisation des nœuds Enregistrement des images des processus Le serveur de points de reprise Résultats : Résultats expérimentaux Testé à grande échelle et sur grille Coût de la synchronisation Performances sur réseaux rapides Publication Supercomputing (SC’06) à Tampa
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Vcausal Retour sur points de reprise non coordonnés Journalisation de messages Enregistrement des relations de causalité L’enregistreur d’événements Centralisé Sensibilité aux fautes Diminution des performances à grande échelle Distribué Cohérence Performances Tolérance aux défaillances
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Conclusion Protocoles de points de reprise coordonnés Encourageants Coût d’une synchronisation globale Protocoles de points de reprise non coordonnés Adaptés aux fréquences de fautes élevées Point central de fautes éliminé dans le protocole Vcausal
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Perspectives Travaux futurs Intégration dans OpenMPI et MPICH2 Grille Projet Européen : calcul sur grille Protocoles adaptés à la grande échelle (lazy, CIC) OpenMPI
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Merci de votre attention Questions ?
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Enjeux de la tolérance aux défaillances Les défaillances sont inévitables dans les grands systèmes Perte du calcul en cours Calculs longs impossibles à terminer ! -> nécessité de tolérer les pannes
Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Performances