La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Jeudi 8 Février 2007 REMISE DES PRIX de la Fondation Louis Leprince Ringuet Conception et évaluation d’un algorithme de tolérance aux fautes par points.

Présentations similaires


Présentation au sujet: "Jeudi 8 Février 2007 REMISE DES PRIX de la Fondation Louis Leprince Ringuet Conception et évaluation d’un algorithme de tolérance aux fautes par points."— Transcription de la présentation:

1 Jeudi 8 Février 2007 REMISE DES PRIX de la Fondation Louis Leprince Ringuet Conception et évaluation d’un algorithme de tolérance aux fautes par points de reprise coordonnés pour MPICH2 Camille Coti, Télécom INT

2 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Le calcul à hautes performances  Applications : Recherche médicale (“in silico”) Simulation de catastrophes naturelles Calculs pour la physique Optimisation combinatoire Prévisions météorologiques …  Obtention de performances importantes de calcul Supercalculateurs Mutualisation de ressources (grilles)

3 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Le projet MPICH-V  Taille des systèmes actuels Blue Gene/L : 132 072 processeurs Nouveaux problèmes liés au nombre de composants  La norme MPI  Stage effectué à l’INRIA Futurs Équipe : Grand Large  Partenariat avec le LRI (UMR Université Paris-Sud & CNRS) Équipe : Parallélisme Earth Simulator ASCI Q

4 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Le problème des pannes Source : Pr. Daniel Reed ASCI White Blue Gene/L

5 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Ma mission  Implémentation et évaluation d’un protocole Implémentation complète (production d’un logiciel)  Implémentation du serveur de points de reprise Évaluation du protocole  Conception d’un protocole Conception théorique Prototypage et évaluation

6 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES MPICH2-Pcl  Retour sur points de reprise coordonnés Algorithme de Chandy-Lamport : implémentation bloquante Synchronisation des nœuds Enregistrement des images des processus  Le serveur de points de reprise  Résultats : Résultats expérimentaux  Testé à grande échelle et sur grille  Coût de la synchronisation  Performances sur réseaux rapides Publication  Supercomputing (SC’06) à Tampa

7 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Vcausal  Retour sur points de reprise non coordonnés Journalisation de messages Enregistrement des relations de causalité  L’enregistreur d’événements Centralisé  Sensibilité aux fautes  Diminution des performances à grande échelle Distribué  Cohérence  Performances  Tolérance aux défaillances

8 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Conclusion  Protocoles de points de reprise coordonnés Encourageants Coût d’une synchronisation globale  Protocoles de points de reprise non coordonnés Adaptés aux fréquences de fautes élevées Point central de fautes éliminé dans le protocole Vcausal

9 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Perspectives  Travaux futurs Intégration dans OpenMPI et MPICH2 Grille Projet Européen : calcul sur grille Protocoles adaptés à la grande échelle (lazy, CIC) OpenMPI

10 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Merci de votre attention Questions ?

11 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Enjeux de la tolérance aux défaillances  Les défaillances sont inévitables dans les grands systèmes  Perte du calcul en cours  Calculs longs impossibles à terminer ! -> nécessité de tolérer les pannes

12 Jeudi 8 Février 2007 REMISE MEILLEURS 2006 DES PRIX DES STAGES Performances


Télécharger ppt "Jeudi 8 Février 2007 REMISE DES PRIX de la Fondation Louis Leprince Ringuet Conception et évaluation d’un algorithme de tolérance aux fautes par points."

Présentations similaires


Annonces Google