 Grand Large Tolérance automatique aux défaillances par points de reprise et retour en arrière dans les systèmes hautes performances à passage de message.

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
Licence pro MPCQ : Cours
1 CNAM Vendredi 29 Novembre 2002 Bases de Données Avancées UV C Responsable : Mr Scholl PROTOCOLE A DEUX PHASES Meryem Guerrouani.
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Réseau ATB du CClin Paris-Nord – résultats 2011 LL, 22/11/ Réseau antibiotiques du CClin Paris-Nord : Résultats 2011 Coordination: Dr François LHÉRITEAU.
Les systèmes d’informations documentaires et les ENT Éléments de cahier des charges pour les projets nouveaux.
Introduction à la tolérance aux défaillances
Sous-projet IV Communications Placement/Ordonnancement.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Demande globale, élasticités et équilibre de marché
Journées franciliennes 2006 Moussa ELKIHEL (LAAS-CNRS;UPS Toulouse )
Architecture de réseaux
Modèle de coût algorithmique intégrant des mécanismes de tolérance aux pannes Samir Jafar, Thierry Gautier, Jean Louis Roch Laboratoire ID-IMAG Equipe.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
1 ACI DADDI - Réunion de lancement IRISA - Projet ADEPT Michel Hurfin Jean-Pierre Le Narzul Frédéric Tronel 23 mai 2005.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
COTE DIVOIRE IMAGES DES ATROCITES COMMISES PAR ALASSANE DRAMANE OUATARA, SORO GUILAUMES ET LEURS HOMMES 1.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Systèmes distribués C. Delporte-Gallet (ESIEE-IGM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Synchronisation et communication entre processus
Présentation générale
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
Le drapeau canadien comme symbole de fierté nationale : une question de valeurs partagées Jack Jedwab Association détudes canadiennes 28 novembre 2012.
Session 7 1 IST/VIH/SIDA.
Le Concours de Conaissance Francais I novembre 2012.
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Titre : Implémentation des éléments finis sous Matlab
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Algorithme de Bellman-Ford
RACINES CARREES Définition Développer avec la distributivité Produit 1
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
1 10 pt 15 pt 20 pt 25 pt 5 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Les fonctions.
Titre : Implémentation des éléments finis en Matlab
1 Protection des arbres multicast avec une forêt duale Mohand Yazid SAIDI Bernard COUSIN Miklós MOLNÁR 15 Février 2006.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Aire d’une figure par encadrement
Comment rendre une femme heureuse…
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
1 Détection et tolérance aux fautes dans JuxMem Sébastien Monnet IRISA / PARIS Lyon, 05/12/2003.
Transcription de la présentation:

 Grand Large Tolérance automatique aux défaillances par points de reprise et retour en arrière dans les systèmes hautes performances à passage de message Aurélien Bouteiller – Séminaire ID-IMAG – 14 septembre 2006 Aurélien Bouteiller - Séminaire ID-IMAG - 14 septembre 2006 Open MPI Grid’5000

Le calcul hautes performances et les défaillances Introduction à la tolérance aux fautes Environnement MPICH-V Performances Validation de l’environnement MPICH-V Réduction des adjonctions de causalité Comparaison des protocoles Cas des réseaux hauts débits – OpenMPI-V

Calcul hautes performances Pourquoi ?

Calcul hautes performances Évolution du nombre de processeurs 1998 ASCI RED 1TFlop 10k Ppro@333 2006 Xbox 360 1TFlop 1 GPU 2006 AMD Opteron 3Gflop

Calcul hautes performances Programmation des machines parallèles

Calcul hautes performances Programmation des machines parallèles Communications entre processus Mémoire partagée : OpenMP Passage de message : MPI 1 2 3 5 6 4

Calcul hautes performances Fiabilité et temps moyen entre deux fautes

Calcul hautes performances Évolution du MTBF dans le futur BlueGene/L 1 PetaFlop = 200k 5Gflop CPU Avec du matériel fiable actuel (ASCI white), une machine de cette dimension subit 1 défaillance par heure

Calcul hautes performances Survivre aux défaillances Constatations : Les défaillances sont trop fréquentes pour être ignorées Le logiciel est la part majoritaire du coût d’exploitation Rendre une application tolérante aux fautes est difficile De nombreuses applications utilisent MPI Conséquence : Tolérance aux fautes automatique intégrée dans MPI P0 m5 m3 P1 m1 m4 m2 P2

Le calcul hautes performances et les défaillances Introduction à la tolérance aux fautes Environnement MPICH-V Performances Validation de l’environnement MPICH-V Réduction des adjonctions de causalité Comparaison des protocoles Cas des réseaux hauts débits – OpenMPI-V

Système distribué : modélisation Réseau Fiabilité : garanties sur le bon acheminement du message (UDP/TCP) Ordre de livraison : Sans ordre Ordre par canal, si p0 envoi m1 puis m2 vers p1, p1 reçoit d’abord m1 puis m2 Ordre causal, si un évènement f est causé ou influencé par e, alors tout le système doit observer e avant f

Système distribué : modélisation Synchronisme Modèle synchrone : on suppose une horloge globale Fonctionnement par phases Durant la phase les processus calculent Au début de la phase suivante, tous les messages reçus sont disponibles P0 P1 P2 Modèle asynchrone : on suppose qu’il n’existe aucune borne

Système distribué : modélisation Défaillances Panne crash (arrêt total) Un processus n’émet plus aucun message à partir de la faute C’est le type de faute le moins grave Panne de réseau Le réseau ne respecte pas sa spécification (non respect de la fiabilité, livraison dans le désordre) Panne byzantine Un processus présente n’importe quel comportement arbitraire C’est le type de faute le plus grave (corruption mémoire, virus, etc).

Système distribué : modélisation Concensus dans le cas général Consensus asynchrone Terminaison : Les processus décident en un temps fini Agrément : tous les processus non défaillants décident d’une même valeur Validité : Si les processus partagent tous une même valeur initiale, ils décident de cette valeur Type de fautes : des processus peuvent s’arrêter totalement Fischer, Lynch, Paterson, Impossibility of distributed concensus with one faulty process (journal of ACM 32(2), April 1985) 1 … P0 P1

Système distribué : modélisation Pseudosynchronisme Modèle synchrone Les processus réalisent une étape de calcul de façon synchronisée (Horloge globale). A la fin de la phase, tous les messages envoyés ont été reçus On peut résoudre le problème, mais ne correspond pas au monde réel. Modèle asynchrone pas d’horloge globale un message peut transiter un temps arbitrairement long dans un canal Modèle très expressif (Internet), mais on ne peut rien faire! Modèle(s) Pseudosynchrone(s) Pas d’horloge globale Il existe une borne sur le temps de transit d’un message dans un canal Equivalent avec l’existence d’un détecteur de défaillances (appelé Oracle) (Chen, Toueg, Aguilera: On the QoS of failure detectors, proc. Of ICDSN/FTCS-30, June 2000) Représente bien les réseaux de diamètre connu constitué de compostants temps réels (typiquement LAN/Clusters), permet de résoudre le problème! (Chen, Toueg: Unreliable failure detectors for reliable distributed systmes, Journal of the ACM 43(2) march 1996) The main fault tolerance techniques uses checkpoint relatve techniques: coordinated or not. It consists in checkpointing the state of all processes and restarting from a preceding image when a fault occurs. The main difficulty of checkpoint techniques is due to the non determinism of distributed executions. In MPI applications this non determinism comes from order of non named message reception. Considering a very simple algorithm which takes local checkpoint image at random times. When P0 crash it restart from it’s last checkpoint at C1. From this point due to non determinism it may reach a different state where it sends a different message M three prime. But P1 still consider that P0 has sent m3. So we have to also roll back P1 to a checkpoint preceding reception of m3, at C2. The same problem appears at C2, leading to roll back P2 to C3, and then P1 to execution beginning. This is called the domino effect.

Algorithmes de tolérance aux fautes Choix d’une méthode générale Stabilisation Autostabilisation Réplication P1#1 P1#2 P1#3 P2#1 P1#2 P1#1 P1#3 P2#1 Active Passive

Algorithmes de tolérance aux fautes Points de reprise Ckpt P0 P1 P2 C3 C1 m1 m2 m5 C2 m4 m3

Algorithmes de tolérance aux fautes Points de reprise Ckpt P0 m5 m3 P1 m1 m4 m2 P2 C3 C2 C1

Algorithmes de tolérance aux fautes Points de reprise Points de reprise non coordonnés : état global incohérent L’ordre des réceptions est non déterministe Les messages reçus non envoyés par rapport à la ligne de reprise sont incohérents L’effect domino peut provoquer le retour jusqu’au début même avec une seule faute Perte de toute l’exécution, coût d’une faute imprévisible P0 m5 m3 P1 m1 m4 m2 P2 C3 C2 C1

Algorithmes de tolérance aux fautes État global incohérent Définition : coupe collection de points de reprises Ci,k (kieme point de reprise du processus i) telle qu’elle contient un unique point de reprise par processus. Type de message par rapport à une coupe C Passé : émission et réception sont avant C (m2 par rapport à C1) Futur : émission et réception sont après C (m5 par rapport à C1) En-transit: émission avant C, réception après C (m4 par rapport à C1) Orphelin: émission après C, réception avant C (m2 par rapport à C2) Définition : Coupe cohérente Pas de message orphelin Tous les messages en-transit sont enregistrés P0 m5 m3 P1 m1 m4 m2 P2 C3 C2 C1

Algorithmes de tolérance aux fautes Coupe cohérente (Chandy&Lamport)

Algorithmes de tolérance aux fautes Coupe cohérente (Chandy&Lamport)

Algorithmes de tolérance aux fautes Coupe cohérente (Chandy&Lamport)

Algorithmes de tolérance aux fautes Coupe cohérente (Chandy&Lamport)

Algorithmes de tolérance aux fautes Coupe cohérente (Chandy&Lamport) Coût négligeable sur l’exécution sans faute Synchronisation globale (temps d’enregistrement d’une coupe cohérente long) Une faute unique provoque le retour de tous les processus à leur point de reprise : coût de récupération élevé

Algorithmes de tolérance aux fautes Enregistrement de messages Si un processus est déterministe par parties, enregistrer les évènements non déterministes permet de rejouer l’exécution initiale L’ordre des réceptions sur le réseau est non déterministe P0 m5 m3 P1 m1 m4 m2 P2 C3 C2 C1

Algorithmes de tolérance aux fautes Enregistrement pessimiste sender-based 3 problèmes : Messages en-transit : enregistrement du message sur l’émetteur Ordre des réceptions non déterministe : enregistrement de l’ordre des évènements sur un support stable Propagation transitive de dépendance avec des évenements non déterministes interdite : Retardement des émissions SP0 {rm1 ,rm2} Ok-2 {rm1 ,rm2} rm1 rm2 P0 m3 m2 ?m2 m2 P1 [m2] m4 m1 m1 ?m1 P2 [m1]

Algorithmes de tolérance aux fautes Enregistrement pessimiste sender-based Messages en-transit et fautes multiples : Messages en-transit : enregistrement du message sur l’émetteur Si l’émetteur disparaît, les messages disparaissent : enregistrement en même temps que le point de reprise En l’absence de point de reprise, le message est regénéré SP0 {rm1 ,rm2} Ok-2 {rm1 ,rm2} rm1 rm2 P0 m3 m2 ?m2 m2 P1 [m2] [m2] m4 m1 m1 Ckpt + [m2] ?m1 P2 [m1] Ckpt

Algorithmes de tolérance aux fautes Enregistrement causal problème : Interdiction des dépendences transitives : Latence multipliée par 3 avec algo pessimiste Lever l’interdiction : propager les évènements vers ceux qui en dépendent SP0 {rm1 ,rm2} Ok-2 {rm1 ,rm2} rm1 rm2 P0 m3 m2 ?m2 {rm1 ,rm2} m2 P1 [m2] m4 m1 m1 ?m1 {rm1 ,rm2, rm3} P2 [m1]

Algorithmes de tolérance aux fautes Enregistrement causal : graphe problème : La propagation d’évènements coûte cher en bande passante Certains évènements envoyés sont déjà connus du destinataire La structure de graphe de causalité permet de détecter de tels évènements rm1 rm2 rm4 P0 m3 m4 m2 {rm1 ,rm2} {rm3 } P1 rm3 m5 m6 m1 {rm1 ,rm2, rm3} {rm1 ,rm2, rm3, rm5} P2 rm5

Algorithmes de tolérance aux fautes Enregistrement causal : graphe rm1 rm2 rm4 P0 P1 rm3 P2 rm5 rm1 rm2 rm4 P0 m3 m4 m2 {rm1 ,rm2} {rm3 } P1 rm3 m5 m6 m1 {rm1 ,rm2, rm3} { rm3, rm5} P2 rm5

Objectif : Etude expérimentale des protocoles de tolérance aux fautes Modèle pseudosynchrone – Pannes crash – Automatique – points de reprise : bien adapté pour le calcul hautes performances Concevoir des algorithmes originaux adapté au calcul hautes performances Explorer des optimisations techniques Plusieurs familles d’algorithmes (coupe cohérente, enregistrement de message pessimiste, causal) : comparaison expérimentale Environnement équitable pour exprimer les algorithmes et les comparer Classification suivant des critères de performance et de résistance aux fautes

Le calcul hautes performances et les défaillances Introduction à la tolérance aux fautes Environnement MPICH-V Performances Validation de l’environnement MPICH-V Réduction des adjonctions de causalité Comparaison des protocoles Cas des réseaux hauts débits – OpenMPI-V

MPICH-V : comparaison avec les implémentations existantes Classification des implémentations suivant deux critères Niveau dans la pile logicielle MPI Algorithme de tolérance aux défaillances utilisé

MPICH-V : gestion des communications MPI

MPICH-V : cas particulier de ch_v1 Enregistrement de message distant

MPICH-V : environnement partagé Architecture générale

MPICH-V : enregistrement non bloquant des points de reprise Bibliothèque de point de reprise Condor Stand Alone Checkpointing Copie locale du processus avec fork() et transfert non bloquant (1) fork L’exécution reprend après (4), on réouvre les canaux de communication et reprend les opérations code Ordre Ckpt  checkpoint performed using the condor standalone checkpoint library.  Reducing cost on the ongoing computation  it is done asynchronously. At the reception of a checkpoint order (from the checkpoint scheduler), the MPI process forks, the parent continues its execution while the son terminates the communications, closes the sockets and produces its checkpoint image. This image is sent directly to the Checkpoint Server, which is an efficient multi- connections multi-processes server. Using a distant checkpoint server will be a bottleneck but this is mandatory as local storage of checkpoint images does not ensure fault tolerance.  Message logging ckpt ends  message payload  CL ckpt ends  sends the in transit messages at the time of the checkpoint order reception. CSAC (2) Terminer les comms en cours (3) Fermer les canaux (4) Appeler ckpt_and_exit() libmpichv fork Le point de reprise est transféré à la volée sur le support stable : serveur, disque ou les deux

MPICH-V : ordonnancement des points de reprise (enregistrement de messages) La non coordination des points de reprise implique que tous les messages peuvent être en-transit L’enregistrement local occupe de la mémoire Le transfert vers le serveur occupe du débit Diminution du coût en effaçant les messages devenus inutiles (preuve que seuls les messages orphelins et dans le passé sont effacés) L’ordonnancement des points de reprise permet de maximiser le nombre de messages effacés P0 P1 1 2 3 doit être enregistré 3 1 et 2 peuvent être effacés  Garbage collector 1, 2 et 3 peuvent être effacés Rien à enregistrer Mémoire P0 This leads to a tradeoff to compute: checkpointing p0 before p1 implies that messages from p0 to p1 must be saved, but messages from p1 to p0 will be spared. We have designed an adaptive algorithm which computes the cost and benefice of a checkpoint and order the checkpoints of processes accordingly a « best benefice with smaller price » heuristique. It is implemented in the checkpoint scheduler. Mémoire P1 Serveur ckpt

MPICH-V : enregistrement de message causal paresseux Nouvelle stratégie causale paresseuse non optimale mais de moindre coût en calcul Preuve de correction fournie

Le calcul hautes performances et les défaillances Introduction à la tolérance aux fautes Environnement MPICH-V Performances Validation de l’environnement MPICH-V Réduction des adjonctions de causalité Comparaison des protocoles Cas des réseaux hauts débits – OpenMPI-V

Performances Conditions expérimentales Programmes étalons : NetPIPE : ping-pong MPI NAS Parallel Benchmark CG : fort taux de communication, nombreux messages courts SP, BT : taux de communication moyen, nombreux messages longs FT : opérations collectives, messages de grande taille LU : très grand nombre de messages de taille moyenne Réseau noeud Un noeud fiable Distributeur et détecteur +Serveur de point de reprise +enregistreur d’évènement (si requis) +ordonnanceur de points de reprise The performance evaluation has been performed in the LRI cluster, at Paris-south university. We used thirty-two Athlons eighteen hundred plus, with one gigabyte of RAM, IDE disks, and sixteen dual Pentium three at five hundred megahertz, and five hundred twelve megabyte of RAM. All were linked with a one hundred megabit ethernet network. The deployment consisted of a single reliable node running a single checkpoint server, the checkpoint scheduler, the dispatcher and an event logger for V2. In real clusters we cannot attempt to have access to a large number of stable dedicated resources. Stress of these reliable component is also part of the experiment. noeud

Validation de MPICH-V : Points de reprises BT.B.1 BT.A.4

Validation de MPICH-V : communications MPI Latence 100Mb/s (1octet) (µs)

Validation de MPICH-V : performance d’application

Le calcul hautes performances et les défaillances Introduction à la tolérance aux fautes Environnement MPICH-V Performances Validation de l’environnement MPICH-V Réduction des adjonctions de causalité Comparaison des protocoles Cas des réseaux hauts débits – OpenMPI-V

Stratégies d’adjonction de causalité Ping-pong ½ sans causalité

Stratégies d’adjonction de causalité Quantité de données de causalité Données de causalité échangées (% total des messages)

Stratégies d’adjonction de causalité Temps de manipulation de la causalité

Stratégies d’adjonction de causalités Performance d’applications

Le calcul hautes performances et les défaillances Introduction à la tolérance aux fautes Environnement MPICH-V Performances Validation de l’environnement MPICH-V Réduction des adjonctions de causalité Comparaison des protocoles Cas des réseaux hauts débits – OpenMPI-V

Comparaison des protocoles Ping-pong

Comparaison des protocoles Performance d’applications 1/2 LU : enregistrement sur l’émetteur dépasse la capacité mémoire

Comparaison des protocoles Performance d’applications 2/2

Comparaison des protocoles Résistance aux fautes Coupe cohérente : plus performant hors faute Enregistrement de message : plus performant à haute fréquence de fautes Extrapolation : une application occupant 1Go de RAM par nœud, 200 nœuds par serveur de pt de reprise Croisement = 1 faute / 10 heures Causal améliore la latence par rapport à pessimiste, au prix d’une diminution du débit

Le calcul hautes performances et les défaillances Introduction à la tolérance aux fautes Environnement MPICH-V Performances Validation de l’environnement MPICH-V Réduction des adjonctions de causalité Comparaison des protocoles Cas des réseaux hauts débits – OpenMPI-V

Réseaux rapides Supprimer les copies mémoires La performance des réseaux rapide est diminuée par les copies mémoires Supprimer les copies mémoires dans C&L est uniquement technique L’enregistrement de message impose une copie sur l’émetteur : sortir cette copie du chemin critique (diminution de latence) L’enregistrement de message suppose une livraison atomique : faux en réalité, impose une copie inutile changer le modèle Séparation de la correspondance et de la livraison du message La correspondance peut-être non déterministe (source non spécifiée)

Réseaux rapides Déterminisme de la livraison Contrairement au modèle général, certaines livraisons sont déterministes dans MPI (enregistrement inutile) Fonctions d’accès au message livré : Recv, Wait, WaitAll : livraison déterministe WaitAny : un des messages parmi un ensemble est terminé, lequel ? WaitSome : un ou plusieurs messages sont terminés, lesquels, combien ? Probe : un message est-il prêt à une date donnée ? Combien de fois n’est-il pas prêt ? On enregistre deux évènements distincts pour un message : La correspondance au début du message si il est sans source spécifiée Le résultat de l’opération de livraison

Réseaux rapides Architecture OpenMPI-V PML-V parasite le vrai PML et charge un « Vprotocol » Vprotocol remplace les fonctions d’interface Des BTL spéciaux communiquent avec l’enregistreur d’évènements, et enregistrent les messages sur l’émetteur Lors de la récupération, les messages sans source ont leur source spécifiée par l’enregistrement des évènements Le résultat des livraisons non déterministes est rejoué à l’identique

Réseaux rapides Performance ping-pong Myrinet

Réseaux rapides Performances OpenMPI-Vpessimist Aucune dégradation de performance pour les messages à source spécifiée Latence multipliée par 3 uniquement pour les messages sans source Pas de coût de copies mémoires

Conclusions Algorithmes adaptés pour le contexte du calcul numérique hautes performances Protocole par vue globale coordonnée (Chandy&Lamport) Algorithme non bloquant pour les points de reprise Enregistrement local et distant des points de reprise Enregistrement de messages pessimiste Enregistrement de message distant décentralisé : protocole original Enregistrement de message basé sur l’émetteur : traitement optimisé des messages en-transit Enregistrement de messages Causal Première implémentation de l’algorithme LogOn Nouvel algorithme paresseux Environnement MPICH-V Implémentation de 6 protocoles différents (Chandy&Lamport, 3 stratégies causal, 2 pessimistes) L’environnement est validé expérimentalement Comparaison de trois stratégies causales Introduction d’un enregistreur d’évènements dans le protocole causal La présence d’un support stable impacte plus les performances que le choix de l’algorithme causal Comparaison de performances entre les protocoles Avantage pour CL pour la performance hors faute Avantage pour Pessimiste en terme de résistance aux fautes Causal est un bon compromis Réseaux rapides Environnement « zéro copie » OpenMPI-V Modification des hypothèses d’enregistrement de message pour traiter l’absence de copies Détection des évènements déterministes : diminution du coût général de l’enregistrement pessimiste

Travaux futurs Collaboration avec les couches hautes de OpenMPI (opérations collectives) pour détecter les évènements non déterministes sémantiquement déterministes Enregistreur d’évènements décentralisé pour protocole causal Décentralisation de l’enregistrement des points de reprise (Reed-Solomon + incremental ckpt) Investigation : problème de passage à l’échelle structurel de la vague de synchro CL ? (Grid5000) Évaluation à grande échelle avec Grid5000, et comparaison dans OpenMPI-V de toutes les familles de protocoles (en particulier pour C&L)

Tolérance aux défaillances dans les systèmes hautes performances  Grand Large Tolérance aux défaillances dans les systèmes hautes performances QUESTIONS ?