La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à la tolérance aux défaillances Joffroy Beauquier LRI CNRS – Université Paris Sud.

Présentations similaires


Présentation au sujet: "Introduction à la tolérance aux défaillances Joffroy Beauquier LRI CNRS – Université Paris Sud."— Transcription de la présentation:

1

2 Introduction à la tolérance aux défaillances Joffroy Beauquier LRI CNRS – Université Paris Sud

3

4 Défaillances

5 Motivation Accroissement du nombre des composants Impossibilité de relancer le système chaque fois quune défaillance se produit Le problème se pose aussi dans le cas séquentiel

6 Trois approches Algorithmes robustes Auto-stabilisation Etats de reprise et retours en arrière

7 Les hypothèses (algorithmes robustes) Les défaillances naffectent quune partie du système Utilisation de la redondance par la multiplication Mais problème du consensus Bien entendu les défaillances peuvent frapper lalgorithme de consensus

8 Types de défaillances (algorithmes robustes) Processus initialement morts Défaillances définitives Omissions Comportement byzantin (malveillant) Hiérarchie de défaillances

9 Les hypothèses (auto- stabilisation) Les défaillances peuvent frapper tout ce qui nest pas fixe dans le système (mémoires, canaux mais pas le code) Les défaillances sont peu fréquentes (par rapport au temps de récupération)

10 Algorithmes robustes Leffet des défaillances est masqué La correction est maintenue tout au long de lexécution Le surcoût dû au contrôle est très important Approche réservée à des systèmes critiques (aviation civile, contrôle de centrales nucléaires, navette spatiale)

11 Algorithmes auto-stabilisants Leffet des défaillances nest pas masqué Après des défaillances, le comportement cesse dêtre correct, mais après un certain délai, il le redevient, sans intervention extérieure ou centralisée Le surcoût en phase stabilisée est faible

12 Auto-stabilisation Temps Etats légitimes Défaillances

13 Problèmes de décision (alg. robustes) Chaque processus dispose dune valeur dentrée Chaque processus (correct) doit écrire de manière irréversible une valeur de sortie La valeur de décision dépend des valeurs dentrée

14 Consensus sur les entrées Calculs répliqués sur plusieurs machines (au début dun pas, les valeurs dentrée sont identiques) Pour chaque pas de calcul, on obtient donc autant de résultats que de réplications En labsence de défaillances tous les résultats sont identiques Avec des défaillances ils peuvent être différents. On veut que les processus non défaillants tombent daccord sur la valeur à utiliser pour le pas suivant

15 Consensus : exemples Leffet dun capteur défectueux, qui donne des résultats différents de ceux des capteurs en bon état, doit être neutralisé La navette spatiale

16 Voteur

17 Diffusion fiable

18 Un diffuseur doit envoyer une valeur à tous les autres processus Chaque processus doit décider une valeur Tous les processus corrects doivent décider la même valeur Si le diffuseur est non-défaillant, la valeur décidée doit être la valeur du diffuseur

19 Commit/abort

20 Commit-Abort Base de données répliquée Une transaction impliquant plusieurs sites doit être exécutée (commit) soit sur tous les sites, soit sur aucun (abort) Vote des sites (oui ou non) Si tous les sites votent oui chacun doit décider oui Si un des sites vote non chacun doit décider non

21 Election Un des processus doit décider dêtre le leader et les autres de ne pas lêtre Régénération du jeton dun token ring Désignation dun serveur

22 Group membership Systèmes en ligne (contrôle du traffic aérien, système dexploitation) Les composants défectueux doivent être réparés Nécessité de reconfigurer le groupe des processeurs actifs

23 Consensus : spécification Terminaison : tout processus non défaillant décide une valeur Accord : deux processus non défaillants ne décident pas deux valeurs différentes Non-trivialité : si les valeurs initiales des processus non défaillants sont égales, cest la seule valeur de décision possible

24 Consensus : résultat dimpossibilité Il nexiste pas dalgorithme résolvant le consensus dans un système asynchrone où les défaillances se réduisent à une seule panne « crash »

25 Contourner le résultat dimpossibilité Introduire des hypothèses de synchronisme partiel Détecteurs de défaillances Solutions probabilistes

26 Les détecteurs de défaillances Chandra et Toueg (1996) Réseau Oracle P en panne? Peut- être!

27 Les détecteurs de défaillances Défaillances de type « crash » Un détecteur de défaillances est un module qui fournit une liste de processus suspectés de crash Détecteur le plus faible pour résoudre le consensus : il existe un instant à partir duquel il existe un processus correct qui nest jamais suspecté

28 Auto-stabilisation Temps Etats légitimes Défaillances Auto-stabilisation Temps Etats légitimes Défaillances

29 Auto-stabilisation : le cas du token ring Chaque processus possède une seule variable de type {0, 1, 2, 3, 4, 5}

30 Auto-stabilisation : le cas du token ring

31

32

33

34 Avantages de lauto- stabilisation (1) Pas besoin dinitialisation Adaptée par nature aux réseaux dynamiques Pas besoin de reset ni dintervention extérieure pas de centralisation Très faible surcoût en phase stabilisée : les échanges sont purement locaux Tolérance suffisante pour les applications non critiques

35 Avantages de lauto- stabilisation (2) Pas de diffusions coûteuses Solutions à mémoire bornée Solutions time-adaptive Technique éprouvée et incontournable La formalisation permet dobtenir des outils génériques qui simplifient la programmation

36 Conclusion (1) Deux aspects critiques des systèmes répartis actuels : fiabilité et sécurité Pour la fiabilité, deux approches : Réplication + consensus : coûteux, mais les défaillances sont masquées Auto-stabilisation : moins coûteux, mais la correction nest pas garantie durant la phase de stabilisation

37 Conclusion (2) La solution réside sans doute dans la complémentarité des deux approches (Cf. Projet de maison intelligente de Microsoft) Il existe aussi dautres techniques à base de points de reprise


Télécharger ppt "Introduction à la tolérance aux défaillances Joffroy Beauquier LRI CNRS – Université Paris Sud."

Présentations similaires


Annonces Google