La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Réunion DataGraal 30-31 Janvier 2003 Grenoble Tolérance aux fautes et passage à léchelle Pierre Sens.

Présentations similaires


Présentation au sujet: "Réunion DataGraal 30-31 Janvier 2003 Grenoble Tolérance aux fautes et passage à léchelle Pierre Sens."— Transcription de la présentation:

1 Réunion DataGraal Janvier 2003 Grenoble Tolérance aux fautes et passage à léchelle Pierre Sens

2 DataGraal – Grenoble Janvier 2003 Généralités sur la tolérance aux fautes But : fournir des garanties de fiabilité en cas de défaillance permettre la continuité de l'exécution lorsque l'un des nœuds ne répond plus 1. Types de fautes 2. Détection de fautes 3. Traitement des fautes : Réplication 4. Exemple : DARX

3 DataGraal – Grenoble Janvier 2003 Types de fautes Franche (fail-silent, crash) Arrêt permanent Omission (recovery) Transitoire Temporaire Trop tôt ou trop tard Byzantin malicieux

4 DataGraal – Grenoble Janvier 2003 Problèmatique de la détection Très dépendant du modèle temporel Réseau synchrone : délai de transmission / traitement borné et connus Détection sûre => Fournir une liste de site en panne Réseau asynchrone : pas de délai Consensus impossible [Fisher Lynch Paterson 85] Partiellement synchrone : délais bornés inconnus Pas de solution exacte Détecteurs de fautes non fiables [Chandra Toueg 94] => Fournir une liste de suspects Large échelle Détection

5 DataGraal – Grenoble Janvier 2003 Techniques de détection Applicatif (refus de services) Pinging Heatbeat Détecteur sur q p up p down p up p q Détecteur sur q p up p down p up p q Détection

6 DataGraal – Grenoble Janvier 2003 Réplication La réplication : méthode de base pour la sûreté de fonctionnement délais de recouvrement relativement courts 2 principaux mécanismes (stratégies) de réplication : Active Semi-active Coordinateur-cohorte Passive

7 DataGraal – Grenoble Janvier 2003 Réplication active S1 S2 S3 C Adapté au temps réel : erreurs masquées Traite les fautes byzantines Serveurs déterministes requête réponse Réplication

8 DataGraal – Grenoble Janvier 2003 Réplication semi-active S1 S2 S3 C notification Recouvrement rapide Fautes franches requêteréponse Réplication

9 DataGraal – Grenoble Janvier 2003 Réplication passive S1 S2 S3 C sauvegarde Temps de recouvrement important Possibilité de non-déterminisme Fautes franches requête réponse Réplication

10 DataGraal – Grenoble Janvier 2003 Comparaison des stratégies de réplication Actives Surcoût élevé Degré de réplication N => multiplication des coûts par N Très bon recouvrement Passive Surcoût moins élevé La mise à jour des réplicats s'effectue indépendamment du calcul Recouvrement plus hasardeux Les traitements survenus depuis la dernière sauvegarde sont perdus => solutions de recouvrement plus coûteuses Choix de la stratégie Se fait en fonction des contraintes et des besoins applicatifs active : fortes contraintes de temps, défaillances fréquentes, … passive : exécution non-déterministe, beaucoup de communication, … Réplication

11 DataGraal – Grenoble Janvier 2003 Point de reprise (checkpointing) Sauvegardes régulières sur supports stables Nombreux algorithmes, 2 approches Points de reprise coordonnés Sauvegarde dun état global cohérent Pose de point de reprise coûteux Pas de contrôle de sauvegarde Recouvrement lent Points de reprise indépendant Assurer la cohérence => effet domino Journalisation de message => reprise confinée, coût des communication

12 DataGraal – Grenoble Janvier 2003 Constats La plupart des plates-formes sont peu adaptées au large échelle Eloignement => Forte latence des protocoles à 3 phase Nombre de sites => Coût en ressources (réseau) Dynamicité => Approche statique (stratégie figée ou guidée par l'utilisateur) Topologie => Partitionnement Modèle de faute restreint (crash, recovery) Tendance à élargir vers fautes byzantines (dans P2P) Outils : librairie BFT, pb très coûteux !

13 DataGraal – Grenoble Janvier 2003 Réplication dans systèmes P2P Réplication complète de données immutables (PAST) Réplication de données modifiables par peu decrivain (Ivy) Réplication avec information redondante(type RAID) OceanStore N3FS (Turin)

14 DataGraal – Grenoble Janvier 2003 Comparatif

15 DataGraal – Grenoble Janvier 2003 Expérience de passage à léchelle au LIP6 Projet DARX : Plate-forme pour système multi-agents Equipe OASIS (S. Aknine, JP Briot, Z. Guessoum) Equipe SRC (M. Bertier, O. Marin, P. Sens) Agent Adaptateur Réplication Détection de défaillances Contrôle de réplication adaptatif Observation DARX SMA Nommage/Localisation

16 DataGraal – Grenoble Janvier 2003 Approche Rendre la tolérance aux fautes dynamique & personnalisée Qualité de service exprimée par l agent (criticité, nombre et type de fautes acceptés,...) + Observation de l évolution de l environnement (latence, temps daccès, taux de fautes,...) Adaptation aux contraintes dynamiques de lenvironnement Domaines applicatifs visés Simulation à large échelle Qualité de service dynamique : gestion de crise (exemple : nuage toxique) Collecte dinformation à large échelle Domotique Stratégie au runtime DARX

17 DataGraal – Grenoble Janvier 2003 Détection de défaillances Agent Adaptateur Réplication Détection de défaillances Contrôle de réplication adaptatif Observation SMA Nommage/Localisation DARX

18 DataGraal – Grenoble Janvier 2003 Organisation des détecteurs de défaillances But Sabstraire des problèmes de synchronisme Optimiser le temps de recouvrement Organisation hiérarchique Un module de nommage par site et un module de détection sous-réseau 1 sous-réseau 3 sous-réseau 2 A G H F D E C DARX - Détection B

19 DataGraal – Grenoble Janvier 2003 Fonctionnement Diffusion de « heartbeats » Défaillances : Crash / Recovery Composé de 2 couches : Détection de base Adaptation de la qualité de service à lapplication Adaptable : Estimations dynamiques Intervalle démission Utilisation dIP-multicast Permet le transport dinformation DARX - Détection

20 DataGraal – Grenoble Janvier 2003 Performances Adaptation : Court terme (Marge) Moyen terme (date) Détection DarxRTTChen Fausses détections Durée derreur (ms) 31,625,2336,61 Temps de détection (ms) 5131,75081,795672,53 DARX - Détection

21 DataGraal – Grenoble Janvier 2003 Expérimentation à large échelle Utilisation de dummynet pour simuler la latence réseau DARX - Détection Ajout latence Perte LAN 1 LAN 2 LAN 3

22 DataGraal – Grenoble Janvier 2003 Comparaison Hiérarchique / Plat DARX - Détection 60 ms 20 ms 80 ms

23 DataGraal – Grenoble Janvier 2003 Réplication Agent Adaptateur Réplication Détection de défaillances Contrôle de réplication adaptatif Observation SMA Nommage/Localisation DARX DARX - Réplication

24 DataGraal – Grenoble Janvier 2003 Stratégies de réplication 4 stratégies de réplication: active tous les réplicats traitent les requêtes passive seul le réplicat primaire traite les requêtes semi-active comme active, mais un seul réplicat répond quorum réduction du nombre de copies à jour DARX - Réplication

25 DataGraal – Grenoble Janvier 2003 Dynamicité A tout moment lagent peut : Ajouter/retirer un réplicat Changer la stratégie Changer les mécanismes internes (Modifier la fréquence de mise à jour des copies...) Stratégies hybrides DARX - Réplication

26 DataGraal – Grenoble Janvier 2003 Philosophes Table = 1 agent répliqué activement Philosophe = agent à 3 états : Stateless : Philosophe pense Localstate : Philosophe demande les couverts Globalstate : Philosophe possède les couverts et mange

27 DataGraal – Grenoble Janvier 2003 Performance sur application


Télécharger ppt "Réunion DataGraal 30-31 Janvier 2003 Grenoble Tolérance aux fautes et passage à léchelle Pierre Sens."

Présentations similaires


Annonces Google