Détection de défaillances pour les grilles Marin BERTIER – Pierre SENS Thèmes SRC Laboratoire d'Informatique de Paris 6 Université Pierre & Marie Curie
Contexte Développement des GRIDs Grand nombre de sites Introduction Contexte Développement des GRIDs Grand nombre de sites Organisé hiérarchiquement Niveau local cluster Niveau Global Inter-cluster Dissymétrie des communications cluster: Fiables et rapides Inter-cluster: …
Détection de défaillances Introduction Détection de défaillances Impossibilité de résoudre le consensus dans un système asynchrone [FLP85] Caractéristiques : Fournissent une liste non fiable des processus suspectés d’être défaillants Complétude : Un processus défaillant doit être considéré comme défaillant par les autres Justesse : Un processus correct ne doit pas être considéré défaillant
Qualité de service Métriques Temps de détection Introduction Qualité de service Métriques Temps de détection Temps entre deux erreurs (TMR) Durée des erreurs (TM) DF TM TMR Processus p up
Problématique Toutes les applications réparties doivent s’informer sur la vivacité des processus Site 2.1 Site 1.1 Site 1.2 Site 3.1 Service de détection de défaillances partagés Factoriser la détection : 1 détecteur par site Utiliser la topologie
Service partagé Emission des messages Détection de base Fournit : Liste de sites suspects Informations sur la détection Adaptation de l’intervalle d’émission Application 1 Application 2 QoS 1 Liste de suspects Liste de suspects QoS 2 Couche d’adaptation 1 Couche d’adaptation 2 i 2 i 1 Liste de sites suspects Intervalle d’émission Marge de détection QoS observée Couche de base Blackboard
Service partagé Spécifique à l’application Adapte la QoS Adaptation de l’interface Actif ou Passif Surveillance des processus locaux Permet différentes visions du système Application 1 Application 2 QoS 1 Liste de suspects Liste de suspects QoS 2 Couche d’adaptation 1 Couche d’adaptation 2 i 2 i 1 Liste de sites suspects Intervalle d’émission Marge de détection QoS observée Couche de base Blackboard
Détecteurs de défaillances Fonctionnement « heartbeat » Classe ◊P Défaillances: crash perte de messages Permet le transport d’information
Techniques de détection Introduction Techniques de détection Applicatif (refus de services) Pinging Heatbeat p q p up D p up Détecteur sur q p down p q D p up p up Détecteur sur q p down
Organisation Organisation hiérarchique Communication IP-Multicast au niveau local UDP au niveau global cluster 2 cluster 1 cluster 3
Niveaux Hiérarchiques Organisation Hiérarchique Niveaux Hiérarchiques Niveau local : Surveillance des sites Bonne qualité de détection Niveau global : Assurer la connectivité entre les groupes locaux Moindre qualité de détection
Avantages / Désavantages Organisation Hiérarchique Avantages / Désavantages Nombre de messages Surveillance par ses voisins Partitionnement des informations Mise en place de la structures Élection de mandataire
Nomination de mandataire Organisation Hiérarchique Nomination de mandataire Sur le principe de : Liste triée de sites non suspectés mandataire : 1er de la liste Objectifs : Temps de recouvrement court Avoir au moins un mandataire
Illustrations Défaillance de s1 Fausse suspicion de s1 Organisation Hiérarchique Illustrations Suspicion de s1 Fin de suspicion de s1 mandataire Défaillance de s1 s1 s2 s3 Fausse suspicion de s1 s1 s2 s3
Composition du groupe global Organisation Hiérarchique Composition du groupe global Groupe dynamique Au moins un mandataire par cluster Inscription d’un mandataire Contacter des membres des autres groupes Réception de l’identité des mandataires Début de la détection
Conclusion Détecteur de défaillances Organisé hiérarchiquement Partagé entre les applications Adaptable Fournissant une QoS Organisé hiérarchiquement Détection intra-cluster scalable