Réunion DataGraal Janvier 2003 Grenoble

Slides:



Advertisements
Présentations similaires
La Couche Réseau.
Advertisements

Karima Boudaoud, Charles McCathieNevile
10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
Introduction à la tolérance aux défaillances
Sous-projet IV Communications Placement/Ordonnancement.
Détecteurs de fautes pour réseaux dynamiques P. Sens, L. Arantes, M. Bouillaguet Projet REGAL.
Gabriel Antoniu IRISA / INRIA Rennes
Applications de GdX Coordinateur thématique : Christophe Cérin
- Couche 7 - Couche application. Sommaire 1)Introduction 1)DNS 1)FTP et TFTP 1)HTTP 1)SNMP 1)SMTP 1)Telnet.
1 e-Toile Multicast Fiable Actif (Protocole DyRAM) F. BOUHAFS, M. MAIMOUR, C. PHAM INRIA RESO/LIP Démonstration 5 juin 2003 ENS-LYON.
Nicolas Galliot M2SIR David Raspilaire
Stockage dans DIET Groupe de travail du 16 décembre 2002.
Architecture ENT-UNR.
Les jeux persistants massivement Multijoueurs : problèmes techniques Vincent Roudaut MASTER M2 ESTC/CAM
Vue d'ensemble Présentation multimédia : Rôle du routage dans l'infrastructure réseau Activation et configuration du service Routage et accès distant Configuration.
Problématique Recherches basées sur le P2P dans le WebOP pour trouver des posts à base de métadonnées Avec un topique donné => suivre les chemins dans.
Modèle de coût algorithmique intégrant des mécanismes de tolérance aux pannes Samir Jafar, Thierry Gautier, Jean Louis Roch Laboratoire ID-IMAG Equipe.
Jean-François Deverge, Sébastien Monnet
BDA'02 1 Tolérance aux fautes (TaF) adaptable pour les systèmes à composants : application à un gestionnaire de données Phuong-Quynh Duong, Elizabeth Pérez-Cortés,
IRISA18 novembre ACI Sécurité DADDi Dependable Anomaly Detection with Diagnosis IRISA.
1 ACI DADDI - Réunion de lancement IRISA - Projet ADEPT Michel Hurfin Jean-Pierre Le Narzul Frédéric Tronel 23 mai 2005.
Réunion DataGRAAL - 7 mars 2003, Paris
Simulateur de réseaux de capteurs Guillaume PANNETIER Bertrand LE MAROUILLE Paul DAVID Étienne BAALI.
Systèmes distribués C. Delporte-Gallet (ESIEE-IGM)
DataGRAAL DataGRid pour Animation et Applications à Large échelle
Auto-organisation dans les réseaux ad hoc
Les Systèmes Multi-Agents pour la Gestion de Production
Parcours de formation SIN-7
L'équilibrage de charge Utilisation, principe et solutions
Synthèse d’activités Présentation.
Universté de la Manouba
Détection de défaillances pour les grilles
Module 2 : Préparation de l'analyse des performances du serveur
Architecture des systèmes pair-à-pair de gestion de données Gabriel Antoniu Projet PARIS IRISA/INRIA.
Alessandro de Luna Almeida
Réseau de stockage étendu
Mesure des performances WEB en introduisant un contrôle dadmission.
LEGO – Rennes, 18 Septembre 2006 Un outil de monitoring pour le déploiement dynamique de JuxMem Loïc Cudennec IRISA / INRIA, PARIS project-team Stage de.
Conditions aux Frontières Ouvertes
Thème 5 Model-based adaptability management for autonomous mobile group communication Rencontre TOMPASSE/ROSACE - 20 Novembre 2008 Projet RTRA/ROSACE Groupes.
La réplication dans les réseaux mobiles ad hoc
Amélioration de la simulation stochastique
Cours 5 Le modèle de référence.
1 Détecteurs de défaillances adaptables Marin BERTIER Thèmes SRC Laboratoire d'Informatique de Paris 6 Université Pierre & Marie Curie.
Julien Pley – Équipe ADEPT Colloque de DEA 2001/2002
Paramètres significatifs dans le processus de modélisation de la disponibilité Rennes le 24 mars 2004 Ahmed Bouabdallah, Nora Cuppens-Boulahia et Frédéric.
“Software defined Storage”
Modèles et protocoles de cohérence des données en environnement volatil Grid Data Service IRISA (Rennes), LIP (Lyon) et LIP6 (Paris) Loïc Cudennec Superviseurs.
Interface Homme-machine (interaction humain-machine)
1 Nomination de mandataire Marin BERTIER. 2 Contexte ► Développement des GRIDs  Grand nombre de sites  Organisé hiérarchiquement ► Niveau local  cluster.
Etude de la volatilité dans un système de stockage P2P Fabio Picconi – LIP6.
Étude d’un protocole de partage de travail entre systèmes Pair à Pair
QRA, partie II: gestion des données Trousse de formation 2: le suivi de l'abus des drogues: politiques et pratiques.
Initiation à la conception des systèmes d'informations
Approche Cross layer Dr Mekkakia Maaza Zoulikha Cours M2 SIR
1 Détection et tolérance aux fautes dans JuxMem Sébastien Monnet IRISA / PARIS Lyon, 05/12/2003.
1 Premières études sur la gestion de la volatilité dans Pastis Fabio Picconi Réunion GDS – 19/11/2004.
Couche limite atmosphérique
1 Vers la gestion de la cohérence dans les processus multi-modèles métier Wolfgang THEURER Ecole Nationale Supérieure d’Ingénieurs des Etudes et Techniques.
COMPARAISON ENTRE GNUTELLA ET FREENET
Notifications et Communication réseau D. BELLEBIA – 18/12/2007NSY208 CNAM.
1 Un protocole de cohérence des données tolérant aux fautes Jean-Francois Deverge Encadrants : Gabriel Antoniu, Luc Bougé Réunion GDS IRISA – Projet PARIS.
Plan de continuité de services: moduler l’investissement Un panel important de solutions techniques Des besoins hétérogènes qui doivent être pilotés par.
ELE6306 : Test de systèmes électroniques Test intégré et Modèle de faute de délai Etudiante : S. BENCHIKH Professeur : A. Khouas Département de génie électrique.
1 Détection de défaillances et algorithmes répartis pour les GRIDs Marin BERTIER Thèmes SRC Laboratoire d'Informatique de Paris 6 Université Pierre & Marie.
Présentation du Produit WAN-FAI L.KHIMA S.ZEKRI V.BACHMAN
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Ordonnancement en présence d’agents individualistes
Raison d'être de la structure de fichiers : Les premiers travaux : Début des années 1960 : En 1963 : Près de 10 ans plus tard... (à peu près 1973) : Durant.
GUIDE SHARE France 24 Septembre 2015 GUIDE SHARE MVS Plan Continuité d’Activité & Plan Reprise d’Activité Plan Continuité d’Activité & Plan Reprise d’Activité.
Transcription de la présentation:

Réunion DataGraal 30-31 Janvier 2003 Grenoble Tolérance aux fautes et passage à l’échelle Pierre Sens

Généralités sur la tolérance aux fautes But : fournir des garanties de fiabilité en cas de défaillance permettre la continuité de l'exécution lorsque l'un des nœuds ne répond plus Types de fautes Détection de fautes Traitement des fautes : Réplication Exemple : DARX DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 Types de fautes Franche (fail-silent, crash) Arrêt permanent Omission (recovery) Transitoire Temporaire Trop tôt ou trop tard Byzantin malicieux DataGraal – Grenoble 30-31 Janvier 2003

Problèmatique de la détection Très dépendant du modèle temporel Réseau synchrone : délai de transmission / traitement borné et connus Détection sûre => Fournir une liste de site en panne Réseau asynchrone : pas de délai Consensus impossible [Fisher Lynch Paterson 85] Partiellement synchrone : délais bornés inconnus Pas de solution exacte Détecteurs de fautes non fiables [Chandra Toueg 94] => Fournir une liste de suspects Large échelle DataGraal – Grenoble 30-31 Janvier 2003

Techniques de détection Applicatif (refus de services) Pinging Heatbeat p q p up D p up Détecteur sur q p down p q D p up p up Détecteur sur q p down DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 Réplication La réplication : méthode de base pour la sûreté de fonctionnement délais de recouvrement relativement courts 2 principaux mécanismes (stratégies) de réplication : Active Semi-active Coordinateur-cohorte Passive DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 Réplication Réplication active S1 S2 S3 requête réponse C Adapté au temps réel : erreurs masquées Traite les fautes byzantines Serveurs déterministes DataGraal – Grenoble 30-31 Janvier 2003

Réplication semi-active notification S2 S3 requête réponse C Recouvrement rapide Fautes franches DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 Réplication Réplication passive S1 sauvegarde S2 S3 requête réponse C Temps de recouvrement important Possibilité de non-déterminisme Fautes franches DataGraal – Grenoble 30-31 Janvier 2003

Comparaison des stratégies de réplication Actives Surcoût élevé Degré de réplication N => multiplication des coûts par N Très bon recouvrement Passive Surcoût moins élevé La mise à jour des réplicats s'effectue indépendamment du calcul Recouvrement plus hasardeux Les traitements survenus depuis la dernière sauvegarde sont perdus => solutions de recouvrement plus coûteuses Choix de la stratégie Se fait en fonction des contraintes et des besoins applicatifs active : fortes contraintes de temps, défaillances fréquentes, … passive : exécution non-déterministe, beaucoup de communication, … DataGraal – Grenoble 30-31 Janvier 2003

Point de reprise (checkpointing) Sauvegardes régulières sur supports stables Nombreux algorithmes, 2 approches Points de reprise coordonnés Sauvegarde d’un état global cohérent Pose de point de reprise coûteux Pas de contrôle de sauvegarde Recouvrement lent Points de reprise indépendant Assurer la cohérence => effet domino Journalisation de message => reprise confinée, coût des communication DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 Constats La plupart des plates-formes sont peu adaptées au large échelle Eloignement => Forte latence des protocoles à 3 phase Nombre de sites => Coût en ressources (réseau) Dynamicité => Approche statique (stratégie figée ou guidée par l'utilisateur) Topologie => Partitionnement Modèle de faute restreint (crash, recovery) Tendance à élargir vers fautes byzantines (dans P2P) Outils : librairie BFT, pb très coûteux ! DataGraal – Grenoble 30-31 Janvier 2003

Réplication dans systèmes P2P Réplication complète de données immutables (PAST) Réplication de données modifiables par peu d’ecrivain (Ivy) Réplication avec information redondante(type RAID) OceanStore N3FS (Turin) DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 Comparatif DataGraal – Grenoble 30-31 Janvier 2003

Expérience de passage à l’échelle au LIP6 Projet DARX : Plate-forme pour système multi-agents Equipe OASIS (S. Aknine, JP Briot, Z. Guessoum) Equipe SRC (M. Bertier, O. Marin, P. Sens) Agent Adaptateur Réplication Détection de défaillances Contrôle de réplication adaptatif Observation DARX SMA Nommage/Localisation DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 DARX Approche Rendre la tolérance aux fautes dynamique & personnalisée Qualité de service exprimée par l ’agent (criticité, nombre et type de fautes acceptés, ...) + Observation de l ’évolution de l ’environnement (latence, temps d’accès, taux de fautes, ...) Adaptation aux contraintes dynamiques de l’environnement Domaines applicatifs visés Simulation à large échelle Qualité de service dynamique : gestion de crise (exemple : nuage toxique) Collecte d’information à large échelle Domotique Stratégie au runtime DataGraal – Grenoble 30-31 Janvier 2003

Détection de défaillances DARX Détection de défaillances Contrôle de réplication adaptatif Observation SMA Agent Adaptateur DARX Réplication Nommage/Localisation Détection de défaillances DataGraal – Grenoble 30-31 Janvier 2003

Organisation des détecteurs de défaillances DARX - Détection Organisation des détecteurs de défaillances But S’abstraire des problèmes de synchronisme Optimiser le temps de recouvrement Organisation hiérarchique Un module de nommage par site et un module de détection A B G sous-réseau 1 sous-réseau 2 C sous-réseau 3 H F D E DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 DARX - Détection Fonctionnement Diffusion de « heartbeats » Défaillances : Crash / Recovery Composé de 2 couches : Détection de base Adaptation de la qualité de service à l’application Adaptable : Estimations dynamiques Intervalle d’émission Utilisation d’IP-multicast Permet le transport d’information DataGraal – Grenoble 30-31 Janvier 2003

Performances DARX - Détection Détection Darx RTT Chen 24 54 29 31,6 Fausses détections 24 54 29 Durée d’erreur (ms) 31,6 25,23 36,61 Temps de détection (ms) 5131,7 5081,79 5672,53 Adaptation : Court terme (Marge) Moyen terme (date) DataGraal – Grenoble 30-31 Janvier 2003

Expérimentation à large échelle DARX - Détection Expérimentation à large échelle Utilisation de dummynet pour simuler la latence réseau LAN 2 LAN 3 LAN 1 Ajout latence Perte DataGraal – Grenoble 30-31 Janvier 2003

Comparaison Hiérarchique / Plat DARX - Détection Comparaison Hiérarchique / Plat 60 ms 20 ms 80 ms DataGraal – Grenoble 30-31 Janvier 2003

Nommage/Localisation DARX - Réplication Réplication Contrôle de réplication adaptatif Observation SMA Agent Adaptateur DARX Réplication Nommage/Localisation Détection de défaillances DataGraal – Grenoble 30-31 Janvier 2003

Stratégies de réplication DARX - Réplication Stratégies de réplication 4 stratégies de réplication: active tous les réplicats traitent les requêtes passive seul le réplicat primaire traite les requêtes semi-active comme active, mais un seul réplicat répond quorum réduction du nombre de copies à jour DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 DARX - Réplication Dynamicité A tout moment l’agent peut : Ajouter/retirer un réplicat Changer la stratégie Changer les mécanismes internes (Modifier la fréquence de mise à jour des copies ...) Stratégies hybrides DataGraal – Grenoble 30-31 Janvier 2003

DataGraal – Grenoble 30-31 Janvier 2003 Philosophes Philosophes Table = 1 agent répliqué activement Philosophe = agent à 3 états : Stateless : Philosophe pense Localstate : Philosophe demande les couverts Globalstate : Philosophe possède les couverts et mange DataGraal – Grenoble 30-31 Janvier 2003

Performance sur application DataGraal – Grenoble 30-31 Janvier 2003