Alessandro de Luna Almeida Smart- s Une approche de réplication fondée sur les plans pour la tolérance aux fautes des systèmes multi-agents Alessandro de Luna Almeida Encadré par : Jean-Pierre Briot Jacques Malenfant Samir Aknine
Une approche de réplication fondée sur les plans... Motivation: objectif Qu’est-ce que la fiabilité? « Probabilité de fonctionnement sans défaillance d’un dispositif dans des conditions spécifiées et pendant une période de temps déterminée » (Larousse) Objectif: minimiser l’impact de pannes sur un système multi-agent 02/06/2006 Une approche de réplication fondée sur les plans...
Une approche de réplication fondée sur les plans... Motivation: défi Exemples de pannes: Bugs de programmation Panne de processeur Panne de communication Effets: Comportements non attendus Messages perdus Retards de transmission ou traitement 02/06/2006 Une approche de réplication fondée sur les plans...
Motivation: domaines d’application Gestion de crise Contrôle aérien Automatisation des processus Surveillance médicale en soins intensifs … 02/06/2006 Une approche de réplication fondée sur les plans...
Une approche de réplication fondée sur les plans... État de l’art Brazier 02, Fedoruk 02 Réplication statique Criticité des composants peut varier Cuckuern 98, Kalbarczyk 99, Favarim 03 Réplication dynamique Adaptation manuelle et à la charge du concepteur 02/06/2006 Une approche de réplication fondée sur les plans...
État de l’art: Guessoum 04 Réplication dynamique et automatique Comment déterminer la criticité? Système: CPU Sémantique: Rôles et interdépendance entre agents Les messages échangées ne suffisent pas pour déterminer l’importance des agents avec précision Estimation instantanée seulement 02/06/2006 Une approche de réplication fondée sur les plans...
Notre approche Réplication prédictive, dynamique et automatique Hypothèse: architecture d'agent avec plans Utiliser les plans pour estimer un modèle de criticité dans le futur A F B C D G H E I J Agent1 Agent2 AND OR K L 02/06/2006
Une approche de réplication fondée sur les plans... Criticité d’un agent Idée Plus ses actions sont critiques, plus l’agent est critique Criticité des actions du plan de l’agent Criticité relative de la racine du graphe de son plan courant 02/06/2006 Une approche de réplication fondée sur les plans...
Criticité absolue d’une action Définie a priori par le concepteur: Nombre d’agents pouvant l’effectuer Ressources nécessaires (temps, mémoire, …) Informations sémantiques du domaine d’application 02/06/2006 Une approche de réplication fondée sur les plans...
Criticité relative d’une action Importance de l’action dans le système Criticité absolue + utilité de ses résultats 02/06/2006 Une approche de réplication fondée sur les plans...
Une approche de réplication fondée sur les plans... Exemple CA = 4 A CR = CA + SUM(CR(B),CR(C)) = 16 AND CA = 4 CA = 8 B C CR = CA + MOY(CR(D),CR(E)) = 7 CR = CA = 8 OR D E CA = 5 CA = 1 CR = CA = 5 CR = CA = 1 02/06/2006 Une approche de réplication fondée sur les plans...
Mécanisme de Réplication Minimiser les probabilités de panne des agents les plus critiques Fiabilité des réplicas (pi) Criticité des agents (ci) Agenti ensemble des réplicas Ri = {r1, r2, … , rni} P(Panne (Agenti) = 1) = (1-p1) × (1-p2) × … × (1-pni) p1 + p2 + … + pni ≤ ti ti = ci × P / C P = Somme des fiabilités de tous les réplicas C = Somme des criticités de tous les agents 02/06/2006 Une approche de réplication fondée sur les plans...
Une approche de réplication fondée sur les plans... Implémentation DARX (Dynamic Agent Replication eXtension) Plateforme de tolérance aux fautes Grande échelle Dynamisme Environnement hétérogène (JAVA) Modèle de faute: crash 02/06/2006 Une approche de réplication fondée sur les plans...
DARX Architecture Agent MAS DARX Contrôle de réplication Adaptateur adaptatif MAS Adaptateur Réplication DARX Nommage & Localisation Détection de Défaillances 02/06/2006 Une approche de réplication fondée sur les plans...
Une approche de réplication fondée sur les plans... Expérimentations Chaque agent doit exécuter une séquence de 5 plans Chaque plan avec 10 actions La durée moyenne des actions égale à 2 secondes Chaque expérimentation exécutée 10 fois 02/06/2006 Une approche de réplication fondée sur les plans...
Une approche de réplication fondée sur les plans... Résultats – overhead 02/06/2006 Une approche de réplication fondée sur les plans...
Une approche de réplication fondée sur les plans... Résultats – qualité 02/06/2006 Une approche de réplication fondée sur les plans...
Conclusions et perspectives Proposition d’une nouvelle approche de réplication fondée sur les plans Les résultats préliminaires sont prometteurs, mais… Définir formellement le problème de la tolérance aux pannes dans les systèmes multi-agents Modeler la criticité comme une courbe au lieu d'une valeur simple Raffiner le mécanisme de réplication en considérant les actions jointes des agents (stratégie de réplication par groupe d'agents) Expérimentations grande échelle + comparaison avec d’autres techniques 02/06/2006 Une approche de réplication fondée sur les plans...
Une approche de réplication fondée sur les plans... Publications J.-P. Briot, Z. Guessoum, S. Aknine, A. L. Almeida, N. Faci, J. Malenfant, O. Marin, P. Sens. Engineering Control Strategies for Replication-Based Fault-Tolerant Multi-Agent Systems. In: International Workshop on Engineering of Fault Tolerant Systems, Luxembourg, June 2006. J.-P. Briot, Z. Guessoum, S. Aknine, A. L. Almeida, N. Faci, M. Gatti, C. Lucena, J. Malenfant, O. Marin, P. Sens. Experience and Prospects for Various Control Strategies for Self-Replicating Multi-Agent Systems. In: Workshop on Software Engineering for Adaptive and Self-Managing Systems, ICSE 2006, Shangai, China, May 2006. A. L. Almeida, S. Aknine, J.-P. Briot, J. Malenfant. Plan-based Replication for Fault-tolerant Multi-Agent Systems. In: Proceedings of the 11th IEEE Workshop on Dependable Parallel, Distributed and Network-Centric Systems (DPDNS’06), 20th International Parallel and Distributed Processing Symposium (IPDPS’2006), Rhodes Island, Greece, April 2006. A. L. Almeida, S. Aknine, J.-P. Briot, J. Malenfant. Une approche de réplication fondée sur les plans pour la tolérance aux fautes des systèmes multi-agents. In: Journées Francophones sur les Systèmes Multi-Agents (JFSMA), Calais, France, November 2005. 02/06/2006 Une approche de réplication fondée sur les plans...
Alessandro de Luna Almeida Smart- s Une approche de réplication fondée sur les plans pour la tolérance aux fautes des systèmes multi-agents Alessandro de Luna Almeida Samir Aknine Jean-Pierre Briot Jacques Malenfant