La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II.

Présentations similaires


Présentation au sujet: "Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II."— Transcription de la présentation:

1 Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II - CNRS 2 ème journées PDM et IA, LORIA, 28 juin 2002

2 Environnement Acquisition Actions Agent Des agents situés réactifs … Interactions Agent - Environnement Agent - Agent Résolution collective de problèmes (comm. indirectes ou sans) IAD réactive [Steels&Deneubourg 89] swarm intelligence [Kube 92] éco-résolution [Ferber 89] [Drogoul 93] robotique cellulaires [Beni&Wang 89] Architecture réactive, à base de comportements [Brooks 89],[Mataric 94], [Drogoul 93], [Arkin 92]... Réactions directes aux perceptions Environnement Action Perception pas de carte de lenvironnement

3 3 Problématique agents homogènes/hétérogènes buts differents Environnements dynamiques / mals connus coordination coopération coopération apprentissage intégrer à lapproche intelligence collective / architecture réactive des comportements coopératifs intentionnels intégrer à lapproche intelligence collective / architecture réactive des comportements coopératifs intentionnels pour pour diminuer le nombre dagents nécessaire aux résolutions, assurer la « survie » de chaque agent et accélerer les processus de coopération Objectif initial

4 4 I. Le modèle satisfaction-altruisme II. Extension : apprentissage par renforcement III. Quelques questions et perspectives Modèle de comportement Simulations Expérimentations réelles Plan

5 5 Vision interne Architecture à base de comportements (ou fonctions) Éval. Sat I signaux test daltruisme Combi. vect. Processus temps réel Vision interaction LArchitecture satisfaction-altruisme

6 6 Principe: évaluer continuellement un niveau de satisfaction P(t) fonction de la progression de la tâche courante de lagent P(t) = P(t- t) + v v |v| s t 0 |P(t)| P max P max + Satisfaction personnelle Evaluation de v : extension des progress estimators de M.J. Mataric[94] m si progression vers le but n si éloignement du but f si agent immobilisé v = avec - s < f < n 0 m < s persistance

7 7 Principe: évaluer les interactions perception gêne, aide (potentielle), indifférence émettre des signaux localement coopération des agents voisins Emission de signaux de satisfaction interactive I à valeurs dans [ -P max, P max ] Intensité variable, fonction des satisfactions I > 0 attraction, I < 0 répulsion Réaction altruiste (approche champs de potentiels) Satisfaction interactive (tâche-voisins) But / Besoin de lagent partage de ressources, besoin daide attirer le voisinage conflit/piège potentiel, gênes repousser le voisinage Satisfaction interactive, signaux et réaction altruiste

8 8 Test daltruisme : Si.|I e (t)| > (1- ).P(t) V goal = réaction altruiste (coop. ou non) Combinaison vectorielle : V = g 1.V goal + g 2.F sli + g 3. k j F alt j (déplacement de lagent) Zeghal [94] cohérence Coordination et coopération spatiale Propagation des signaux max(signaux)

9 9 Simulations des robots fourrageurs Le système combine auto-organisation et coopération intentionnelle « Surface des signaux de satisfactions » (in)satisfactions des agents émission de signaux de satisfaction interactive = Affichage de -I et de son évolution influences dynamiques combinées aux perceptions des agents

10 10 Problème: agents situés réactifs situations de blocages, actions incompatibles Traitement des conflits spatiaux propagation des signaux dinsatisfactions (répulsions) des agents les plus contraints (insatisfaits) vers les plus libres spatialement. Principe de résolution : Pénalisation dun blocage: v = N 1. + N 2. < < 0 agents obstacles perçus

11 11 - Preuve de résolution pour ce type denvironnement ( manipuler temps, espace et états de satisfactions) - Simulations Résolution dun cas extrême: limpasse

12 12 Problème de limpasse - 2 robots - extrémités fermées les robots doivent se repousser à tour de rôle : oscillation Expérimentation réelle

13 13 II. Extension : Apprentissage par renforcement Approche M.J. Mataric [94] - agents situés / robots autonomes - Conditions sur les systèmes situés : évolution en environnement continu et partiellement observable, évolution en environnement continu et partiellement observable, lagent na pas de modèle a priori du monde, lagent na pas de modèle a priori du monde, ( + non connaissance des intentions/états des autres agents ) Conséquences : le monde nest pas décomponsable en un ensemble fini détats, (le problème du partitionnement en états discrets est très difficile [Kosecka92]) le monde nest pas décomponsable en un ensemble fini détats, (le problème du partitionnement en états discrets est très difficile [Kosecka92]) la limitation des perceptions ne garantie pas la distinction entre deux états differents du monde POMDP [Cassandra et al. 94] la limitation des perceptions ne garantie pas la distinction entre deux états differents du monde POMDP [Cassandra et al. 94] RL classique est exponentiel dans la taille des entrées RL classique est exponentiel dans la taille des entrées problème du calcul de la récompense… problème du calcul de la récompense…

14 14 ConditionBehavior près géneur ?objet saisi ?à la base ?lumière ? 0000Recherche 0001Retour base 0010Recherche A(c,b) = t=1 T R(c,t) Résultat pour la politique optimale : Apprentissage : ajuster les valeurs de la matrice conditions/comportements: ens. de cond. binaires matrice 2 n conditions * B comportements ConditionBehavior RechercheRetour baseDispersionRecharger bat R(c) fonctions de renforcement hétérogènes, progress estimators … Limiter lespace des états en considérant les comportements

15 15 Renforcer suivant les satisfactions du voisinage Un état de lagent (condition) est défini par : des perceptions sur les états des agents voisins des perceptions sur les états des agents voisins des perceptions sur les objets à traiter des perceptions sur les objets à traiter signaux de satisfaction (sat. P) (leur signe représentation compacte) signaux de satisfaction (sat. P) (leur signe représentation compacte) Calcul de la récompense ( Mataric[97], comm. récompense du voisinage): Lagent calcule une moyenne M Sat des signaux perçus localement durant la tâche à chaque itération lagent considère le signal soit le plus négatif à chaque itération lagent considère le signal soit le plus négatif sinon le plus positif sinon le plus positif ne renforcer que les situations positives pour lensemble des voisins. ne renforcer que les situations positives pour lensemble des voisins. est lécart entre la moyenne M Sat et la valeur initiale est lécart entre la moyenne M Sat et la valeur initiale r = | |. + (1- | | ). M Sat / P max W i = b.W i + (1-b).r

16 16 Système hétérogène de robots pousseurs et découpeurs de plaques 27 Etats action-interactions : Des robots netoyeurs CodeI1 : signal Découp.I2 : signal Pous.S3 : percep. plaque 0pas de signal pas de plaque 1++plaque détectée 2--plaque saisie robot découpeur

17 17 Diminution des situations insatisfaisantes (gênes, actions incompatibles) Apparition ou renforcement des situations-actions collectivement satisfaisantes Résultats - Simulations Agent n1 en sit. 022avantaprès marche aléatoire % pousser plaque00.13Nouv. couper plaque % stabiliser plaque % réaction altruiste % Ex. situation 022 (rob. découp. tenant une plaque et percevant un pousseur insat.) (après 25 essais en 022) évaluation en cours…

18 18 Lapproche par comportements (Mataric) permet de mettre en œuvre un RL efficace pour un SMA réel (bruité) de mettre en œuvre un RL efficace pour un SMA réel (bruité) dutiliser des fn. progress estimators pour évaluer dynamiquement la récompense dune tâche. dutiliser des fn. progress estimators pour évaluer dynamiquement la récompense dune tâche. Nous introduisons la communication des états de satisfactions pour prendre en compte les états des agents voisins dans lévaluation de la situation courante de lagent (pb. états cachés) prendre en compte les états des agents voisins dans lévaluation de la situation courante de lagent (pb. états cachés) introduire un apprentissage « collectif » (non centré sur la tâche individuelle courante de lagent) introduire un apprentissage « collectif » (non centré sur la tâche individuelle courante de lagent) conserver les atouts du modèle satisfaction-altruisme. conserver les atouts du modèle satisfaction-altruisme. Questions et Perspectives

19 19 Le formalisme POMDP peut-il donner un cadre formel à ces travaux ? ens. fini détats (conditions), ens. dactions (comportements), politique optimale à découvrir… type MMDP [Boutilier 99] ens. fini détats (conditions), ens. dactions (comportements), politique optimale à découvrir… type MMDP [Boutilier 99] au contraire, notre approche est-elle une alternative à lapproche MDP ? au contraire, notre approche est-elle une alternative à lapproche MDP ? Lapproche AMM de [Mataric 00] (Augmented Markov Models) est-elle une solution ? (semi-Markov chains) construction et communication de graphes ! construction et communication de graphes ! Perspectives : répondre à ces questions ! répondre à ces questions ! appliquer/évaluer notre modèle sur de véritable robots, appliquer/évaluer notre modèle sur de véritable robots, étendre le modèle : communications, def. des états, etc. étendre le modèle : communications, def. des états, etc. Questions et Perspectives

20 20 à court et moyen terme: Expérimentations avec plus de robots (en cours), hétérogénéité, Expérimentations avec plus de robots (en cours), hétérogénéité, Appliquer la méthode de résolution des conflits à des problèmes réels, Appliquer la méthode de résolution des conflits à des problèmes réels, Etendre le modèle apprenant (enrichir les communications) Etendre le modèle apprenant (enrichir les communications) à plus long terme: Exploiter ces mesures/modèles de satisfactions pour analyser/concevoir divers types de SMAs Exploiter ces mesures/modèles de satisfactions pour analyser/concevoir divers types de SMAs Etudier les signaux dattractions dans léco-résolution (et les éco-robots), Etudier les signaux dattractions dans léco-résolution (et les éco-robots), Etudier les états particuliers des processus de résolutions par les outils de la théorie des systèmes dynamiques. Etudier les états particuliers des processus de résolutions par les outils de la théorie des systèmes dynamiques. Perspectives

21 21 Publications Modèle de comportement - résolution de problèmes : Modèle de comportement - résolution de problèmes : JFIADSMA'2001 9eme journées Francophones d'Intelligence Artificielle Distribuée et Systèmes Multi-Agents "Modélisation des satisfactions personnelle et interactive d'agents situés coopératifs" Olivier Simonin et Jacques Ferber nov Montreal (Best paper) SAB'2000 The Sixth International Conference on the Simulation of Adaptative Behavior FROM ANIMALS TO ANIMATS 6 (Paris, France) "Modeling Self Satisfaction and Altruism to handle Action Selection and Reactive Cooperation" Olivier Simonin and Jacques Ferber DARS'2000 5th International Symposium on Distributed Autonomous Robotic Systems Knoxville, TN, USA "An Architecture for Reactive Cooperation of Mobile Distributed Robots" Olivier Simonin, Alain Liégeois and Philippe Rongier ECAI' th European Conf. on Artificial Intelligence «How situated agents can learn to cooperate by monitoring their neighbors satisfaction" Jérôme Chapelle, Olivier Simonin and Jacques Ferber (à paraître) ECAI' th European Conf. on Artificial Intelligence «How situated agents can learn to cooperate by monitoring their neighbors satisfaction" Jérôme Chapelle, Olivier Simonin and Jacques Ferber (à paraître) Implémentation et validation en robotique : Implémentation et validation en robotique : ICRA'2002 IEEE Int. Conf. on Robotics and Automation "Implementation and Evaluation of a Satisfaction/Altruism Based Architecture for Multi-Robot Systems" (à paraître) Philippe Lucidarme, Olivier Simonin and Alain Liégeois La thèse :

22 22

23 23

24 24 Introduction aux agents situés réactifs Agent Environnement ? Traiter des tâches Coopérer Comportement cohérent et autonome Interactions Agent - Environnement Agent - Agent la notion dEmbodiment R. Brooks [91] (robotique) Traitements des tâches par processus collectifs (éthologie) Steels et Deneubourg [89] (informatique) Acquisition Actions communications


Télécharger ppt "Apprentissage par renforcement dans les SMA situés réactifs (extension du modèle satisfaction-altruisme) Olivier Simonin LIRMM Université Montpellier II."

Présentations similaires


Annonces Google