La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Étude de larticle : « Behavior Learning and Individual Cooperation in Autonomous Agents as a Result of Interaction Dynamics with the Environment » de S.

Présentations similaires


Présentation au sujet: "Étude de larticle : « Behavior Learning and Individual Cooperation in Autonomous Agents as a Result of Interaction Dynamics with the Environment » de S."— Transcription de la présentation:

1 Étude de larticle : « Behavior Learning and Individual Cooperation in Autonomous Agents as a Result of Interaction Dynamics with the Environment » de S Kamini Koza 95 Apprentissage comportemental et coopération individuelle dagents autonomes comme résultat des interactions dynamiques avec lenvironnement

2 Introduction Reprise dun article de Luc Steels sur une expérience de coopération individuelle dagents autonomes. Modélisation orientée comportements Émergences dune coopération entre agents Objectif: Trouver ces schémas comportementaux par la programmation génétique

3 Organisation de la présentation Présentation de lexpérience de Luc Steels La simulation de S.Kamini Améliorations apportées

4 Expérience de Luc Steels Contexte Approches dominantes dans le domaine de la planification: Architecture subsumption, modélisation orientée objectif, mécanisme de sélection daction. Approche alternative,celle de L. Steels Le comportement dun agent résulte de linteraction dynamique avec son environnement Modélisation orientée comportement Illustrée par une expérience : la coopération dans un SMA Approche traditionnelle : Modélisation de ces accointances, puis négociation par la communication Approche Proposée: coopération forcée par lenvironnement, émergente des actions individuelles des agents, non explicitement programmée

5 Description du système Comportant : Au moins 2 robots, Des lampes émettant de la lumière jaune Un chargeur émettant de la lumière bleue Des obstacles Dynamique énergétique Expérience de Luc Steels

6 Modélisation du robot Effecteurs: un moteur sur chaque roue, émission sonore quand la batterie est faible Senseurs: Niveau de la batterie, Photo- senseurs Bumpers, Infrarouges Utilisés pour modéliser 6 comportements bien calibrés permettant sa survie : Coordination des roues pour avancer Attraction par les lumières bleues Arrêt du robot lorsquil se recharge Attraction par les lumières jaunes Contournent direct des obstacles Contournement doux des obstacles Expérience de Luc Steels

7 Objectif : démontrer que le robot peut apprendre ces schémas comportementaux grâce à lutilisation de la PG La fitness Force lémergence dune coopération Illustré par une simulation simplifiée de lexpérience de L Steels Découverte dun seul comportement : apprendre à aller se recharger Expérience de S Kamini

8 Simulation de lexpérience de Steels Environnement simulé Terrain 10x10 3 lampes : Capacité initiale: 12 unités, se charge de 2/cycle jusquà 120 se vide de 7 unités au contact dun robot 2 Robots Cap. Initiale = cap. max de 80 Se décharge de 1/cycle Se recharge à une vitesse de 6/cycle 1 chargeur Pas dinformation Pas dobstacle : simplification

9 Expérience de S. Kamini Modélisation des Robots pour la GP terminaux : 5 actions, combinaison des effecteurs Avancer, reculer, tourner à droite ou à gauche, sarrêter Fonctions : 8 conditions, combinaison des senseurs Senseurs internes IFDIE: batterie faible IFCHARGED: batterie en bon état Senseurs externes IFLGR : si lintensité des lampes est plus forte à gauche quà droite IFOBA: si un obstacle est devant IFCSA: si le chargeur est devant IFACS : si le robot est sur le chargeur IFAL : si lobstacle devant est une lampe (connaissance impossible) IFSYSUNSAFE: si la batterie des trois lampes est bientôt au maximum (connaissance impossible)

10 Expérience de S Kamini Déroulement de lexpérience Robots hétérogènes: 1 RPB par robot et 1 ADF devant contenir un comportement (convergence plus difficile et méthode pas très utile pour lexp.) Critères darrêt dune simulation : Les deux robots sont morts Toutes les lampes sont aux maximum (pas nécessaire) La fitness utilisée La simulation arrive à 100 cycles ( trop peu ) Les 2 robots sont vivants Les 3 lampes sont aux maximum Sur une population de 10000 individus, Avec 100 générations maximum

11 Expérience de S Kamini Résultats Solution Médiocre Solution optimale au bout de 76 générations Un seul comportement a visiblement émergé: lattraction vers le chargeur Programme complexe Pourquoi ? Simplification de lenvironnement : Pas de prise en compte de la distance pour calculer lintensité reçue, Mauvais paramétrage de la dynamique énergétique qui induit de mauvais comportements Simplification du Robot Mauvais opérateurs Nombre de cycle de simulation trop faibles

12 Améliorations apportées Objectifs Trouver plus de schémas Approche Un environnement plus réaliste Vision plus proche de lexpérience de Steels

13 Améliorations apportées Changement au niveau de la simulation Calcul de lintensité lumineuse Contrainte sur le chargement Paramétrage de la dynamique énergétique

14 Améliorations apportées Changement des opérateurs De nouveaux opérateurs IFMBA : « if max blue intensity ahead » IFMYA: « if max yellow intensity ahead » IFAMB,IFAMY : « if at max intensity blue, yellow » IFSAFE,IFDIE : paramètres batterie IFOBB: « if obstacle back » IFHEARDSOUND: fonction communication

15 Améliorations apportées Expériences effectuées: Robots homogènes et hétérogènes Critère darrêt de la simulation: augmentation du nombre de cycles Fitness Ajustement plus fin Ajout dun critère de complexité du programme

16 Améliorations apportées Expériences effectuées: Les résultats: Programmes simplifiés Schémas comportementaux identifiables Moins de générations nécessaires Comportement non prévu: « le radar » (IFSAFE (IFMYA (IFOBA BACK FOWARD) LEFT) (IFAMB (IFMYA BACK HALT) (IFMBA FOWARD (IFDIE LEFT (IFOBA BACK FOWARD)))))

17 Améliorations apportées Expériences effectuées: Courbe fitness

18 Conclusion Les solutions de Kamini ne sont pas satisfaisantes à cause de: Un paramétrage du système mal calibré Des opérateurs mal adaptés Mes apports Lintérêt de la PG est validé: car: Les solutions sont proches de lobjectif Le programme trouve seul ces comportements Les paramètres de lexpérience de Steel sont respectés


Télécharger ppt "Étude de larticle : « Behavior Learning and Individual Cooperation in Autonomous Agents as a Result of Interaction Dynamics with the Environment » de S."

Présentations similaires


Annonces Google