Étude de larticle : « Behavior Learning and Individual Cooperation in Autonomous Agents as a Result of Interaction Dynamics with the Environment » de S.

Slides:



Advertisements
Présentations similaires
Modèle de contrôle optimal vs. modèle de système dynamique
Advertisements

Soutenance du stage de DEA.
10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
La plate-forme MOCA: conception de SMA organisationnel à structure dynamique M. Amiguet, J. Baez, A. Nagy IIUN, Neuchâtel, Suisse J.-P. Müller CIRAD, Montpellier,
Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.
1 Off road obstacle avoidance through end to end learning Yann LeCun, Urs Muller, Jan Ben, Eric Cosatto, Beat Flepp.
Conception Préliminaire de Manipulateurs Mobiles et Génération de Consignes Évolutionnaires : une Méthodologie pour Intégrer la Commande dans l’Évaluation.
Adopter une Approche Droits humains. 2 Approche droits humains Besoin Individu Insatisfaction Droits Sujet de droit Violation Carence Exigibilité
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
Comment améliorer la sécurité dans l’automobile ?
ACS et Séquences Comportementales en environnements non-markoviens
Les bases de l’entraînement
This document and the information contained herein is proprietary information of MBDA and shall not be disclosed or reproduced without the prior authorization.
Pédagogie par Objectifs
ELE6207 Commande de systèmes robotiques
Laboratoire LCOMS Equipe « Evaluation de Performance et Systèmes d’Aide à la Personne » (EPSAP) Guy Bourhis CENRob 4-5 avril.
Quest-ce que la planification ? Planifier = Décider dun plan À partir dune base de connaissances sur les opérateurs possibles, on simule un grand nombre.
Prise de décision dans les shooters TER 08/09 Sandrine Buendia
GEF 447B Bring sample sensors Comportement Capt. Vincent Roberge.
L ’enseignement de la construction dans les voies professionnelle et technologique Les situations d ’apprentissage   LE TP Observations et manipulations.
Les Systèmes Multi-Agents pour la Gestion de Production
Analysis and design of agent-oriented information systems OFER ARAZY et CARSON C. WOO University of British Columbia, Vancouver The Knowledge Engineering.
Planification en environnement situé et stratégies d’équipes
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
Frédéric Amblard, Guillaume Deffuant – Cemagref LISC 22 Octobre 2002 – Table ronde Simulation AFH Nantes SimExplorer: un outil logiciel daide à lexploration.
Validation d’applications pour les Legos Mindstorms
Comportement Réactif - Champs de potentiel
Thomas LOPEZ - Equipe BUNRAKU Candidature au monitorat IFSIC – Mardi 6 Octobre 2008.
Robot de transport de wafers
Ergonomie et facteurs humains
Les systèmes de jeux deviennent de plus en plus complexes, nécessitant que lIntelligence Artificielle progresse elle aussi en parallèle. Dans ce contexte,
Automatisme de portail Autonome
Jour 3 - Session 2: Programmation axée sur les résultats
Autres outils de diagnostic de l’impact : modélisation d’un écosystème
1 Workshop : modelling relationships between agriculture and environment - Brussels - 15/02/2001 Ecole Doctorale SPI Mercredi 27 Juin 2001 Prospective.
Modélisation de la formation de bancs de poissons
Station Matine de Villefranche sur Mer
Légende : vol (3 possibilités d’affectation) : possibilité d’affectation d’un niveau à un vol : niveau affecté à un vol : conflit potentiel rejeté : conflit.
Optimisation par les algorithmes génétiques
ATNoSFERES : Construction de contrôleurs pour envts non markoviens par algorithme génétique Samuel Landau, Sébastien Picault (équipe MIRIAD) Pierre.
Voiture Robot MERAIMI Isam DESPREZ François TACHEL Jérémy.
La Villette Squeak, Logiciel de Robotique / programmation La Villette Nous sommes tout d’abord arrivés sur une activité. On avait l’impression de se trouver.
Guy Gauthier, ing., Ph.D. 6 janvier 2015
Université de Cergy-Pontoise, 7 juin 2006 Aibo Compagnon.
Travaux Pratiques Optimisation Combinatoire
1. Présentation générale du système
Patrick Chedmail – Philippe Wenger Fouad Bennis - Alain Bernard
Qu’est-ce que la planification ? Planifier = Décider d’un plan À partir d’une base de connaissances sur les opérateurs possibles, on simule un grand nombre.
Comment analyser une situation de travail ?
Trajectory Tree [1] Patrick Cinq-Mars. © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William.
PERCOTEC Psychologie & Ergonomie de la Cognition dans les environnements technologiques Activités, individuelles et coopératives, de prise de décision.
Optimisation pour la Conception de Systèmes Embarqués
Application à la viabilité des systèmes irrigués à Podor de la modélisation à la restitution aux paysans Olivier Barreteau.
Réalisé avec le soutien de Pied de page fixe Pied de page 1 Titre Sous titre.
Plan de la présentation
D. Steinberg, N. Monmarché, M. Slimane, G. Venturini
Implémentation d’un opérateur de répartition de sources lumineuses
Projet de Maîtrise Simulation 3D d’atomes robotiques Detanger Pierre-Gilles He Xue Feng Mauny Stéphane Villers Julien.
L'ENRICHISSEMENT DES CONNAISSANCES DANS LES RESEAUX
Activités pédagogiques sous forme de mini-projets
IHM Modèle d’architecture et liens avec les outils de production d’interface IHM Dirrigé par : Catherine RECANATI Présenté par : Youssef OUDGHIRI YOUSFI.
Optimisation par les algorithmes génétiques
Études de Marché MBA Hiver 2006 SÉANCE 3: LES DONNÉES PRIMAIRES: MÉTHODES QUALITATIVES.
EPAP – Epreuve pratique d’activité pédagogique
Société de l’information et régions Politique régionale 1 Les stratégies régionales pour la société de l ’information Jean-Bernard Benhaiem,
Projet de Maîtrise Simulation 3D d’atomes robotiques Detanger Pierre-Gilles He Xuefeng Mauny Stéphane Villers Julien.
Modélisation des Actions Mécaniques Première sti2d
Suivi de waypoints par un robot buggy autonome Fabrice LE BARS.
1/14 Analyse des tâches en ergonomie 3 – Analyse de la tâche du point de vue de l’opérateur Quelle que soit la méthode utilisée, l’opérateur reste au centre.
Y RAPTOR F-150 SVT. SOMMAIRE I)Présentation II)Autonomie -Définition et formules -L'autonomie attendue -L'autonomie simulée -Protocole -Mise en œuvre.
Transcription de la présentation:

Étude de larticle : « Behavior Learning and Individual Cooperation in Autonomous Agents as a Result of Interaction Dynamics with the Environment » de S Kamini Koza 95 Apprentissage comportemental et coopération individuelle dagents autonomes comme résultat des interactions dynamiques avec lenvironnement

Introduction Reprise dun article de Luc Steels sur une expérience de coopération individuelle dagents autonomes. Modélisation orientée comportements Émergences dune coopération entre agents Objectif: Trouver ces schémas comportementaux par la programmation génétique

Organisation de la présentation Présentation de lexpérience de Luc Steels La simulation de S.Kamini Améliorations apportées

Expérience de Luc Steels Contexte Approches dominantes dans le domaine de la planification: Architecture subsumption, modélisation orientée objectif, mécanisme de sélection daction. Approche alternative,celle de L. Steels Le comportement dun agent résulte de linteraction dynamique avec son environnement Modélisation orientée comportement Illustrée par une expérience : la coopération dans un SMA Approche traditionnelle : Modélisation de ces accointances, puis négociation par la communication Approche Proposée: coopération forcée par lenvironnement, émergente des actions individuelles des agents, non explicitement programmée

Description du système Comportant : Au moins 2 robots, Des lampes émettant de la lumière jaune Un chargeur émettant de la lumière bleue Des obstacles Dynamique énergétique Expérience de Luc Steels

Modélisation du robot Effecteurs: un moteur sur chaque roue, émission sonore quand la batterie est faible Senseurs: Niveau de la batterie, Photo- senseurs Bumpers, Infrarouges Utilisés pour modéliser 6 comportements bien calibrés permettant sa survie : Coordination des roues pour avancer Attraction par les lumières bleues Arrêt du robot lorsquil se recharge Attraction par les lumières jaunes Contournent direct des obstacles Contournement doux des obstacles Expérience de Luc Steels

Objectif : démontrer que le robot peut apprendre ces schémas comportementaux grâce à lutilisation de la PG La fitness Force lémergence dune coopération Illustré par une simulation simplifiée de lexpérience de L Steels Découverte dun seul comportement : apprendre à aller se recharger Expérience de S Kamini

Simulation de lexpérience de Steels Environnement simulé Terrain 10x10 3 lampes : Capacité initiale: 12 unités, se charge de 2/cycle jusquà 120 se vide de 7 unités au contact dun robot 2 Robots Cap. Initiale = cap. max de 80 Se décharge de 1/cycle Se recharge à une vitesse de 6/cycle 1 chargeur Pas dinformation Pas dobstacle : simplification

Expérience de S. Kamini Modélisation des Robots pour la GP terminaux : 5 actions, combinaison des effecteurs Avancer, reculer, tourner à droite ou à gauche, sarrêter Fonctions : 8 conditions, combinaison des senseurs Senseurs internes IFDIE: batterie faible IFCHARGED: batterie en bon état Senseurs externes IFLGR : si lintensité des lampes est plus forte à gauche quà droite IFOBA: si un obstacle est devant IFCSA: si le chargeur est devant IFACS : si le robot est sur le chargeur IFAL : si lobstacle devant est une lampe (connaissance impossible) IFSYSUNSAFE: si la batterie des trois lampes est bientôt au maximum (connaissance impossible)

Expérience de S Kamini Déroulement de lexpérience Robots hétérogènes: 1 RPB par robot et 1 ADF devant contenir un comportement (convergence plus difficile et méthode pas très utile pour lexp.) Critères darrêt dune simulation : Les deux robots sont morts Toutes les lampes sont aux maximum (pas nécessaire) La fitness utilisée La simulation arrive à 100 cycles ( trop peu ) Les 2 robots sont vivants Les 3 lampes sont aux maximum Sur une population de individus, Avec 100 générations maximum

Expérience de S Kamini Résultats Solution Médiocre Solution optimale au bout de 76 générations Un seul comportement a visiblement émergé: lattraction vers le chargeur Programme complexe Pourquoi ? Simplification de lenvironnement : Pas de prise en compte de la distance pour calculer lintensité reçue, Mauvais paramétrage de la dynamique énergétique qui induit de mauvais comportements Simplification du Robot Mauvais opérateurs Nombre de cycle de simulation trop faibles

Améliorations apportées Objectifs Trouver plus de schémas Approche Un environnement plus réaliste Vision plus proche de lexpérience de Steels

Améliorations apportées Changement au niveau de la simulation Calcul de lintensité lumineuse Contrainte sur le chargement Paramétrage de la dynamique énergétique

Améliorations apportées Changement des opérateurs De nouveaux opérateurs IFMBA : « if max blue intensity ahead » IFMYA: « if max yellow intensity ahead » IFAMB,IFAMY : « if at max intensity blue, yellow » IFSAFE,IFDIE : paramètres batterie IFOBB: « if obstacle back » IFHEARDSOUND: fonction communication

Améliorations apportées Expériences effectuées: Robots homogènes et hétérogènes Critère darrêt de la simulation: augmentation du nombre de cycles Fitness Ajustement plus fin Ajout dun critère de complexité du programme

Améliorations apportées Expériences effectuées: Les résultats: Programmes simplifiés Schémas comportementaux identifiables Moins de générations nécessaires Comportement non prévu: « le radar » (IFSAFE (IFMYA (IFOBA BACK FOWARD) LEFT) (IFAMB (IFMYA BACK HALT) (IFMBA FOWARD (IFDIE LEFT (IFOBA BACK FOWARD)))))

Améliorations apportées Expériences effectuées: Courbe fitness

Conclusion Les solutions de Kamini ne sont pas satisfaisantes à cause de: Un paramétrage du système mal calibré Des opérateurs mal adaptés Mes apports Lintérêt de la PG est validé: car: Les solutions sont proches de lobjectif Le programme trouve seul ces comportements Les paramètres de lexpérience de Steel sont respectés