Vincent Thomas Christine Bourjot Vincent Chevrier

Slides:



Advertisements
Présentations similaires
M. El Maouhal - "Théorie des organisations" - FLSH Ibn Zohr
Advertisements

22 mai 2007 Clauvice Kenfack – Équipe MODEME
Application aux constellations de satellites
Chapitre annexe. Récursivité
Fabrice Lauri, François Charpillet, Daniel Szer
Karima Boudaoud, Charles McCathieNevile
10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
La plate-forme MOCA: conception de SMA organisationnel à structure dynamique M. Amiguet, J. Baez, A. Nagy IIUN, Neuchâtel, Suisse J.-P. Müller CIRAD, Montpellier,
Champs de Markov en Vision par Ordinateur
Hercé Conseils. Un niveau de conflictualité en augmentation dans les organisations. Un malaise diffus et des frustrations partagées, des indices de conflictualité
APPROCHE PAR LES COMPETENCES ET
Les Systèmes Multi Agents
Section Quatre: La négociation pour la résolution de conflits
Conception de Programmes Evolutifs Pré Soutenance de TER Année Encadrants : Cathy Escazut et Michel Gautero Auteurs: Paul-Kenji Cahier Sylvain.
Application de réseaux bayésiens à la détection de fumées polluantes
Eric BONJOUR, Maryvonne DULMET
Yann Chevaleyre et Jean-Daniel Zucker
Les circuits séquentiels
RECEMAP, Nantes, 12 décembre 2002 De l usure professionnelle… à la création d une charte d éthique ! Restitution d une étude organisationnelle (de mars.
ACS et Séquences Comportementales en environnements non-markoviens
INTRODUCTION.
Interactions - Systèmes Multi - Agents Master IMA - 1 Environnement
univ-lr.fr
Qu’est-ce qu’apprendre? Où en sommes-nous avec l’apprentissage?
K. D. TSATSU, B. DAO, K. LABARE ITRA/Direction scientifique
Évaluer pour faire apprendre dans une approche par compétences
Sélection automatique d’index et de vues matérialisées
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
1 Sens et objectif politique de la construction dindicateurs de bien-être pour tous avec les citoyens Lapproche du Conseil de lEurope Conseil de lEurope.
Les Systèmes Multi-Agents pour la Gestion de Production
Behavioral economics Economie comportementale Claudia Senik Université Paris-4 Sorbonne Paris School of Economics
BIAD Bases de l’Intelligence Artificielle Distribuée
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
Aspects algorithmiques et procéduraux de l’élicitation des préférence pour l'aide multicritère à la décision Doctorant: Jun ZHENG Directeur de thèse: Prof.
Aide à la décision et à la négociation dans un problème de gestion de production distribuée Jean-Pierre Camalot et Patrick Esquirol LAAS-CNRS 7, avenue.
Aide à la décision multicritères
Introduction à la conception de Bases de Données Relationnelles
Apprentissage individuel / apprentissage collectif
Discussion sur la plate-forme MIMOSA Jean-Pierre Müller, CIRAD-TERA Équipe "Dynamique et usage des ressources et modélisation des systèmes complexes"
Algorithmique et Programmation
APPROCHE SOCIALE ET COGNITIVE DE L'APPRENTISSAGE
ANALYSE DE LA REPONSE FONCTIONNELLE EN PRESENCE D’AGREGATION
Les réseaux de neurones
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Structures de données IFT-2000 Abder Alikacem La récursivité Département d’informatique et de génie logiciel Édition Septembre 2009.
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
Qu’est qu’un conflit et comment le résoudre?
INTRODUCTION.
Algorithmique et programmation (1)‏
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Amélioration de la performance des systèmes d’information sanitaire de routine (SISR) et de l’utilisation de l’information pour la gestion des systèmes.
Foued Mnasri Weal Rekik
Initiation à la conception des systèmes d'informations
Construction d'une hiérarchie mémoire faible consommation
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Équilibre de satisfaction
Introduction et Généralités sur l’Algorithmique
Equilibre de successions de flux différents d’échéances différentes.
L’analyse d’économie politique Quelques répères et valeur ajoutée potentielle Séminaire régional sur la décentralisation et la gouvernance locale Nouakchott,
Gestion du Programme Sensible au Conflit (GPSC)
Application à la viabilité des systèmes irrigués à Podor de la modélisation à la restitution aux paysans Olivier Barreteau.
EDUCASOL le référentiel. Éduquer au développement et à la solidarité internationale, c'est s'impliquer dans un processus éducatif global dont la dimension.
LA PRISE EN CHARGE DU TRAVAIL COOPÉRATIF
Labeled Real-Time Dynamic Programming (LRTDP) Pierrick Plamondon.
1 De la 4QC à la 5QC Premières réflexions EPAN meeting, Helsinki 4-5 December 2006.
1 La Coordination dans les Systèmes d’Information Orientés Agents (SIOA) Participants IRIT-UT1 : E.Andonoff, L. Bouzguenda,J. Cardoso, C. Hanachi, C. Sibertin-Blanc,
GdR MoMaS Novembre 2003 Conditions d’interface optimales algébriques pour la vibro-élasticité. François-Xavier Roux (ONERA) Laurent Sériès (ONERA) Yacine.
Proposition d'un formalisme pour la construction automatique d'interactions dans les systèmes multi-agents réactifs Vincent Thomas Vincent Chevrier Christine.
1 Théorie de la finance Gestion de portefeuille Moyenne-variance Master Sciences de Gestion – Semestre II - Université Mohammed V Faculté des Sciences.
Transcription de la présentation:

Vincent Thomas Christine Bourjot Vincent Chevrier Introduction d’interactions directes dans les processus de décision markoviens Vincent Thomas Christine Bourjot Vincent Chevrier

Présentation Travail en cours Systèmes multi-agents Réactifs : règles stimulus-réponse Sans mémoire Construction automatique de comportements De manière décentralisée Pour résoudre des problèmes collectifs Dans un cadre coopératif

Plan Modèles markoviens Notre proposition Exemples Résolution MDP Extensions Notre proposition Interac-DEC-MDP Formalisme Exemples Résolution Conclusion

MDP MDP Markov Decision Process = <S,A,T,R> S ensemble d’états A ensemble d’actions T matrice de transition : évolution du système stochastique T: S x A  P(S) R récompense : fonction à optimiser R: S x A  P(Re) Un MDP = un problème de décision Trouver politique (comportement réactif) : S  P(A) Qui maximise la somme des récompenses à long terme Algorithmes pour construire politique Planification (value iteration, …) Apprentissage (Q-learning, …) Trouve politique optimale Mono-agent

Extensions des MDPs DEC-MDP : Decentralized-MDP Formalisme pour problème de décision Représenter agents réactifs Exécution décentralisée et simultanée Observabilité partielle Fonction de Observations vers Actions : i: Si  P(Ai) Représenter problème sous forme d’un processus Matrice de transition T : S x A1 x A2 x A3 x …  P(S) Fonction de récompense R : S x A1 x A2 x A3 x …  P(Re) Actions des agents vues comme influences sur processus Objectif: Maximiser la somme des récompenses Multi-agent

Fonctionnement (Initial) S

Fonctionnement (Observations)

Fonctionnement (Décision)

Fonctionnement (Action) S

Fonctionnement (Évolution) S  S’ a1,a2 a1 a2

Fonctionnement (Récompenses) a1 a2 S  S’ a1,a2 R R

Difficultés dans les DEC-MDP Couplages implicites Dans transitions T Résultat de action dépend des autres Dans récompenses R Récompense dépend des autres Évolution dépend des comportements des autres Résolution Centralisée  mono-agent Explosion combinatoire Décentralisée Problème co-évolution Tragédie des communs Problème de « credit assignment » Notre proposition Trouver un compromis

Plan Modèles markoviens Notre proposition Exemples Résolution MDP Extensions Notre proposition Interac-DEC-MDP Formalisme Exemples Résolution Conclusion

Proposition Motivation : Nouveau cadre formel Besoins de raisonner au niveau collectif sont limités Échange, Partage de ressources, … Raisonner individuel est moins coûteux Gestion des ressources attribuées Nouveau cadre formel Interac-DEC-MDP Restreindre les systèmes considérés Séparer les décisions collectives des décisions individuelles Moins expressif Restriction  Système Factorisés Action Interaction Pas de couplage Implique Plusieurs agents Apprentissage individuel Semi- centralisation Égoïste Gestion Du collectif Possibilités Propriétés Utilisation

Cadre général Les agents peuvent agir individuellement Interagir Pas de couplage Implique Plusieurs agents Apprentissage individuel Semi- centralisation Apprentissage Égoïste Gestion Du collectif Les agents peuvent agir individuellement Pas influence des autres  Transitions indépendantes Les actions des agents sont récompensées dans leur espace Pas de couplage de R  Récompenses indépendantes Chaque agent à des perceptions partielles Etat, Récompenses, comportements des autres

Cadre général Les agents peuvent agir individuellement Interagir Pas de couplage Implique Plusieurs agents Apprentissage individuel Semi- centralisation Apprentissage Égoïste Gestion Du collectif Les agents peuvent agir individuellement Pas influence des autres  Transitions indépendantes Les actions des agents sont récompensées dans leur espace Pas de couplage de R  Récompenses indépendantes Chaque agent à des perceptions partielles Etat, Récompenses, comportements des autres Interaction entre agents Seuls couplages Semi-centralisée entre agents impliqués Apprentissage Égoïste Gestion Du collectif

Cadre général Les agents peuvent agir individuellement Interagir Pas de couplage Implique Plusieurs agents Apprentissage individuel Semi- centralisation Apprentissage Égoïste Gestion Du collectif Les agents peuvent agir individuellement Pas influence des autres  Transitions indépendantes Les actions des agents sont récompensées dans leur espace Pas de couplage de R  Récompenses indépendantes Chaque agent à des perceptions partielles Etat, Récompenses, comportements des autres Interaction entre agents Seuls couplages Semi-centralisée entre agents impliqués Mais pas trivial Remise en cause du comportement individuel Apprentissage Égoïste Gestion Du collectif Apprentissage Égoïste Gestion Du collectif

Cadre général Les agents peuvent agir individuellement Interagir Pas de couplage Implique Plusieurs agents Apprentissage individuel Semi- centralisation Apprentissage Égoïste Gestion Du collectif Les agents peuvent agir individuellement Pas influence des autres  Transitions indépendantes Les actions des agents sont récompensées dans leur espace Pas de couplage de R  Récompenses indépendantes Chaque agent à des perceptions partielles Etat, Récompenses, comportements des autres Interaction entre agents Seuls couplages Semi-centralisée entre agents impliqués Mais pas trivial Remise en cause du comportement individuel Apprentissage Égoïste Gestion Du collectif Apprentissage Égoïste Gestion Du collectif

Formalisme: Agents Agent 1 Agent 2 Agent3 Chaque agent i est décrit par un MDP <Si,Ai,Ti,Ri> Si espace état individuel Ai espace action individuel Ti transition individuelle Ri récompense individuelle Les agents agissent simultanément Politique individuelle i L’objectif maximiser la somme des récompenses individuelles Pour le moment, sans interaction Agent 1 Agent 2 Agent3

Interactions directes Définition Influences mutuelles réciproques ponctuelles Il s’agit des seuls couplages du système Agent i peut influencer état de j Les agents impliqués peuvent raisonner Politique dépend des agents impliqués Processus de négociation Agent i Agent j Interaction 1 Agent i Agent j 2 Décision Résultat 3

Représentation interactions Ajout d’instances d'interactions Ik: interaction k I=ensemble des interactions Interaction: différents résultats possibles Rik,l: résultat l Rik: ensemble des résultats de Ik Chaque résultat: matrice de transition TRik,l Sport collectif Interactions ? Ik Ik Rik,l Rik,l SS’ SS’’

Politiques d’interaction Individuelle Déclenchement Collective Semi-centralisation Résolution d’interaction Pour chaque couple Agent i Agent j Décision Interaction Agent i Agent j Décision Interaction

Formalisme: Modèle d’exécution Module d’action Décision Exécution Module interaction Pour tout agent i Déclenchement Décision jointe Exécution de l’interaction Ik Ik Rik,l Rik,l SS’ SS’’

Nouveau problème Les agents peuvent Objectif : déterminer Agir Interagir Objectif : déterminer Politique d’action Politique de déclenchement Politique de résolution De manière décentralisée Pour maximiser une récompense perçue partiellement par les agents

Plan Modèles markoviens Notre proposition Exemples Résolution MDP Extensions Notre proposition Interac-DEC-MDP Formalisme Exemples Résolution Conclusion

Exemples Partage de nourriture Partage de ressources Pompiers Feu Chaque agent Position Possède seau plein/vide Action individuelles Les agents ne se gênent pas T indépendants Un agent reçoit une récompense Met de l’eau dans le feu R indépendant Possibilité d’échanger des seaux Interaction Deux résultats: échange effectif / refusé Intérêt de l’interaction Plus vite dans les échanges Feu Agents Eau

Exemple simple Deux agents Positions limitées Échanges possibles Conséquences Agent A voit feu et récompense mais pas eau Agent B voit eau mais pas le feu ni les récompenses A B

Plan Modèles markoviens Notre proposition Exemples Résolution MDP Extensions Notre proposition Interac-DEC-MDP Formalisme Exemples Résolution Conclusion

Résolution En cours Deux objectifs Apprentissage individuel  Collectif Apprentissage collectif  Individuel Représentation décentralisée des politiques Utilise les apprentissages individuels Maximiser somme des récompenses escomptées Représentation décentralisée des résolutions d’interactions

Utilisation des Qinterac Chaque agent dispose de Description S : État du système RIk,l : Résultat d’interaction {A,P} : Agent Actif ou Passif Interaction Agent a: A Ik Ik Agent b: P Introduction du collectif Rik,l Rik,l SS’ SS’’

Approche naïve 3 apprentissages dépendants Apprentissage actions individuelles Q-learning individuel ? ? ? ? ? ? A B ? ? ?

Approche naïve 3 apprentissages dépendants Apprentissage actions individuelles Apprentissage des interactions

Approche naïve 3 apprentissages dépendants Apprentissage actions individuelles Apprentissage des interactions Apprentissage des déclenchements

Problème à résoudre Il reste à remettre à jour comportement individuel B n’a rien appris Solution : transfert de récompense + Apprentissage Égoïste Gestion Du collectif

Essais Forcer la Q-valeur de l’autre agents + Donne des résultats Pour l’instant fait à la main Apprentissages simultanés Converge souvent Reste à analyser plus finement ce passage. Références au MDP faiblement couplés +

Plan Modèles markoviens Notre proposition Exemples Résolution MDP Extensions Notre proposition Interac-DEC-MDP Formalisme Exemples Résolution Conclusion

Conclusion Un nouveau modèle Interac-DEC-MDP Actions Interactions Problème collectif perçu partiellement Séparer les décisions collectives / individuelles Actions: Conséquences locales Interactions: Conséquences plus globales Décisions prises à plusieurs Définit une nouvelle entité Ensemble d’agents Transfert de récompense

Perspectives Un exemple très simple Première étape Par la suite 2 agents Perception globale Mais algorithmique non triviale Première étape Résoudre à deux agents Par la suite Changer d’échelle (plus d’agents) Perceptions partielles DEC-MDP (couplages supplémentaires) Apprentissage Dans des systèmes Réels

Exemple R1 R3 R2 R1 R2 R3 5 10 Peu importe 8 1 Clef et coffre 3 Individuelles