La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IFT 702 Planification en intelligence artificielle Planification Multi-Agents Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift702.

Présentations similaires


Présentation au sujet: "IFT 702 Planification en intelligence artificielle Planification Multi-Agents Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift702."— Transcription de la présentation:

1 IFT 702 Planification en intelligence artificielle Planification Multi-Agents Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift702

2 © Froduald KabanzaIFT7022 Sujets couverts l Catégories de problèmes de planification multi-agent l Approches de coordination l Planification adversariale et la théorie des jeux Références: Yoav Shoham and Kevin Leyton-Brown. Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations. Chapitres 1 à 2 et Chapitre 5.Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations Browne et al. A Survey of Monte Carlo Tree Search Methods. IEEE Transactions on Computational Intelligence and AI in Games, VOL. 4, NO. 1, March 2012A Survey of Monte Carlo Tree Search Methods

3 © Froduald KabanzaIFT7023 Planification multi-agents l Planification multi-agent signifie planifier pour plusieurs agents u Un seul agent qui planifie pour plusieurs u Plusieurs agents qui planifient en même temps (ensemble ou en compétition) l Pourquoi plusieurs agents? u Chercher lefficacité (en temps de calcul) u Chercher la robustesse – un agent peut tomber en panne, les autres vont assurer la solution du problème. u Le problème implique intrinsèquement plusieurs agents l Nouveaux défis: u Coordination des agents u Repenser les algorithmes pour assurer loptimalité. California Institute of Technology © 2004 r1r2 r5 r4r3 Livraison de colis

4 CATÉGORIES DE PROBLÈMES IFT615© Froduald Kabanza4

5 IFT7025 Types de problèmes de planification multi-agent l Coopératif : but commun, fonction dutilité commune. u Exemple: Réseau de capteurs distribués. l Adversarial : buts ou fonctions dutilité opposées u Exemple: Jeux RTS l Coalition: u Jeux RTS multi-joueurs u Robot soccer

6 APPROCHES DE COORDINATION IFT615© Froduald Kabanza6

7 Planification centralisée l Planification centralisée, exécution décentralisé l Le planificateur central doit être capable de traiter des u Activités concurrentes u Buts temporels l Les algorithmes de planification vus jusquici (pour un seul agent) conviendraient, mais seraient inefficaces: u Il faut ajouter un middleware de communication entre les agents. Planificateur central Exécution de plans individuels © Froduald Kabanza7IFT702

8 Planification décentralisée – fusion de plans l Des plans individuels peuvent être générés séparément et fusionnés ensuite (plan merging). l Des algorithmes de fusion de plans existent: voir quelques références dans la section 24.4 du livre. Fusion de plans (plan merger) Exécution de plans individuels Planificateur individuel © Froduald Kabanza8IFT702

9 Planification complètement décentralisée l Dans une approche complètement distribuée, chaque agent calcule son plan en échangent des données avec les autres. l Exemple: Distributed CSP (DCSP): Chapitre 1 & 2 de [Shoam et Leyton-Brown] Exécution de plans individuels © Froduald Kabanza9IFT702 Indor sensor network

10 © Froduald KabanzaIFT70210 Distributed CSP l Une généralisation à plusieurs agents de backtracking-search pour CSP (IFT615) l Pour des problèmes de planification coopérative u Exemple: Réseau de capteurs distribués (SensorDCSP) l Chapitre 1 de [Shoam et Leyton-Brown] Outdoor sensor network Indor sensor network

11 © Froduald KabanzaIFT70211 Sensor DCSP - Enoncé du problème l Plusieurs capteurs: s1, …, sm u Chaque capteur a un rayon daction u Peut être obstrué par des obstacles dans lenvironnement u Peut fonctionner sur des fréquences différentes u Les rayons daction des capteurs peuvent se chevaucher l Plusieurs cibles à suivre: t1, …, tn. l Problème: Allouer des capteurs aux cibles, de sorte que lon puisse suivre les cibles en tout temps et quil ny ait pas dinterférences entre les capteurs. u Il y a interférence quand deux capteurs avec des rayons daction qui se chevauchent utilise la même fréquence. l Peut se modéliser comme un problème CSP

12 © Froduald Kabanza12IFT615 Rappel IFT615 – Problème CSP l Formellement, un problème de satisfaction de contraintes (ou CSP pour Constraint Satisfaction Problem) est défini par: u Un ensemble fini de variables X 1, …, X n. »Chaque variable X i a un domaine D i de valeurs permises. u Un ensemble fini de contraintes C 1, …, C m sur les variables. »Une contrainte restreint les valeurs pour un sous-ensemble de variables. l Un état dun problème CSP est défini par une assignation de valeurs à certaines variables ou à toutes les variables. u {X i =v i,X n =v 1,…}. l Une assignation qui ne viole aucune contrainte est dite consistante ou légale. l Une assignation est complète si elle concerne toutes les variables. l Une solution à un problème CSP est une assignation complète et consistante. l Parfois, la solution doit en plus maximiser une fonction objective donnée.

13 © Froduald Kabanza13IFT615 Rappel IFT615 - Exemple : Colorier une carte l On vous donne une carte de lAustralie : l Et on vous demande dutiliser seulement trois couleurs (rouge, vert et bleu) de sorte que deux états frontaliers naient jamais les mêmes couleurs. l On peut facilement trouver une solution à ce problème en le formulant comme un problème CSP et en utilisant des algorithmes généraux pour CSP.

14 © Froduald Kabanza14IFT615 Rappel IFT615 - Graphe de contraintes l Pour des problèmes avec des contraintes binaires (c-à-d., entre deux variables), on peut visualiser le problème CSP par un graphe de contraintes. l Un graphe de contraintes est un graphe dont les nœuds sont des variables (un nœud par variable) et les arcs sont des contraintes entre les deux variables. WA NT WA SA NT Q NT SA Q SA Q NSW NSW V SA V SA NSW

15 © Froduald Kabanza15IFT615 Rappel IFT615 - Backtracking search function BACKTRACKING-SEARCH(csp) return a solution or failure return BACKTRACK({}, csp) function BACKTRACK(assignment, csp) return a solution or failure if assignment is complete then return assignment var SELECT-UNASSIGNED-VARIABLE(var, assignment, csp) for each value in ORDER-DOMAIN-VALUES(var, assignment, csp) do if value is consistent with assignment then add {var=value} to assignment inferences INFERENCES(csp, var, value) // e.g., AC-3 if inferences failure then add inferences to assignment result BACTRACK (assignment, csp) if result failure then return result remove {var=value} and inferences from assignment return failure

16 © Froduald KabanzaIFT70216 DCSP l Dans DCSP, chaque variable est possédée par un agent. l Le problème demeure de de trouver une assignation qui satisfait les contraintes. l Par contrainte, chaque agent décide de la valeur de sa variable avec une certaine autonomie. l Et les agents le font en parallèle. l Chaque agent na pas une vue globale des assignations, mais il peut communiquer avec les agents voisins (selon le graphe des contraintes) pour connaître leurs valeurs. l Un algorithme DCSP consiste à avoir les agents qui communiquent avec leurs voisins, chacun mettant à jour sa valeur, de sorte que le processus converge éventuellement vers une assignation complète et satisfaisante. l Le chapitre 1 [Shoam et Leyton-Brown] décrit deux algorithmes en détail.

17 PLANIFICATION ADVERSARIALE IFT615© Froduald Kabanza17

18 Théorie des jeux l Modéliser des situations où les décisions de lagent sont influencées par celles des autre agents (et vice-versa) l Pas seulement des situations de compétition l Mais aussi des situations de coopération (exemple, entre des firmes pour former un cartel) et de coalition. l Ici je couvre seulement les jeux entre adversaires. 18IFT702

19 Théorie des jeux l Très utilisée en économie u Modélise des situations économiques de coopération/compétition l Hypothèses u Rationalité: maximiser lutilité espérée »Où lutilité dépend des décisions des autres agents u Égoïsme: indifférence face à lutilité des autres joueurs 19IFT702 i p(i) *u(x i ), comment trouver p(i)?

20 Théorie des jeux l Types de jeux u Coopératif / Non coopératif u Somme nulle / Somme générale u Simultanés / Séquentiels u Information complète / incomplète u Information parfaite / imparfaite l Types de reprséntation u Normale (matricielle) u Extensive (arbre de jeu) l Ici, jutilise une représentation extensive 20IFT702

21 Concepts basiques l Comment dans la planification MDP, le but est pour chaque agent de maximiser sa fonction dutilité. u La différente notable est que nous avons maintenant plusieurs agents, possiblement avec des fonctions dutilité opposées. l Léquivalent dun plan (ou politique) dans les jeux est une stratégie u Choix dactions pour un jouer pour toutes les phases du jeu. l Stratégie pure (fixée pour chaque état du jeu) vs stratégie mixte (aléatoire) l Au lieu de plan/stratégie optimal, on parle de concept déquilibre. l Il y a plusieurs concept déquilibres. 21IFT702

22 Équilibre de Nash Étant donnés un ensemble de stratégies (une pour chaque agent), elles s ont en équilibre de Nash si et seulement si chaque stratégie est la meille ure réponse face aux autres stratégies – Autrement dit, aucun agent na intérêt à dévier de sa stratégie si les strat égies des adversaires reste fixe – Léquilibre de Nash est conservatrice Donne une stratégie optimale si effectivement les autres agents jou ent selon léquilibre (jouent de façon optimal) Elle nexploite pas les faiblesses éventuelles des autres agents 22IFT702

23 Jeux (séquentiels) à information parfaite l Décision tour à tour u Minimax u Optimisation: alpha-beta pruning 23IFT702 l Autres alternatives intéressantes potentiellement plus adaptées aux jeux RTS: Monte-Carlo-Tree Search.Monte-Carlo-Tree Search

24 Monte-Carlo Tree-Search (Approche de base) 24IFT702 Browne et al. A Survey of Monte Carlo Tree Search Methods. IEEE Transactions on Computational Intelligence and AI in Games, VOL. 4, NO. 1, March 2012A Survey of Monte Carlo Tree Search Methods

25 Jeu séquentiels à information incomplète Algorithme Expectimax 25IFT702 l Un model probabiliste des comportement des lopposant: u Le modèle peut être une simple distribution de probabilités u Le modèle peut être plus sophistiqué, demandant des inférences/calculs élaborés u Le modèle peut représenter des actions stochastiques/incontrôlables (à cause de de lopposant, lenvironnement) u Le modèle pourrait signifier que des actions de ladversaire sont probables l Pour cette leçon, supposer que (de façon magique) nous avons une distribution de probabilités à associer aux actions de ladversaire/environnement Avoir une croyance probabiliste sur les actions dun agent ne signifie pas que lagent lance effectivement un dé!

26 Algorithme Expectimax © Froduald Kabanza26IFT615 EXPECTIMAX (n) = UTILITY(n)Si n est un nœud terminal max s successors(n) MINIMAX-VALUE(s) Si n est un nœud Max min s successors(n) MINIMAX-VALUE(s) Si n est un nœud Min s successors(n) P(s) * EXPECTEDMINIMAX(s) Si n est un nœud chance Ces équations donne la programmation récursive des valeurs jusquà la racine de larbre. IFT615

27 Jeu séquentiels à information imparfaite 27IFT702 l État partiellement observable l Modélisé par un ensemble dinformation (information set).

28 © Froduald KabanzaIFT70228 Résumé l La planification multi-agent concerne la planification pour plusieurs agents. l La théorie des jeux fournit les concepts de solution (équilibres) et les algorithmes de prise de décision. l Lintelligence artificielle distribuées fournit des méthodes de coordination centralisées, décentralisées, ou hybrides. l Dans ce cours, jai surtout abordée laspect adversariale. l Pour la planification coopérative, les approches de planification par recherche dans lespace de plans, combinées avec DCSP offrent un cadre de résolution fréquemment rencontré dans la littérature.


Télécharger ppt "IFT 702 Planification en intelligence artificielle Planification Multi-Agents Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift702."

Présentations similaires


Annonces Google