Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Équilibre de satisfaction
Stéphane Ross
2
© Stéphane Ross – Janvier 2006
Plan Motivation Modèle de jeu Équilibre de satisfaction Algorithmes d’apprentissage et résultats Conclusion et travaux futurs © Stéphane Ross – Janvier 2006
3
© Stéphane Ross – Janvier 2006
Motivation Dans le monde réel, les agents font face à des problèmes où : ils ne connaissent pas leur environnement ils ont peu ou pas d’informations sur les autres agents évoluant dans cet environnement La théorie des jeux offre un bon modèle d’interaction entre agents mais assume que : tous les agents ont des connaissances et/ou observations communes sur les autres agents (actions, récompenses, etc.) tous les agents connaissent ou sont capables de déduire correctement la stratégie des autres agents © Stéphane Ross – Janvier 2006
4
© Stéphane Ross – Janvier 2006
Motivation Afin de rendre applicable la théorie des jeux à des problèmes réels et complexes, nous cherchons à : définir des équilibres ne nécessitant pas de connaissances ni d’observations sur les autres agents s’assurer que ces concepts de solutions soient aussi bon, au sens de Pareto, que les équilibres classiques (équilibre de Nash) trouver des algorithmes permettant d’atteindre ces équilibres © Stéphane Ross – Janvier 2006
5
© Stéphane Ross – Janvier 2006
Modèle de jeu Pour représenter les contraintes d’observations des agents nous proposons un modèle de jeu modifié : G = < n, A, Ω, O, R1, …, Rn > n : Le nombre d’agents A = A1x…xAn : L’espace d’actions conjointes Ω : L’ensemble des observations possibles O : A Ω une fonction qui définit l’observation des agents en fonction de l’action conjointe Ri : Ω la fonction de récompenses de l’agent i © Stéphane Ross – Janvier 2006
6
© Stéphane Ross – Janvier 2006
Modèle de jeu Chaque agent i ne connaît que : son ensemble d’actions possibles Ai son ensemble d’observations possibles Ω sa fonction de récompenses Ri Après chaque tour de jeu, chaque agent observe une observation oΩ correspondant à l’action conjointe de tous les agents. Cependant, ils sont incapables de déterminer cette action conjointe puisqu’ils ne connaissent pas la fonction O. © Stéphane Ross – Janvier 2006
7
© Stéphane Ross – Janvier 2006
Concept de solution Les agents ne connaissent pas la matrice de jeu. Un équilibre classique issue uniquement d’un processus délibératif est donc impossible. Les agents ne pourront raisonner que sur leur propre historique d’observations et de récompenses. Le jeu est donc répété un nombre fini de fois et on cherche à atteindre un équilibre qui sera le résultat d’un processus d’apprentissage. A a,? b,? B c,? d,? a,b,c,d Ri © Stéphane Ross – Janvier 2006
8
© Stéphane Ross – Janvier 2006
Solution proposée Le principe de la satisfaction : Si un agent est satisfait par sa récompense, alors il ne change pas de stratégie Sinon il peut décider de modifier sa stratégie À partir de ce principe, un équilibre surviendra si tous les agents sont satisfaits, puisque aucun agent ne changera de stratégie. © Stéphane Ross – Janvier 2006
9
Équilibre de satisfaction
Plus formellement, nous introduisons les notions suivantes afin de rendre cet équilibre possible : Si : {0,1} une fonction de satisfaction pour tout agent i tel que pour une récompense ri: Si(ri) = 1 si ri i (l’agent i est satisfait) Si(ri) = 0 si ri < i (l’agent i est insatisfait) i est la constante de satisfaction qui définit la borne inférieure à partir de laquelle l’agent i devient satisfait par ses récompenses. © Stéphane Ross – Janvier 2006
10
Équilibre de satisfaction
Une stratégie conjointe s est un équilibre de satisfaction si : Si(Ri(O(s))) = 1 i sit+1 = sit i,t : Si(Ri(O(st))) = 1 © Stéphane Ross – Janvier 2006
11
Exemple Le dilemme du prisonnier :
On peut transformer la matrice de jeu à l’aide des fonctions de satisfaction : C D -1,-1 -10,0 0,-10 -8,-8 Éq. de Nash : (D,D) Pareto-optimal : (C,C), (D,C), (C,D) (C,C) pareto-domine (D,D) i = -1 i C D 1,1 0,1 1,0 0,0 i = -8 i C D 1,1 0,1 1,0 © Stéphane Ross – Janvier 2006
12
© Stéphane Ross – Janvier 2006
Remarques Les équilibres de satisfaction ne sont pas toujours des équilibres de Nash. En fait, toute stratégie conjointe sera un équilibre de satisfaction si on définit i = minoΩ Ri(o) i Nous chercherons donc plutôt à définir i de sorte à atteindre des équilibres de satisfaction Pareto-optimaux, qui sont aussi individuellement rationnel pour tous les agents par rapport aux équilibres de Nash d’un jeu. Dans le dilemme du prisonnier, seulement (C,C) est Pareto-optimal et individuellement rationnel par rapport à l’équilibre de Nash (D,D) © Stéphane Ross – Janvier 2006
13
© Stéphane Ross – Janvier 2006
Jeux problématiques Toutefois, il n’est pas toujours possible d’atteindre un équilibre de satisfaction Pareto-optimal : i = 1 i A B C 1,1 0,1 1,0 Éq. de Nash faible : (A,A) Pareto-optimal : (A,A) © Stéphane Ross – Janvier 2006
14
Jeux problématiques Les jeux possédant des stratégies dans lequel un agent est toujours satisfait : i = 1 i A B 1,0 1,1 0,0 Éq. de Nash faible : (A,A), (A,B), (B,A) Pareto-optimal : (B,A) © Stéphane Ross – Janvier 2006
15
© Stéphane Ross – Janvier 2006
Jeux problématiques Certains jeux à somme nulle Dans le jeu de pile ou face, il est impossible d’obtenir un équilibre de satisfaction en stratégie pure excepté si on défini les constantes de satisfactions à la récompense minimale… H T 1,1 i = -1 i H T 1,-1 -1,1 H T 1,0 0,1 i = 1 i © Stéphane Ross – Janvier 2006
16
© Stéphane Ross – Janvier 2006
Solutions possibles Permettre à la constante de satisfaction de varier dans le temps On cherchera à ce que la constante converge vers l’optimal tout en allouant à l’équilibre optimal d’être atteignable. Permettre des équilibres de satisfaction en stratégie mixte : Si(Ei(p)) = 1 i pit+1 = pit i,t : Si(Ei(pt))) = 1 © Stéphane Ross – Janvier 2006
17
Apprentissage de l’équilibre
Cas de base : on cherche à atteindre un équilibre de satisfaction en stratégie pure sous des constantes de satisfaction fixées : © Stéphane Ross – Janvier 2006
18
Stratégie d’exploration
Exploration aléatoire : Distribution de probabilité uniforme sur toutes les actions possibles Exploration ciblée : Distribution de probabilité qui favorise les actions qui ont été explorées moins souvent: P(a) = (1/n(a)) © Stéphane Ross – Janvier 2006
19
Stratégie satisfaisante
Jeux de tests Dilemme du prisonnier Jeu coopératif Jeu problématique C D -1,-1 -10,0 0,-10 -8,-8 A B C 0,0 1,1 2,2 3,3 A B C 1,1 0,1 1,0 Bataille des sexes Grand jeu A B C D E F G H 0,0 -1,4 2,-2 3,0 1,2 0,3 1,1 3,3 2,2 4,4 5,1 0,2 1,4 0,1 5,5 2,1 0,4 5,3 -1,3 2,-1 2,4 -3,2 C D 2,1 0,0 1,2 Stratégie satisfaisante A B 1,0 1,1 0,0 © Stéphane Ross – Janvier 2006
20
© Stéphane Ross – Janvier 2006
Résultats avec PSEL Jeux |A| nES Taux de conv. Expl. aléatoire Rép. moy. Expl. ciblée Amélioration Dilemme du prisonnier 4 1 100 % 8,67 ± 0,23 6,72 ± 0,18 22,49 % Batailles des sexes 2 1,97 ± 0,04 1,95 ± 0,04 1,02 % Jeu coopératif 9 8,92 ± 0,23 7,82 ± 0,19 12,33 % Grand jeux 64 67,95 ± 1,89 61,51 ± 1,65 9,48 % Jeu problématique 10,88 % - Jeu avec stratégie satisfaisante 33,26 % © Stéphane Ross – Janvier 2006
21
Convergence théorique de PSEL
Dans tous jeux où Si(Ri(O(s))) = Sj(Rj(O(s))) i,j,s et en utilisant l’exploration aléatoire, nous avons démontré que : L’algorithme PSEL convergera vers un équilibre de satisfaction en moins de K répétitions avec une probabilité P(kK) = 1-qK où q = 1-nES/|A| Pour K, P(kK)1 si nES > 0 Le nombre de répétitions espéré (moyen) requis par l’algorithme PSEL afin de converger vers un équilibre de satisfaction est donné par E(k) = |A|/nES Ceci est valide dans tous jeux où Ri et i sont identiques pour tout agent i. © Stéphane Ross – Janvier 2006
22
© Stéphane Ross – Janvier 2006
Discussion sur PSEL L’algorithme PSEL donne de bons résultats dans des jeux « non-problématiques ». Toutefois, si on veut s’assurer d’atteindre un équilibre de satisfaction Pareto-optimal, il nécessite que les agents connaissent a priori leur récompense dans cet équilibre. On cherchera donc à apprendre la valeur de la constante de satisfaction menant à un équilibre de satisfaction Pareto-optimal. © Stéphane Ross – Janvier 2006
23
Apprentissage de la constante
L’algorithme LHSL utilise les idées suivantes : Si l’agent est satisfait, on augmente la constante Sinon on la diminue et on explore une nouvelle action On diminue l’incrément avec le temps de sorte à ce qu’il tende vers 0 et ainsi que la constante converge vers une certaine valeur fixe On s’assure aussi de ne pas surévaluer la constante en vérifiant dans l’historique de l’agent s’il a été insatisfait à partir du moment où sa constante dépassait une certaine valeur © Stéphane Ross – Janvier 2006
24
© Stéphane Ross – Janvier 2006
Résultats avec LHSL Jeux |A| Avec historique Sans historique Taux de conv. i ni Dilemme du prisonnier 4 100% 0,99 64 89,96% 0,90 Batailles des sexes 16 97,60% 0,80 Jeux coopératifs 9 99,66% 0,995 128 97,62% 0,95 Grand jeux 93,88% Jeu problématique 9,86% 7,88% 0,50 Jeu avec stratégie satisfaisante 98,06% 38,78% © Stéphane Ross – Janvier 2006
25
Comparaisons des résultats
Dilemme du prisonnier © Stéphane Ross – Janvier 2006
26
© Stéphane Ross – Janvier 2006
Discussion sur LHSL L’algorithme LHSL n’est pas garanti d’atteindre l’équilibre de satisfaction Pareto-optimal En pratique, il a toutefois offert des taux de convergences près de 100% dans les jeux « non-problématiques ». Il ne nécessite pas que les constantes de satisfaction « optimales » soit connues a priori Toutefois, les paramètres de l’algorithme doivent être ajustés « à la main » pour s’assurer d’obtenir des performances optimales © Stéphane Ross – Janvier 2006
27
© Stéphane Ross – Janvier 2006
Conclusion Nous avons vu que des équilibres résultant d’un processus d’apprentissage et ne nécessitant pas de connaissances et d’observations sur les autres agents sont possibles. L’approche proposée rend possible des équilibres étant meilleur, au sens de Pareto, que l’équilibre de Nash dans certains jeux. Toutefois, nous avons vu certains jeux où l’équilibre de satisfaction Pareto-optimal en stratégie pure n’est pas atteignable. © Stéphane Ross – Janvier 2006
28
© Stéphane Ross – Janvier 2006
Conclusion Les algorithmes proposées offrent de bonnes performances en pratique dans des jeux où l’équilibre de satisfaction est toujours atteignable. Ils sont toutefois limités dans la mesure où ils nécessitent que certaines constantes soient bien définies afin d’assurer des performances optimales. © Stéphane Ross – Janvier 2006
29
© Stéphane Ross – Janvier 2006
Travaux futurs Explorer des approches alternatives pour apprendre l’équilibre et la constante de satisfaction Approches à non-regret Approches basées sur la stabilité des observations Développer des algorithmes qui peuvent converger vers des équilibres de satisfaction mixtes Approches évolutionnaires Approches par intervalle de confiance sur l’espérance Étendre le modèle pour l’appliquer à différents types de jeux : Jeux bayésiens Jeux stochastiques © Stéphane Ross – Janvier 2006
30
© Stéphane Ross – Janvier 2006
Travaux futurs Il faut garder en perspective que si nous faisons face à des agents inconnus, ils n’utiliseront peut-être pas un raisonnement basée sur la satisfaction. Il faut donc évaluer si ce raisonnement peut garantir des performances optimales face à d’autres type d’agents : Meilleure réponse contre agents stationnaires Équilibre de Nash contre agents rationnels Minimax contre agents quelconques © Stéphane Ross – Janvier 2006
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.