Équilibre de satisfaction Stéphane Ross
© Stéphane Ross – Janvier 2006 Plan Motivation Modèle de jeu Équilibre de satisfaction Algorithmes d’apprentissage et résultats Conclusion et travaux futurs © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Motivation Dans le monde réel, les agents font face à des problèmes où : ils ne connaissent pas leur environnement ils ont peu ou pas d’informations sur les autres agents évoluant dans cet environnement La théorie des jeux offre un bon modèle d’interaction entre agents mais assume que : tous les agents ont des connaissances et/ou observations communes sur les autres agents (actions, récompenses, etc.) tous les agents connaissent ou sont capables de déduire correctement la stratégie des autres agents © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Motivation Afin de rendre applicable la théorie des jeux à des problèmes réels et complexes, nous cherchons à : définir des équilibres ne nécessitant pas de connaissances ni d’observations sur les autres agents s’assurer que ces concepts de solutions soient aussi bon, au sens de Pareto, que les équilibres classiques (équilibre de Nash) trouver des algorithmes permettant d’atteindre ces équilibres © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Modèle de jeu Pour représenter les contraintes d’observations des agents nous proposons un modèle de jeu modifié : G = < n, A, Ω, O, R1, …, Rn > n : Le nombre d’agents A = A1x…xAn : L’espace d’actions conjointes Ω : L’ensemble des observations possibles O : A Ω une fonction qui définit l’observation des agents en fonction de l’action conjointe Ri : Ω la fonction de récompenses de l’agent i © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Modèle de jeu Chaque agent i ne connaît que : son ensemble d’actions possibles Ai son ensemble d’observations possibles Ω sa fonction de récompenses Ri Après chaque tour de jeu, chaque agent observe une observation oΩ correspondant à l’action conjointe de tous les agents. Cependant, ils sont incapables de déterminer cette action conjointe puisqu’ils ne connaissent pas la fonction O. © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Concept de solution Les agents ne connaissent pas la matrice de jeu. Un équilibre classique issue uniquement d’un processus délibératif est donc impossible. Les agents ne pourront raisonner que sur leur propre historique d’observations et de récompenses. Le jeu est donc répété un nombre fini de fois et on cherche à atteindre un équilibre qui sera le résultat d’un processus d’apprentissage. A a,? b,? B c,? d,? a,b,c,d Ri © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Solution proposée Le principe de la satisfaction : Si un agent est satisfait par sa récompense, alors il ne change pas de stratégie Sinon il peut décider de modifier sa stratégie À partir de ce principe, un équilibre surviendra si tous les agents sont satisfaits, puisque aucun agent ne changera de stratégie. © Stéphane Ross – Janvier 2006
Équilibre de satisfaction Plus formellement, nous introduisons les notions suivantes afin de rendre cet équilibre possible : Si : {0,1} une fonction de satisfaction pour tout agent i tel que pour une récompense ri: Si(ri) = 1 si ri i (l’agent i est satisfait) Si(ri) = 0 si ri < i (l’agent i est insatisfait) i est la constante de satisfaction qui définit la borne inférieure à partir de laquelle l’agent i devient satisfait par ses récompenses. © Stéphane Ross – Janvier 2006
Équilibre de satisfaction Une stratégie conjointe s est un équilibre de satisfaction si : Si(Ri(O(s))) = 1 i sit+1 = sit i,t : Si(Ri(O(st))) = 1 © Stéphane Ross – Janvier 2006
Exemple Le dilemme du prisonnier : On peut transformer la matrice de jeu à l’aide des fonctions de satisfaction : C D -1,-1 -10,0 0,-10 -8,-8 Éq. de Nash : (D,D) Pareto-optimal : (C,C), (D,C), (C,D) (C,C) pareto-domine (D,D) i = -1 i C D 1,1 0,1 1,0 0,0 i = -8 i C D 1,1 0,1 1,0 © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Remarques Les équilibres de satisfaction ne sont pas toujours des équilibres de Nash. En fait, toute stratégie conjointe sera un équilibre de satisfaction si on définit i = minoΩ Ri(o) i Nous chercherons donc plutôt à définir i de sorte à atteindre des équilibres de satisfaction Pareto-optimaux, qui sont aussi individuellement rationnel pour tous les agents par rapport aux équilibres de Nash d’un jeu. Dans le dilemme du prisonnier, seulement (C,C) est Pareto-optimal et individuellement rationnel par rapport à l’équilibre de Nash (D,D) © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Jeux problématiques Toutefois, il n’est pas toujours possible d’atteindre un équilibre de satisfaction Pareto-optimal : i = 1 i A B C 1,1 0,1 1,0 Éq. de Nash faible : (A,A) Pareto-optimal : (A,A) © Stéphane Ross – Janvier 2006
Jeux problématiques Les jeux possédant des stratégies dans lequel un agent est toujours satisfait : i = 1 i A B 1,0 1,1 0,0 Éq. de Nash faible : (A,A), (A,B), (B,A) Pareto-optimal : (B,A) © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Jeux problématiques Certains jeux à somme nulle Dans le jeu de pile ou face, il est impossible d’obtenir un équilibre de satisfaction en stratégie pure excepté si on défini les constantes de satisfactions à la récompense minimale… H T 1,1 i = -1 i H T 1,-1 -1,1 H T 1,0 0,1 i = 1 i © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Solutions possibles Permettre à la constante de satisfaction de varier dans le temps On cherchera à ce que la constante converge vers l’optimal tout en allouant à l’équilibre optimal d’être atteignable. Permettre des équilibres de satisfaction en stratégie mixte : Si(Ei(p)) = 1 i pit+1 = pit i,t : Si(Ei(pt))) = 1 © Stéphane Ross – Janvier 2006
Apprentissage de l’équilibre Cas de base : on cherche à atteindre un équilibre de satisfaction en stratégie pure sous des constantes de satisfaction fixées : © Stéphane Ross – Janvier 2006
Stratégie d’exploration Exploration aléatoire : Distribution de probabilité uniforme sur toutes les actions possibles Exploration ciblée : Distribution de probabilité qui favorise les actions qui ont été explorées moins souvent: P(a) = (1/n(a)) © Stéphane Ross – Janvier 2006
Stratégie satisfaisante Jeux de tests Dilemme du prisonnier Jeu coopératif Jeu problématique C D -1,-1 -10,0 0,-10 -8,-8 A B C 0,0 1,1 2,2 3,3 A B C 1,1 0,1 1,0 Bataille des sexes Grand jeu A B C D E F G H 0,0 -1,4 2,-2 3,0 1,2 0,3 1,1 3,3 2,2 4,4 5,1 0,2 1,4 0,1 5,5 2,1 0,4 5,3 -1,3 2,-1 2,4 -3,2 C D 2,1 0,0 1,2 Stratégie satisfaisante A B 1,0 1,1 0,0 © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Résultats avec PSEL Jeux |A| nES Taux de conv. Expl. aléatoire Rép. moy. Expl. ciblée Amélioration Dilemme du prisonnier 4 1 100 % 8,67 ± 0,23 6,72 ± 0,18 22,49 % Batailles des sexes 2 1,97 ± 0,04 1,95 ± 0,04 1,02 % Jeu coopératif 9 8,92 ± 0,23 7,82 ± 0,19 12,33 % Grand jeux 64 67,95 ± 1,89 61,51 ± 1,65 9,48 % Jeu problématique 10,88 % - Jeu avec stratégie satisfaisante 33,26 % © Stéphane Ross – Janvier 2006
Convergence théorique de PSEL Dans tous jeux où Si(Ri(O(s))) = Sj(Rj(O(s))) i,j,s et en utilisant l’exploration aléatoire, nous avons démontré que : L’algorithme PSEL convergera vers un équilibre de satisfaction en moins de K répétitions avec une probabilité P(kK) = 1-qK où q = 1-nES/|A| Pour K, P(kK)1 si nES > 0 Le nombre de répétitions espéré (moyen) requis par l’algorithme PSEL afin de converger vers un équilibre de satisfaction est donné par E(k) = |A|/nES Ceci est valide dans tous jeux où Ri et i sont identiques pour tout agent i. © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Discussion sur PSEL L’algorithme PSEL donne de bons résultats dans des jeux « non-problématiques ». Toutefois, si on veut s’assurer d’atteindre un équilibre de satisfaction Pareto-optimal, il nécessite que les agents connaissent a priori leur récompense dans cet équilibre. On cherchera donc à apprendre la valeur de la constante de satisfaction menant à un équilibre de satisfaction Pareto-optimal. © Stéphane Ross – Janvier 2006
Apprentissage de la constante L’algorithme LHSL utilise les idées suivantes : Si l’agent est satisfait, on augmente la constante Sinon on la diminue et on explore une nouvelle action On diminue l’incrément avec le temps de sorte à ce qu’il tende vers 0 et ainsi que la constante converge vers une certaine valeur fixe On s’assure aussi de ne pas surévaluer la constante en vérifiant dans l’historique de l’agent s’il a été insatisfait à partir du moment où sa constante dépassait une certaine valeur © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Résultats avec LHSL Jeux |A| Avec historique Sans historique Taux de conv. i ni Dilemme du prisonnier 4 100% 0,99 64 89,96% 0,90 Batailles des sexes 16 97,60% 0,80 Jeux coopératifs 9 99,66% 0,995 128 97,62% 0,95 Grand jeux 93,88% Jeu problématique 9,86% 7,88% 0,50 Jeu avec stratégie satisfaisante 98,06% 38,78% © Stéphane Ross – Janvier 2006
Comparaisons des résultats Dilemme du prisonnier © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Discussion sur LHSL L’algorithme LHSL n’est pas garanti d’atteindre l’équilibre de satisfaction Pareto-optimal En pratique, il a toutefois offert des taux de convergences près de 100% dans les jeux « non-problématiques ». Il ne nécessite pas que les constantes de satisfaction « optimales » soit connues a priori Toutefois, les paramètres de l’algorithme doivent être ajustés « à la main » pour s’assurer d’obtenir des performances optimales © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Conclusion Nous avons vu que des équilibres résultant d’un processus d’apprentissage et ne nécessitant pas de connaissances et d’observations sur les autres agents sont possibles. L’approche proposée rend possible des équilibres étant meilleur, au sens de Pareto, que l’équilibre de Nash dans certains jeux. Toutefois, nous avons vu certains jeux où l’équilibre de satisfaction Pareto-optimal en stratégie pure n’est pas atteignable. © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Conclusion Les algorithmes proposées offrent de bonnes performances en pratique dans des jeux où l’équilibre de satisfaction est toujours atteignable. Ils sont toutefois limités dans la mesure où ils nécessitent que certaines constantes soient bien définies afin d’assurer des performances optimales. © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Travaux futurs Explorer des approches alternatives pour apprendre l’équilibre et la constante de satisfaction Approches à non-regret Approches basées sur la stabilité des observations Développer des algorithmes qui peuvent converger vers des équilibres de satisfaction mixtes Approches évolutionnaires Approches par intervalle de confiance sur l’espérance Étendre le modèle pour l’appliquer à différents types de jeux : Jeux bayésiens Jeux stochastiques © Stéphane Ross – Janvier 2006
© Stéphane Ross – Janvier 2006 Travaux futurs Il faut garder en perspective que si nous faisons face à des agents inconnus, ils n’utiliseront peut-être pas un raisonnement basée sur la satisfaction. Il faut donc évaluer si ce raisonnement peut garantir des performances optimales face à d’autres type d’agents : Meilleure réponse contre agents stationnaires Équilibre de Nash contre agents rationnels Minimax contre agents quelconques © Stéphane Ross – Janvier 2006