Théorie des jeux Hélène Fargier / D.Kant, T. Pénard fargier@irit.fr
Introduction La théorie des jeux étudie des situations (les jeux) où des agents (les joueurs) ont à choisir des stratégies et obtiendront chacun un résultat (paiement, gain) qui dépendra des stratégies jouées par l'ensemble des joueurs. Kevin et Kevina doivent aller au spectacle ce soir et acheter leur billet a l'avance, chacun separement ; ils n'ont pas la possibilite de communiquer; l'un aime le foot, l'autre les concerts. Leur soiree à tous deux sera gâchee s'ils ne sont pas ensemble Kevina/Kevin concert foot 2, 1 -1, -1 1,2 Théorie des jeux -2016-2017
Introduction Deux criminels présumes sont interrogés séparement par la police; s'ils nient tous les deux ils seront condamnés à une peine de 3 ans et s'ils avouent tous les deux ils seront condamnes à une peine de 6 ans ; si l'un des deux avoue tandis que l'autre nie, le premier n'aura qu'une peine de principe (1 an) et le second aura la peine maximale (10 ans). Quelle que soit l'action de l'autre, chacun a intérêt à avouer car ses pertes sont plus faibles Pris I/Pris. 2 nier avouer -3, -3 -10, -1 -1, -10 -6,-6 Théorie des jeux -2016-2017
Introduction On change maintenant la matrice des gains Chacun intérêt à nier, vu qu'avouer entraine la peine maximale à chaque fois Pris I/Pris. 2 nier avouer -3, -3 -10, -30 -30, -10 -30,-30 Théorie des jeux -2016-2017
Introduction Jeu « Dell versus Compaq » Chacun doit choisir son système d'exploiration (Linux ou Windows) Dell prefère Windows et Compaq préfere Linux. Les deux fabriquants ont intérêt à avoir le même OS. Jeu simultané Dell/Compaq Windows Linux 600, 200 100, 100 200,600 Théorie des jeux -2016-2017
Introduction Si Dell a une avance sur Compaq et annonce le premier l'OS qu'il a retenu Le jeu n'est pas simultané – Dell joue le premier « Forme extensive » Dell Compaq Windows 600,200 Windows Linux 100,100 Windows 100,100 Linux Linux 200,600 Théorie des jeux -2016-2017
Jeux non cooperatifs, sous forme normale Un jeu est non-cooperatif lorsque les joueurs choisissent leurs stratégies à l'insu les uns des autres. Jeu sous forme normale : N joueurs Chaque joueur i a un ensemble Ai de mi actions possibles(ou « stratégies ») Une fonction de paiement : A1 x … x An → Rn Résoudre le jeu = déterminer la stratégie de chacun Pris I/Pris. 2 nier avouer -3, -3 -10, -1 -1, -10 -6,-6 Théorie des jeux -2016-2017
Dominance Une stratégie a du joueur i domine faiblement une stratégie b de i ssi, quelque que soient les stratégies des autres, i gagne au moins autant en jouant a qu'en jouant b a domine b ssi a domine faiblement b et qu'il y a au moins un cas où i gagne plus en a qu'en jouant b a domine fortement b ssi quelque que soient les stratégies des autres, i gagne plus en jouant a qu'en jouant Ici, pour le prisonnier 1 , « avouer » domine (fortement) « nier » Pris I/Pris. 2 nier avouer -3, -3 -10, -1 -1, -10 -6,-6 Théorie des jeux -2016-2017
Equilibre en stratégies strictement dominantes Un joueur rationnel ne jouera jamais une stratégie si une autre lui apporte un gain supérieur quel que soit le comportement des autres joueurs. Si chaque joueur a une stratégie strictement dominante, il la jouera On arrive alors à un équilibre en stratégies strictement dominantes (avouer, avouer) est un équilibre en stratégies strictement dominantes Pris I/Pris. 2 nier avouer -3, -3 -10, -1 -1, -10 -6,-6 Théorie des jeux -2016-2017
Optimum de Pareto (avouer, avouer) est un équilibre en stratégies strictement dominantes mais chacun des deux joueurs gagnerait plus avec (nier, nier) Une combinaison de stratégies est un optimum de Pareto si aucun des joueurs ne peut gagner plus sans que le gain d'un autre joueur ne diminue (avouer, avouer) n'est pas un optimum de Pareto ; (nier,nier) en est un La rationalité individuelle n'amène pas forcement au bien être collectif Pris I/Pris. 2 nier avouer -3, -3 -10, -1 -1, -10 -6,-6 Théorie des jeux -2016-2017
Equilibre itératif en stratégies strictement dominantes Il n'existe pas toujours d'équilibre en stratégies strictement dominantes Mais le jeu peut souvent se simplifier : chacun peut retirer les stratégies strictement dominées, et ce jusqu'à stabilité G est retirée (dominée par C), puis H (dominée par B), puis C (dominée par D), puis B (dominée par M) (M,D) est un équilire itéré en stratégies strictement dominantes G C D H (2,5) (4,8) (1,3) M (1,4) (3,6) B (3,7) (5,8) (2,9) Théorie des jeux -2016-2017
Equilibre itératif en stratégies dominantes Si l'autre jouer est rationnel, il ne jouera pas une stratégie dominée Mais si il ne l'est pas assez, je peux prendre un risque à supposer qu'il éliminera un stratégie dominée J2 a interet à jouer A ; J1 faisant cette hyp. jouerait b (equilibre itératif en stratégie dominante) Pourtant 57 % des J1 choisissent a ils soupçonnent que J2 n'est pas assez rationnel (20% des cas) et jouera B Ces J1 limitent les dégats en jouant a plutot que b. J1 / J2 A B a 3,0 4,0 b 6,3 0,2 Théorie des jeux -2016-2017
Equilibre de Nash Un équilibre de Nash est une combinaison de stratégies telle qu'aucun joueur ne peut augmenter son gain en changeant unilateralement de stratégie Explique que dans certaines situations, personne ne dévie sa stratégie (mais pas comment on y arrive) Kevina/Kevin concert foot 2, 1 -1, -1 1,2 Théorie des jeux -2016-2017
Equilibres de Nash Il peut y en avoir plusieurs (pb si non coopératif) Les équilibres de Nash ne sont pas forcément Pareto optimaux Tout équilibre (éventuellement itératif) en stratégies dominées est un équilibre de Nash Réciproque fausse : l'itération peut éliminer des Nash eq. Kevina/Kevin concert foot 2, 1 -1, -1 1,2 Pris I/Pris. 2 nier avouer -3, -3 -10, -1 -1, -10 -6,-6 Théorie des jeux -2016-2017
Equilibres de Nash Décision tour à tour (plus d'info) Dell/Compaq Windows Linux 600, 200 100, 100 200,600 Décision tour à tour (plus d'info) Ici, un seul des deux équilibres de Nash est plausible Dell Compaq Windows 600,200 Windows Linux 100,100 Windows 100,100 Linux Linux 200,600 Théorie des jeux -2016-2017
Equilibre de Nash Théorème : Tout jeu fini à n personnes, sous forme extensive, à information parfaite possible une solution qui est un équilbre de Nash en stratégies pures Sous forme normale : pas forcément d'équilibre (de Nash) Chacun peut jouer une stratégie de sécurité (maximin) Gen I/ Gen 2 Attaquer Retraite 2, 3 8,0 6, 6 5,8 Théorie des jeux -2016-2017
Jeu à somme nulle Deux firmes vendent 1 produit de cout unitaire 1 euros ; si le prix de vente est de 2 euros, 100 clients achetent ; à 3 euros, 50 achètent Modèle équivalent (par rapport au point 50) Ou encore (Ligne minimise, Col maximise) firme I/ firme 2 2 euros 3 euros 50, 50 100,0 0, 100 50,50 firme I/ firme 2 2 euros 3 euros 0, 0 50,-50 -50, 50 0,0 firme I/ firme 2 2 euros 3 euros -50 50 Théorie des jeux -2016-2017
Jeu à somme nulle Les gain d'un joueur sont les pertes de l'autre Matrice du joueur colonne – qui maximise ; le joueur ligne minimise Stratégie de sécurité : Colonne : maximiser le gain min Ligne : minimiser le gain max (content si Colonne perd) (ici, les joueurs vendent à 2 euros tous les deux) L' équilibre de Nash ? firme I/ firme 2 2 euros 3 euros -50 50 Théorie des jeux -2016-2017
Jeu à somme nulle L' équilibre de Nash en stratégie pure lorsque il existe, est unique, et max c min l val = min l max c val Idem quel que soit l'ordre des coups (jeu extensif) Catalogue Brochure Rien P 20 30 25 G 95 80 60 Théorie des jeux -2016-2017
Utilité espérée et stratégie mixte Jeu répeté … on « cache » son jeu Ex : penalty, Chifoumi Le décideur choisit d'une probabilité pour chaque action stratégie mixte = distribution de probabilité fixée par le décideur EU1(p,q) = 2.(1-p).(1-q) + 8.(1-p).q + 6.p.(1-q) + 5 .p .q = 2 + 4.p + 6.q -7.p.q = 2 + 4p + q (6 – 7p) Attaque (p = 0) : 2 + 6q Retraite (p=1) : 6 – q 50/50 : 4 + 5/2 Gain sur(p = 6/7) : 40 / 7 Gen I/ Gen 2 Attaquer 1-q Retraite q Attaquer 1-p 2, 3 8,0 Retraite p 6, 6 5,8 Théorie des jeux -2016-2017
Utilité espérée et stratégie mixte EU1(p,q) = 2.(1-p).(1-q) + 8.(1-p).q + 6.p.(1-q) + 5 .p .q = 2 + 4.p + 6.q -7.p.q = 2 + 4p + q (6 – 7p) Attaque (p = 0) : 2 + 6q Retraite (p=1) : 6 – q 50/50 : 4 + 5/2 Gain sur(p = 6/7) : 40 / 7 Si je connais la stratégie de l'aute joueur (q), je peux maximiser mon EU Sinon, je peux espérer gagner mieux (en espérance) en choisissant une stratégie mixte (celle de gain sur) que sa stratégie pure maximin Gen I/ Gen 2 Attaquer 1-q Retraite q Attaquer 1-p 2, 3 8,0 Retraite p 6, 6 5,8 Théorie des jeux -2016-2017
Equilibre de Nash en Stratégie mixte Si je connais la stratégie de l'autre joueur, je peux maximiser mon EU EU1(p,q) = 2 + 4p + 6q – 7pq Si q=1 : EU1 = 8 – 3p (j'attaque) Si q=0 : EU1 = 2 + 4p (retraite!) Si q= ½ EU1 = 5 + ½ p (retraite aussi !) Equilibre de Nash en stratégie mixte = quand personne n'a intérêt à changer sa distribution de probabilité unilatéralement L'équilibre de Nash advient quand les proba sont telles que chaque joueur est indifférent entre ses stratégies pures (et donc mixtes) EU1 = 2 + 4p + 6q – 7pq = 2 + p . (4 – 7q) + 6q q = 4/7 EU2 = 3 + 3p – 3q - 5pq = 3 + p . (3 - 5q) - 3q p = 3/5 Théorie des jeux -2016-2017
Equilibre de Nash en Stratégie mixte Equilibre de Nash en stratégie mixte = quand personne n'a intérêt à changer sa distribution de probabilité unilatéralement Tout jeu fini possède un équilibre de Nash en stratégie mixte Tout équilibre en stratégie pure est un équilibre en stratégie mixte Théorie des jeux -2016-2017
Jeu à somme nulle et stratégie mixte tireur/ gardien G (p) D (1-p) 1 D (1 - p) Théorie des jeux -2016-2017
Coopérer La rationnalité individuelle n'amène pas forcement au bien être collectif Coopérer en stratégie pure pour obtenir (a moins) un optimum de Pareto Coopérer en stratégie mixte : *fixer* p et q = partager Théorie des jeux -2016-2017