Jeux répétés
Jeux répétés Les jeux étudiés jusqu’ici représentaient des interactions isolées entre agents. Les jeux sous formes extensive permettaient certes la prise en compte d’une répétition de l’interaction (chaque étape de cette répétition pouvant être inséré dans un arbre). Mais même le jeu sous forme extensive représente une interaction qui, tout en étant complexe et dynamique, ne se produit qu’une seule fois. Qu’arrive t-il si l’interaction entre les joueurs se reproduit plusieurs fois ?
Exemple: la course cycliste Lance EPO NON (0,0) (2,-1) (-1,2) (1,1) Alberto
Course cycliste Si la course n’a lieu qu’une fois, nous avons vu que la seule prédiction qui peut être faite de l’issue du jeu est que les deux joueurs prendront de l’EPO, malgré l’inefficacité de ce comportement. Mais qu’arriverait-il si l’affrontement entre Alberto et Lance se reproduisait un grand nombre de fois dans le futur ? Ne pourrait-on pas voir émerger de la coopération dans ce cas, à cause de la peur d’être puni demain du fait d’une non-coopération aujourd’hui ?
Répétition du jeu ? La répétition d’un jeu à un coup est un nouveau jeu. Typiquement, on suppose que les paiements que recevront les joueurs demain seront « escomptés » (impatience). Examinons ce qui se passerait si Alberto et Lance répétait leur interaction. On sait que le seul équilibre si l’interaction n’a lieu qu’une fois est (epo,epo) Qu’arrive t’il si l’interaction a lieu 2 fois ? Voici la forme extensive correspondant à cette situation.
L A L A L L A A L A EPO (0,0) EPO N (21,- 2) N EPO (-1,22) (1, 2) EPO N EPO (2,-1) L EPO (2(1+1), -1(1+ 2)) A N NON N L EPO (2-1,-1+22) EPO EPO (2+1,-1+2) (-1,2) N L A NON EPO EPO N A (-1+21,2-2) EPO (-1(1+1),2(1+2)) (-1+1,2+2) NON N NON L EPO (1,1) EPO (1+21,1-2) N EPO (1-1,1+22) A N (1+1,1+2) N
L A L A L L A A L A Plaçons nous dans la 2e période EPO (0,0) EPO N (21,- 2) N EPO (-1,22) (1, 2) EPO N EPO (2,-1) L EPO (2(1+1), -1(1+ 2)) A N NON N L EPO (2-1,-1+22) EPO EPO (2+1,-1+2) N L (-1,2) A NON EPO EPO N A (-1+21,2-2) EPO (-1(1+1),2(1+2)) (-1+1,2+2) NON N NON L EPO (1,1) EPO (1+21,1-2) N EPO (1-1,1+22) A N (1+1,1+2) N
L A L A L L A A L A Pour L, l’écart 2 de paiement entre EPO et (0,0) Pour L, l’écart de paiement entre EPO et N est 2 quoiqu’ait fait A et quelque soit le passé L 2 EPO N A (21,- 2) N EPO (-1,22) 2 (1, 2) EPO N 2 EPO (2,-1) L EPO (2(1+1), -1(1+ 2)) A N NON N EPO L (2-1,-1+22) EPO EPO (2+1,-1+2) N L (-1,2) A NON EPO EPO N A (-1+21,2-2) EPO (-1(1+1),2(1+2)) (-1+1,2+2) NON N NON L EPO (1,1) EPO (1+21,1-2) N EPO (1-1,1+22) A N (1+1,1+2) N
L A L A L L A A L A Pour L, l’écart de paiement entre EPO et N est 2 (0,0) Pour L, l’écart de paiement entre EPO et N est 2 quoiqu’ait fait A et quelque soit le passé L EPO N A (21,- 2) N EPO (-1,22) (1, 2) EPO N EPO (2,-1) L EPO (2(1+1), -1(1+ 2)) A N NON N EPO L (2-1,-1+22) EPO EPO (2+1,-1+2) N L (-1,2) A NON EPO EPO N A (-1+21,2-2) EPO (-1(1+1),2(1+2)) (-1+1,2+2) NON N NON L EPO (1,1) EPO (1+21,1-2) N EPO (1-1,1+22) A N (1+1,1+2) N
L A L A L L A A L A Il en va de même pour A EPO (0,0) EPO N (21,- 2) (-1,22) (1, 2) EPO N EPO (2,-1) L EPO (2(1+1), -1(1+ 2)) A N NON N EPO L (2-1,-1+22) EPO EPO (2+1,-1+2) N L (-1,2) A NON EPO EPO N A (-1+21,2-2) EPO (-1(1+1),2(1+2)) (-1+1,2+2) NON N NON L EPO (1,1) EPO (1+21,1-2) N EPO (1-1,1+22) A N (1+1,1+2) N
L A L A L L A A L A On observera donc EPO-EPO comme choix (0,0) On observera donc EPO-EPO comme choix de stratégies dans tous les sous-jeux de la 2e période L EPO N A (21,- 2) N EPO (-1,22) (1, 2) EPO N EPO (2,-1) L EPO (2(1+1), -1(1+ 2)) A N NON N EPO L (2-1,-1+22) EPO EPO (2+1,-1+2) N L (-1,2) A NON EPO EPO N A (-1+21,2-2) EPO (-1(1+1),2(1+2)) (-1+1,2+2) NON N NON L EPO (1,1) EPO (1+21,1-2) N EPO (1-1,1+22) A N (1+1,1+2) N
L A L A L L A A L A On observera donc EPO-EPO comme choix (0,0) On observera donc EPO-EPO comme choix de stratégies dans tous les sous-jeux de la 2e période L EPO N A (21,- 2) N EPO (-1,22) (1, 2) EPO N EPO (2,-1) L EPO (2(1+1), -1(1+ 2)) A N NON N EPO L (2-1,-1+22) EPO EPO (2+1,-1+2) N L (-1,2) A NON EPO EPO N A (-1+21,2-2) EPO (-1(1+1),2(1+2)) (-1+1,2+2) NON N NON L EPO (1,1) EPO (1+21,1-2) N EPO (1-1,1+22) A N (1+1,1+2) N
L A L A L L A A L A On observera donc EPO-EPO comme choix (0,0) On observera donc EPO-EPO comme choix de stratégies dans tous les sous-jeux de la 2e période L EPO N A (21,- 2) N EPO (-1,22) (1, 2) EPO N EPO (2,-1) L EPO (2(1+1), -1(1+ 2)) A N NON N EPO L (2-1,-1+22) EPO EPO (2+1,-1+2) N L (-1,2) A NON EPO EPO N A (-1+21,2-2) EPO (-1(1+1),2(1+2)) (-1+1,2+2) NON N NON L EPO (1,1) EPO (1+21,1-2) N EPO (1-1,1+22) A N (1+1,1+2) N
L A On observera donc EPO-EPO comme choix de stratégies dans tous les (0,0) On observera donc EPO-EPO comme choix de stratégies dans tous les sous-jeux de la 2e période EPO EPO EPO (2,-1) EPO NON L EPO EPO (-1,2) A NON EPO EPO NON EPO (1,1) EPO
…et le comportement des joueurs sera le même que si le jeu (0,0) …et le comportement des joueurs sera le même que si le jeu n’avait eu lieu qu’une fois EPO (2,-1) NON L EPO (-1,2) A NON EPO NON (1,1)
Répétition du jeu n fois Le même raisonnement s’applique si le jeu est répété un nombre quelconque (mais fini) de fois. A la dernière fois, EPO est une stratégie strictement dominante pour chaque joueur. A l’avant dernière fois, on sait qu’EPO-EPO sera observé la dernière fois peu importe ce que l’on fera. On joue donc à l’avant dernière fois comme si c’était la dernière fois; etc. Prendre des EPO à chaque étape du jeu est l’unique équilibre parfait en sous-jeu.
Commentaires sur les jeux répétés un nombre fini de fois La répétition un nombre fini de fois du jeu d’Alberto et Lance n’affecte pas l’équilibre parfait en sous jeu. C’est le cas de tous les jeux qui ont une structure dite « du dilemme du prisonnier » Ces jeux sont ceux qui admettent un équilibre en stratégies dominantes qui n’est pas Pareto efficace. Mais il est des jeux dont la répétition un nombre fini de fois modifie les équilibres parfaits en sous jeu En voici un exemple.
2 équilibres de Nash en stratégies pures 2 G C D H (0,0) (3,4) (6,0) M (4,3) B (0,6) (5,5) 1
1 équilibre de Nash en stratégies mixtes 2 G C D H (0,0) (3,4) (6,0) M (4,3) B (0,6) (5,5) 1
2 1 G 3/7 C 4/7 D 0 H 3/7 (0,0) (3,4) (6,0) M 4/7 (4,3) B 0 (0,6) 1 équilibre de Nash en stratégies mixtes 2 G 3/7 C 4/7 D 0 H 3/7 (0,0) (3,4) (6,0) M 4/7 (4,3) B 0 (0,6) (5,5) 1
qui donne aux joueurs les paiements espérés (12/7,12/7) 1 équilibre de Nash en stratégies mixtes qui donne aux joueurs les paiements espérés (12/7,12/7) 2 G 3/7 C 4/7 D 0 H 3/7 (0,0) (3,4) (6,0) M 4/7 (4,3) B 0 (0,6) (5,5) 1
Commentaires sur les jeux répétés un nombre fini de fois Aucune des distributions de paiements associée à l’un des trois équilibres de Nash n’est efficace. (5,5) est préférable pour les deux joueurs. La répétition du jeu une seule fois pourrait permettre aux deux joueurs d’atteindre (5,5) au moins une fois si le taux d’escompte de chaque joueur est au moins aussi grand que 7/9 (les joueurs sont relativement patients).
Commentaires sur les jeux répétés un nombre fini de fois Difficile ici de représenter graphiquement la forme extensive du jeu répété 2 fois. Mais on peut se convaincre que la prescription de comportements suivante est un équilibre parfait en sous jeu. 1ère étape: (B,D) 2e étape: -(M,G) si (B,D) a été joué à la 1ère -Le profil de stratégies mixtes (3/7,4/7,0;3/7,4/7,0) autrement Puisque (M,G) et (3/7,4/7,0;3/7,4/7,0) sont des équilibres de Nash du jeu, personne n’a intérêt à dévier de ces comportements au sous-jeu de la 2e étape Montrons qu’aucun des 2 joueurs n’a intérêt à dévier de (B,D) à la 1ère étape si le comportement décrit plus haut de la 2e étape est anticipé.
Commentaires sur les jeux répétés un nombre fini de fois Paiement espéré de 1 avec B (si 2 joue D): 5 + 41 Paiement espéré de 1 avec M (si 2 joue D):(12/7)1 (évidemment < 5 + 41) Paiement espéré de 1 avec H (si 2 joue D): 6 + (12/7)1 Or: 6 + (12/7)1 < 5 + 41 si 1 > 7/16 Donc 1 n’a pas intérêt à dévier de B en 1ère période Vérifiez qu’il en va de même pour 2.
Commentaires sur les jeux répétés un nombre fini de fois La répétition de l’interaction une seule fois peut donc parfois faire émerger, au moins pour une période, de la coopération dans certains cas. Voyons maintenant que la répétition de l’interaction un nombre infini de fois peut faire émerger cette coopération même dans des jeux aussi peu « coopératifs » que les dilemmes du prisonnier.
Répétition du jeu un nombre infini de fois La répétition de l’interaction un nombre infini de fois change radicalement les incitations des joueurs Dans l’exemple d’Alberto et Lance, la combinaison de stratégies suivante peut être un équilibre parfait en sous jeu (si les joueurs ne sont pas trop impatients): « commence à ne pas prendre des EPO et continue à ne pas en prendre tant que l’adversaire n’en prend pas; si l’adversaire commence à prendre de l’EPO, prends en jusqu’à la fin des temps ». Voyons pourquoi.
Répétition du jeu un nombre infini de fois Le caractère infini du jeu ne permet évidemment pas une représentation graphique. Si les joueurs se comportent comme indiqué, 2 types de sous-jeux doivent être considérés. Un sous jeu où personne ne dévie (personne ne prend des EPO) (A) Un sous jeu où un joueur prend des EPO à la kème répétition du jeu et tout le monde prend des EP0 par la suite (B). Considérons chacun de ces sous-jeux.
Répétition du jeu un nombre infini de fois Le paiement escompté pour i avec la stratégie « ne prend pas d’EPO » dans le sous-jeu A est: 1+1 + 12 +…+ 1t +… = lim T AT = 1+i + i2 +…+ iT Puisque (1- i)AT = 1- iT+1 AT = (1- iT+1 )/(1-i) on a: limT AT = 1/(1-i) Le paiement escompté par i avec une prise d’EPO à la période t, étant donnée la réaction future de l’adversaire est: (1- it )/(1- i) + 2it < 1/(1-i) si i > ½ Dans le sous-jeu A donc, i à intérêt à ne pas prendre des EPO. La menace de punition infinie dans le sous-jeu B est-elle crédible ?
Répétition du jeu un nombre infini de fois Oui! Le paiement escompté pour i avec « prend pour toujours des EPO » après avoir observé une prise d’EPO à la période t par l’adversaire est 0 (à la période t+1): Une non prise d’EPO à une période future quelconque produirait un paiement négatif. La menace de punition infinie dans le sous jeu B est donc crédible.
Répétition du jeu un nombre infini de fois La coopération peut donc émerger si le jeu est répété un nombre infini de fois. Mais il y a d’autres comportements qui peuvent être parfaits en sous jeu dans une répétition infinie du jeu. La situation où les deux joueurs prennent à chaque période des EPO est également parfaite en sous jeu. Théorème «de la sagesse populaire » (Folk Theorem): Pratiquement n’importe quel comportement peut émerger dans un jeu infiniment répété si les joueurs ne sont pas trop impatients. La patience relative des joueurs est importante pour assurer la coopération (i > ½). La patience permet à la punition perpétuelle d’être suffisamment dissuasive!!
Théorème de sagesse populaire Appelé ainsi parce qu’il a été longtemps conjecturé et affirmé, avant d’être démontré rigoureusement. Il affirme que dans les jeux finis sous forme normale infiniment répétés, toutes les distributions de paiement qui donnent à chaque joueur strictement plus que son « utilité de réserve » peuvent être obtenues comme un équilibre parfait en sous jeu du jeu répété si le taux d’escompte des joueurs est proche de 1. La leçon de ce théorème est donc que pratiquement n’importe quel comportement peut émerger de la répétition infinie de l’interaction décrite par un jeu sous forme normale finie. Voyons de plus près ce théorème.
Utilité de réserve On appelle également parfois l’utilité de réserve On appelle utilité de réserve d’un joueur dans un jeu sous forme normale le paiement espéré minimal que le joueur peut se garantir dans ce jeu. Cette utilité de réserve uri du joueur i dans un jeu sous forme normale avec stratégies mixtes (N,{Si}{Pi}ni=1) est définie par: On appelle également parfois l’utilité de réserve l’utilité du Min-Max.
soit p, la probabilité avec laquelle 2 joue G Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) soit p, la probabilité avec laquelle 2 joue G
Les paiements espérés du joueur 1 sont: Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Les paiements espérés du joueur 1 sont:
Les paiements espérés du joueur 1 sont: Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Les paiements espérés du joueur 1 sont: B: 0 M: p-2(1-p) = 3p-2 H:-2p+(1-p)=-3p+1
Les paiements espérés du joueur 1 sont: Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Les paiements espérés du joueur 1 sont: B: 0 M: p-2(1-p) = 3p-2 H:-2p+(1-p)=-3p+1 3p-2 =-3p+1 p = 1/2
Les paiements espérés du joueur 1 sont: Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Les paiements espérés du joueur 1 sont: B: 0 M: -1/2 H:-1/2 min-max = 0
Calculons maintenant l’utilité de réserve du joueur 2: Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Calculons maintenant l’utilité de réserve du joueur 2:
Calculons maintenant l’utilité de réserve du joueur 2: Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Calculons maintenant l’utilité de réserve du joueur 2: Soient PH et PM les probabilités avec lesquelles le joueur 1 choisira H et M respectivement.
Les paiements espérés du joueur 2 sont: Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Les paiements espérés du joueur 2 sont: G: 2PH - 2PM + 1- PH - PM = 1 + PH - 3PM D: -2PH + 2PM + 1- PH - PM = 1 - 3PH + PM
Les paiements espérés du joueur 2 sont: Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Les paiements espérés du joueur 2 sont: Ces paiements sont égaux si PH = PM = P
Les paiements espérés du joueur 2 sont: Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Les paiements espérés du joueur 2 sont: Dans lequel cas les paiements seront chacun égaux à 1-2P
Les paiements espérés du joueur 2 sont: Utilité de réserve Calculons les utilités de réserve des joueurs dans le jeu suivant: G D H (-2,2) (1,-2) M B (0,1) Les paiements espérés du joueur 2 sont: La valeur minimale de ces paiements est atteinte pour P = ½ (dans lequel cas elle est nulle)
Théorème de la sagesse populaire Théorème: Pour chaque configuration de paiements individuels telle que le paiement de chaque joueur est strictement plus élevé que son utilité de réserve, il existe une liste de taux d’escompte 1,…,n strictement inférieurs à 1 pour lesquels il existe un équilibre parfait en sous-jeu qui donne à chaque joueur ce paiement à chaque étape du jeu infiniment répété. Intuition: Quelque soit la configuration de paiements supérieurs strictement au min-max, on peut convaincre le joueur d’adopter un comportement y conduisant en le menaçant de le « min-maxer » pour toujours s’il dévie. La menace est crédible, et si le joueur est patient, cette menace est dissuasive.
Interprétation du théorème Il est difficile de prévoir l’issue d’une répétition infinie d’un jeu. Ce résultat est robuste à plusieurs changements (en particulier changement de l’identité des joueurs)