La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Approches évolutionistes. Motivation u L’approche suivie jusqu’ici supposait des acteurs individuels animés d’objectifs spécifiques. u Ces individus choisissaient.

Présentations similaires


Présentation au sujet: "Approches évolutionistes. Motivation u L’approche suivie jusqu’ici supposait des acteurs individuels animés d’objectifs spécifiques. u Ces individus choisissaient."— Transcription de la présentation:

1 Approches évolutionistes

2 Motivation u L’approche suivie jusqu’ici supposait des acteurs individuels animés d’objectifs spécifiques. u Ces individus choisissaient leur stratégie de manière à satisfaire le mieux possible cet objectif compte tenu de l’information dont ils disposaient, exploitée de manière Bayesienne (rationalité). u Cette rationalité optimisatrice est souvent considérée comme peu réaliste.

3 Une alternative radicale à la rationalité u Les participants à l’interaction sont des « animaux » programmés pour adopter une stratégie particulière. u Les participants sont appariés un à un de façon aléatoire et sont tirés d’une large population d’agents programmés de manière identique. u Les paiements que reçoivent les joueurs de leur interaction sont liés à leur aptitude à se reproduire. u Qu’arrive t-il à certains comportements lorsque des « mutants » adoptant un comportement différent apparaissent ?

4 Une alternative radicale à la rationalité u Y a-t-il des stratégies programmées qui sont « robustes » à une apparition de mutants ? u Les équilibres de théorie des jeux traditionnels (survie à l’élimination itérative des stratégies dominées, équilibres de Nash) sont-ils robustes à ces mutations ? u Si oui, on pourrait les réinterpréter dans cette perspective u Si non, on pourrait obtenir des critères additionnels de prédiction de l’issue plausible de problèmes d’interaction.

5 Critère de stabilité évolutionnaire (1) u Un cadre particulier: les jeux à deux joueurs symétriques.  N = {1,2}, A 1 = A 2 = A, A fini ( A = { a 1,…, a k }).  S l’ensemble des stratégies mixtes sur A.  P(  i,  j ) =  k h =1  kl l =1  i ( a h )  j ( a l ) U ( a h, a l ) (pour i = 1, 2, j =1,2, j  i u U est la fonction de paiement d’un des deux joueurs (la même pour les 2, à une permutation près)  Une large population d’individus est programmée pour jouer une stratégie (mixte)  dans S u Une fraction  de mutants apparaît. u Chaque mutant est programmé pour jouer une stratégie mixte  ’.

6 Critère de stabilité évolutionnaire (2) u Si un individu est tiré au hasard de la population et est appelé à jouer le jeu, il supposera que son adversaire utilise la stratégie mixte (1-  )  +  ’ u Intuitivement, une stratégie mixte  est stable sur le plan évolutionnaire si elle fait mieux que la stratégie mutante.  P ( ,(1-  )  +  ’) > P (  ’,(1-  )  +  ’) pour i = 1,2 (A)  Définition (Maynard Smith and Price (1973): Une stratégie   S est stable sur le plan évolutionnaire si pour toute stratégie  ’  S, il existe une barrière de protection   ’ telle que l’inégalité (A) est vérifiée pour tous les   ]0,   ’ [. u En mot, une stratégie est stable sur le plan évolutionnaire si, quelque soit la mutation de comportement envisagée, il existe une barrière de protection de la stratégie que la mutation ne parviendra pas à briser.

7 Critère de stabilité évolutionnaire (3) u Remarque: Si  est stable sur le plan évolutionnaire, alors  doit être une meilleure réponse à elle-même. u Preuve: Supposons que  ne soit pas une meilleure réponse à elle-même.  Il existe donc  ’  S telle que P ( ,  ) < P (  ’,  ).  Considérons alors la stratégie mutante  ’ et un nombre  ’ > 0 suffisamment petit. Par continuité de P on aura que:  P ( ,(1-  )  +  ’) < P (  ’,(1-  )  +  ’) pour tout  ]0,  ’[, en contradiction de la stabilité évolutionnaire. u Donc dans les jeux symétriques, les combinaisons symétriques de stratégies stables sur le plan évolutionnaire sont des équilibres de Nash. u La réciproque est fausse. u Si ( ,  ) est un équilibre de Nash strict du jeu (  est l’unique meilleure réponse à  ), alors  est stable sur le plan évolutionnaire.

8 Exemple: la course cycliste EPONON EPO(0,0) (2,-1) NON(-1,2) (1,1) Alberto Lance Seule EPO est stable sur le plan évolutionnaire

9 Exemple 2: la poule mouillée FonceLaisse Fonce(-2,-2) (1,0) Laisse(0,1) (1/2,1/2) Mâle 1 Mâle 2 Aucune des stratégies pures n’est stable sur le plan évolutionnaire

10 Exemple 2: la poule mouillée FonceLaisse Fonce 2/5(-2,-2) (1,0) Laisse 3/5(0,1) (1/2,1/2) Mâle 1 Mâle 2 La mixte 2/5,3/5 (jouée à l’équilibre de Nash symétrique) est l’unique stratégie stable sur le plan évolutionnaire

11 Exemple 3: Roche-papier-ciseaux rochepapierciseaux roche(0,0)(-1,1)(1,-1) papier(1,-1)(0,0)(-1,1) ciseaux(-1,1)(1,-1)(0,0) Joueur 2 Joueur 1

12 Répétition du jeu ? u La répétition d’un jeu à un coup est un nouveau jeu. u Typiquement, on suppose que les paiements que recevront les joueurs demain seront « escomptés » (impatience). u Examinons ce qui se passerait si Alberto et Lance répétait leur interaction. u On sait que le seul équilibre si l’interaction n’a lieu qu’une fois est (epo,epo) u Qu’arrive t’il si l’interaction a lieu 2 fois ? u Voici la forme extensive correspondant à cette situation.

13 A EPO NON L EPO NON EPO N L N N N L N N NON L EPO N N N L N N A A A A (0,0) (2  1,-  2 ) (  1,  2 ) (-  1,2  2 ) (2,-1) (2(1+  1 ), -1(1+  2 )) (2-  1,-1+2  2 ) (2+  1,-1+  2 ) (-1,2) (-1+2  1,2-  2 ) (-1(1+  1 ),2(1+  2 )) (-1+  1,2+  2 ) (1,1) (1+2  1,1-  2 ) (1-  1,1+2  2 ) (1+  1,1+  2 )

14 A EPO NON L EPO NON EPO N L N N N L N N NON L EPO N N N L N N A A A A (0,0) (2  1,-  2 ) (  1,  2 ) (-  1,2  2 ) (2,-1) (2(1+  1 ), -1(1+  2 )) (2-  1,-1+2  2 ) (2+  1,-1+  2 ) (-1,2) (-1+2  1,2-  2 ) (-1(1+  1 ),2(1+  2 )) (-1+  1,2+  2 ) (1,1) (1+2  1,1-  2 ) (1-  1,1+2  2 ) (1+  1,1+  2 ) Plaçons nous dans la 2 e période

15 A EPO NON L EPO NON EPO N L N N N L N N NON L EPO N N N L N N A A A A (0,0) (2  1,-  2 ) (  1,  2 ) (-  1,2  2 ) (2,-1) (2(1+  1 ), -1(1+  2 )) (2-  1,-1+2  2 ) (2+  1,-1+  2 ) (-1,2) (-1+2  1,2-  2 ) (-1(1+  1 ),2(1+  2 )) (-1+  1,2+  2 ) (1,1) (1+2  1,1-  2 ) (1-  1,1+2  2 ) (1+  1,1+  2 ) Pour L, l’écart de paiement entre EPO et N est  2 quoiqu’ait fait A et quelque soit le passé 22 22 22

16 A EPO NON L EPO NON EPO N L N N N L N N NON L EPO N N N L N N A A A A (0,0) (2  1,-  2 ) (  1,  2 ) (-  1,2  2 ) (2,-1) (2(1+  1 ), -1(1+  2 )) (2-  1,-1+2  2 ) (2+  1,-1+  2 ) (-1,2) (-1+2  1,2-  2 ) (-1(1+  1 ),2(1+  2 )) (-1+  1,2+  2 ) (1,1) (1+2  1,1-  2 ) (1-  1,1+2  2 ) (1+  1,1+  2 ) Pour L, l’écart de paiement entre EPO et N est  2 quoiqu’ait fait A et quelque soit le passé

17 A EPO NON L EPO NON EPO N L N N N L N N NON L EPO N N N L N N A A A A (0,0) (2  1,-  2 ) (  1,  2 ) (-  1,2  2 ) (2,-1) (2(1+  1 ), -1(1+  2 )) (2-  1,-1+2  2 ) (2+  1,-1+  2 ) (-1,2) (-1+2  1,2-  2 ) (-1(1+  1 ),2(1+  2 )) (-1+  1,2+  2 ) (1,1) (1+2  1,1-  2 ) (1-  1,1+2  2 ) (1+  1,1+  2 ) Il en va de même pour A

18 A EPO NON L EPO NON EPO N L N N N L N N NON L EPO N N N L N N A A A A (0,0) (2  1,-  2 ) (  1,  2 ) (-  1,2  2 ) (2,-1) (2(1+  1 ), -1(1+  2 )) (2-  1,-1+2  2 ) (2+  1,-1+  2 ) (-1,2) (-1+2  1,2-  2 ) (-1(1+  1 ),2(1+  2 )) (-1+  1,2+  2 ) (1,1) (1+2  1,1-  2 ) (1-  1,1+2  2 ) (1+  1,1+  2 ) On observera donc EPO-EPO comme choix de stratégies dans tous les sous-jeux de la 2 e période

19 A EPO NON L EPO NON EPO N L N N N L N N NON L EPO N N N L N N A A A A (0,0) (2  1,-  2 ) (  1,  2 ) (-  1,2  2 ) (2,-1) (2(1+  1 ), -1(1+  2 )) (2-  1,-1+2  2 ) (2+  1,-1+  2 ) (-1,2) (-1+2  1,2-  2 ) (-1(1+  1 ),2(1+  2 )) (-1+  1,2+  2 ) (1,1) (1+2  1,1-  2 ) (1-  1,1+2  2 ) (1+  1,1+  2 ) On observera donc EPO-EPO comme choix de stratégies dans tous les sous-jeux de la 2 e période

20 A EPO NON L EPO NON EPO N L N N N L N N NON L EPO N N N L N N A A A A (0,0) (2  1,-  2 ) (  1,  2 ) (-  1,2  2 ) (2,-1) (2(1+  1 ), -1(1+  2 )) (2-  1,-1+2  2 ) (2+  1,-1+  2 ) (-1,2) (-1+2  1,2-  2 ) (-1(1+  1 ),2(1+  2 )) (-1+  1,2+  2 ) (1,1) (1+2  1,1-  2 ) (1-  1,1+2  2 ) (1+  1,1+  2 ) On observera donc EPO-EPO comme choix de stratégies dans tous les sous-jeux de la 2 e période

21 EPO NON L EPO NON EPO A (0,0) (2,-1) (-1,2) (1,1) On observera donc EPO-EPO comme choix de stratégies dans tous les sous-jeux de la 2 e période

22 EPO NON L EPO NON EPO A (0,0) (2,-1) (-1,2) (1,1) …et le comportement des joueurs sera le même que si le jeu n’avait eu lieu qu’une fois

23 Répétition du jeu n fois u Le même raisonnement s’applique si le jeu est répété un nombre quelconque (mais fini) de fois. u A la dernière fois, EPO est une stratégie strictement dominante pour chaque joueur. u A l’avant dernière fois, on sait qu’EPO-EPO sera observé la dernière fois peu importe ce que l’on fera. u On joue donc à l’avant dernière fois comme si c’était la dernière fois; etc. u Prendre des EPO à chaque étape du jeu est l’unique équilibre parfait en sous-jeu.

24 Commentaires sur les jeux répétés un nombre fini de fois u La répétition un nombre fini de fois du jeu d’Alberto et Lance n’affecte pas l’équilibre parfait en sous jeu. u C’est le cas de tous les jeux qui ont une structure dite « du dilemme du prisonnier » u Ces jeux sont ceux qui admettent un équilibre en stratégies dominantes qui n’est pas Pareto efficace. u Mais il est des jeux dont la répétition un nombre fini de fois modifie les équilibres parfaits en sous jeu u En voici un exemple.

25 GCD H(0,0)(3,4) (6,0) M(4,3)(0,0) B(0,6)(0,0) (5,5) 1 2 2 équilibres de Nash en stratégies pures

26 GCD H(0,0)(3,4) (6,0) M(4,3)(0,0) B(0,6)(0,0) (5,5) 1 2 1 équilibre de Nash en stratégies mixtes

27 G 3/7C 4/7D 0 H 3/7(0,0)(3,4) (6,0) M 4/7(4,3)(0,0) B 0(0,6)(0,0) (5,5) 1 2 1 équilibre de Nash en stratégies mixtes

28 G 3/7C 4/7D 0 H 3/7(0,0)(3,4) (6,0) M 4/7(4,3)(0,0) B 0(0,6)(0,0) (5,5) 1 2 1 équilibre de Nash en stratégies mixtes qui donne aux joueurs les paiements espérés (12/7,12/7)

29 Commentaires sur les jeux répétés un nombre fini de fois u Aucune des distributions de paiements associée à l’un des trois équilibres de Nash n’est efficace. u (5,5) est préférable pour les deux joueurs. u La répétition du jeu une seule fois pourrait permettre aux deux joueurs d’atteindre (5,5) au moins une fois si le taux d’escompte de chaque joueur est au moins aussi grand que 7/9 (les joueurs sont relativement patients).

30 Commentaires sur les jeux répétés un nombre fini de fois u Difficile ici de représenter graphiquement la forme extensive du jeu répété 2 fois. u Mais on peut se convaincre que la prescription de comportements suivante est un équilibre parfait en sous jeu. u 1 ère étape: (B,D) u 2 e étape: -(M,G) si (B,D) a été joué à la 1 ère -Le profil de stratégies mixtes (3/7,4/7,0;3/7,4/7,0) autrement u Puisque (M,G) et (3/7,4/7,0;3/7,4/7,0) sont des équilibres de Nash du jeu, personne n’a intérêt à dévier de ces comportements au sous-jeu de la 2 e étape u Montrons qu’aucun des 2 joueurs n’a intérêt à dévier de (B,D) à la 1ère étape si le comportement décrit plus haut de la 2 e étape est anticipé.

31 Commentaires sur les jeux répétés un nombre fini de fois u Paiement espéré de 1 avec B (si 2 joue D): 5 + 4  1 u Paiement espéré de 1 avec M (si 2 joue D):(12/7)  1 (évidemment < 5 + 4  1 ) u Paiement espéré de 1 avec U (si 2 joue D): 6 + (12/7)  1 u Or: 6 + (12/7)  1 16/7 u Donc 1 n’a pas intérêt à dévier de B en 1 ère période u Vérifiez qu’il en va de même pour 2.

32 Commentaires sur les jeux répétés un nombre fini de fois u La répétition de l’interaction une seule fois peut donc parfois faire émerger, au moins pour une période, de la coopération dans certains cas. u Voyons maintenant que la répétition de l’interaction un nombre infini de fois peut faire émerger cette coopération même dans des jeux aussi peu « coopératifs » que les dilemmes du prisonnier.

33 Répétition du jeu un nombre infini de fois u La répétition de l’interaction un nombre infini de fois change radicalement les incitations des joueurs u Dans l’exemple d’Alberto et Lance, la combinaison de stratégies suivante peut être un équilibre parfait en sous jeu (si les joueurs ne sont pas trop impatients): « commence à ne pas prendre des EPO et continue à ne pas en prendre tant que l’adversaire n’en prend pas; si l’adversaire commence à prendre de l’EPO, prends en jusqu’à la fin des temps ». u Voyons pourquoi.

34 Répétition du jeu un nombre infini de fois u Le caractère infini du jeu ne permet évidemment pas une représentation graphique. u Si les joueurs se comportent comme indiqué, 2 types de sous-jeux doivent être considérés. u Un sous jeu où personne ne dévie (personne ne prend des EPO) (A) u Un sous jeu où un joueur prend des EPO à la kème répétition du jeu et tout le monde prend des EP0 par la suite (B). u Considérons chacun de ces sous-jeux.

35 Répétition du jeu un nombre infini de fois  Le paiement escompté pour i avec la stratégie « ne prend pas d’EPO » dans le sous-jeu A est: 1+  1 +  1 2 +…+  1 t +…  = lim T  A T = 1+  i +  i 2 +…+  i T  Puisque (1-  i ) A T = 1-  i T +1  A T = (1-  i T +1 )/(1-  i ) on a:  lim T  A T = 1/(1-  i )  Le paiement escompté par i avec une prise d’EPO à la période t, étant donnée la réaction future de l’adversaire est:  (1-  i t )/(1-  i ) + 2  i t ½  Dans le sous-jeu A donc, i à intérêt à ne pas prendre des EPO.  La menace de punition infinie dans le sous-jeu B est- elle crédible ?

36 Répétition du jeu un nombre infini de fois  Oui! Le paiement escompté pour i avec « prend pour toujours des EPO » après avoir observé une prise d’EPO à la période t par l’adversaire est 0 (à la période t +1): u Une non prise d’EPO à une période future quelconque produirait un paiement négatif.  La menace de punition infinie dans le sous jeu B est donc crédible.

37 Répétition du jeu un nombre infini de fois u La coopération peut donc émerger si le jeu est répété un nombre infini de fois. u Mais il y a d’autres comportements qui peuvent être parfaits en sous jeu dans une répétition infinie du jeu. u La situation où les deux joueurs prennent à chaque période des EPO est également parfaite en sous jeu. u Théorème « populaire » (Folk Theorem): Pratiquement n’importe quel comportement peut émerger dans un jeu infiniment répété si les joueurs ne sont pas trop impatients.  La patience relative des joueurs est importante pour assurer la coopération (  i > ½). u La patience permet à la punition perpétuelle d’être suffisamment dissuasive!!

38 Théorème de sagesse populaire u Appelé ainsi parce qu’il a été longtemps conjecturé et affirmé, avant d’être démontré rigoureusement. u Il affirme que dans les jeux finis sous forme normale infiniment répétés, toutes les distributions de paiement qui donnent à chaque joueur son « utilité de réserve » peuvent être obtenu comme un équilibre parfait en sous jeu du jeu répété si le taux d’escompte des joueurs est proche de 1. u La leçon de ce théorème est donc que pratiquement n’importe quel comportement peut émerger de la répétition infinie de l’interaction décrite par un jeu sous forme normale finie. u Voyons de plus près ce théorème.

39 Utilité de réserve u On appelle utilité de réserve d’un joueur dans un jeu sous forme normale le paiement espéré minimal que le joueur peut se garantir dans ce jeu.  Cette utilité de réserve u r i du joueur i dans un jeu sous forme normale avec stratégies mixtes ( N,{ S i }{ P i } n i =1 ) est définie par: On appelle également parfois l’utilité de réserve l’utilité du Min-Max.

40 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) soit p, la probabilité avec laquelle 2 joue G

41 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Les paiements espérés du joueur 1 sont:

42 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Les paiements espérés du joueur 1 sont: B: 0 M: p -2(1- p ) = 3 p -2 H:-2 p +(1- p )=-3 p +1

43 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Les paiements espérés du joueur 1 sont: B: 0 M: p -2(1- p ) = 3 p -2 H:-2 p +(1- p )=-3 p +1 3 p -2 =-3 p +1  p = 1/2

44 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Les paiements espérés du joueur 1 sont: B: 0 M: -1/2 H:-1/2 min-max = 0

45 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Calculons maintenant l’utilité de réserve du joueur 2:

46 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Calculons maintenant l’utilité de réserve du joueur 2: Soient P H et P M les probabilités avec lesquelles le joueur 1 choisira H et M respectivement.

47 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Les paiements espérés du joueur 2 sont: G: 2 P H - 2 P M + 1- P H - P M = 1 + P H - 3 P M D: -2 P H + 2 P M + 1- P H - P M = 1 - 3 P H - P M

48 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Les paiements espérés du joueur 2 sont: Ces paiements sont égaux si P H = P M = P

49 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Les paiements espérés du joueur 2 sont: Dans lequel cas les paiements seront chacun égaux à 1-2 P

50 Utilité de réserve u Calculons les utilités de réserve des joueurs dans le jeu suivant: GD H(-2,2)(1,-2) M (-2,2) B(0,1) Les paiements espérés du joueur 2 sont: La valeur minimale de ces paiements est atteinte pour P = ½ (dans lequel cas elle est nulle)

51 Théorème de la sagesse populaire  Théorème: Pour chaque configuration de paiements d’équilibre telle que le paiement de chaque joueur est strictement plus élevé que son utilité de réserve, il existe une liste de taux d’escompte  1,…,  n strictement inférieurs à 1 pour lesquels il existe un équilibre parfait en sous-jeu qui donne à chaque joueur ce paiement d’équilibre à chaque étape du jeu infiniment répété. u Intuition: Quelque soit la configuration de paiement supérieure strictement au min-max, on peut convaincre le joueur d’adopter un comportement y conduisant en le menaçant de le « min-maxer » pour toujours s’il dévie. La menace est crédible, et si le joueur est patient, cette menace est dissuasive.

52 Interprétation du théorème u Il est difficile de prévoir l’issue d’une répétition infinie d’un jeu. u Ce résultat est robuste à plusieurs changements (en particulier changement de l’identité des joueurs)


Télécharger ppt "Approches évolutionistes. Motivation u L’approche suivie jusqu’ici supposait des acteurs individuels animés d’objectifs spécifiques. u Ces individus choisissaient."

Présentations similaires


Annonces Google