Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parRaphaël Christophe Modifié depuis plus de 10 années
1
Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) (publié au JEDC, 2000)
2
Problématique Démonstration de la différence entre un apprentissage individuel et collectif pour des agents Ici prend lexemple dun algorithme génétique pour des agents en situation de marché Comparaison des comportements aux données théoriques
3
Apprentissage Les deux perceptions Individuelle : ses propres perceptions seulement Sociale : savoir collectif Les données pertinentes Individuelles : ses actions passées et les gains correspondants Collectives : les actions de tous et les gains correspondants Note : La différence peut être en rapport avec la notion dexternalité, ou influence réciproque
4
Exemple choisi N firmes produisent le même bien vendu sur un marché unique. La firme i produit qi. Le total de production est Q. Le prix de marché dépend de Q : P (Q) = a + b.Q c – (courbe du papier) Il y a des frais fixes K et un coût marginal k, doù le coût total TC (q) = K + k.q prix quantité
5
Analyse des choix optimaux Profit : Π(q)=[a+bQ c ]q-[K+kq] Cas où la firme ninfluence pas le marché : d Π(q)/dq=[a+bQ c ]-K= 0 (optimal) Q W =((k-a) / b) 1/c et q W = Q W /n Équilibre walrasien Cas où la firme influence le marché : d Π(q)/dq=P + dP/dq –k = [a+bQ c ]+d[a+bQ c ]/dq-k= 0 Q W =((k-a) / b.((c/n)+1)) 1/c et q W = Q W /n Avec a 0 c -2n Équilibre de Cournot-Nash
6
Implémentation en modèle 40 firmes sont implémentées, apprenant selon le modèle de lalgorithme génétique Les règles ne sont pas des si… alors mais un bit string qui donne la production : 11 bits, définissant de 1 à 2048 la production. A chaque pas de temps, usage dune règle, gagne un gain. Apprentissage social : nutilise quune règle sur 100 pas de temps, connaît toutes les associations [règle > gain] de tout les agents. Révise tous les 100 pas de temps par imitation et recombinaison des règles qui gagnent le plus. Apprentissage individuel : lagent a 40 règles et les utilisent toutes en fonction des gains associés, construites aléatoirement, et il ne connaît que celle-là. Révise tous les 100 pas de temps par recombinaisondes règles qui gagnent le plus.
7
Pseudo-code start main loop for each period do begin for each firm do Classifier Systemss actions begin activerule : "CHOOSE - ACTION; output level : "action of active } rule; end; determine market price; for each firm do Classifier Systemss outcomes begin profit : "(market price) ) (output level)}costs; utility : "monotonic transformation of profit; with active } rule do fitness : "utility; end; if period is multiple of 100 then application Genetic Algorithm begin if individual learning GA then for each firm do GENERATE } NEW } RULES else if social learning GA then begin create set of 40 rules taking the 1 rule from each firm; GENERATE } NEW } RULES; re-assign 1 rule to each of the 40 firms end; end
8
Pseudo-code INITIALIZATION for each firm do for each rule do (1 ou 40) begin make random bit string of length 11 with standard binary encoding; fitness : "1.00; end; function CHOOSE - ACTION; begin for each rule do begin linearly rescale the firms actual fitnesses to [0,1]; bid : "rescaled } fitness#e; Mwith e+N(0, 0.075)N with probability : "0.025 the bid is ignored; end; determine highest } bid; end; choose } action : "highest } bid;
9
Pseudo-code procedure GENERATE } NEW } RULES; linearly rescale the actual fitnesses to [0,1]; repeat; choose two mating parent rules from 30 fittest rules by roulette wheelselection; (each rule with probability : "rescaled - fitness/sum (rescaled- fitnesses) with probability : "0.95 do begin place the two binary strings side by side and choose random crossing point; swap bits before crossing point; choose one of the two offspring at random as new } rule; end; with new } rule do begin fitness : "average fitnesses of the two mating parent strings; for each bit do with prob. : "0.001 do mutate bit from 1 to 0 or other way round; end; if new } rule is not duplicate of existing rule Then replace one of weakest 10 existing rule with new } rule else throwaway; until 10 new rules created;
10
Paramètres Minimum individual output level1 Maximum individual output level 2048 Encoding of bit string Standard binary Length of bit string 11 Number rules individual GA 40 Number rules social GA 40 X 1 GA-rate 100 Number new rules 10 Selection tournament Prob. selection Fitness/Σfitnesses Crossover Point Prob. crossover 0.95 Prob. mutation 0.001
11
Résultats
12
Analyse On voit le lien entre –apprentissage individuel et convergence vers Cournot-Nash –Apprentissage social et convergence vers walrasien Explication par le modèle en duopoly En terme dutilité, le modèle dapprentissage individuel est plus efficace. Il est aussi plus instable car il existe des équilibres multiples à adaptation permanente en fonction des actions des autres.
13
Discussion Si n tend vers infini, les deux équilibres correspondent On pourrait penser à des intermédiaires dapprentissage « type learning », ici type est sigleton. Spite effect influence lévolution mais il existe aussi dans les one shot game, na pas besoin de lévolution Ceci nest pas lusage le plus typique des algorithmes génétiques. Pourrait dailleurs être un autre type dapprentissage o lun est individuel et lautre social – lintérêt ici est lidentité des deux.
14
Conclusion On a bien une différence intrinsèque entre les deux formes dapprentissage Cest important de bien réfléchir pour chaque application informatique Souvent cest lapprentissage social qui est choisi pour des raisons de parcimonie, on peut dire que largument est mauvais Lien à des études empiriques ??
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.