Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) (publié au JEDC, 2000)

Slides:



Advertisements
Présentations similaires
Primary French Presentation 2 Saying How You Are.
Advertisements

Les Systèmes de Gestion de Bases de Données (SGBD) PL-SQL.
Click this button to play Click this button for directions.
Analyse des certifications Les fonctions des systèmes de qualification Outil de communication conçu à partir des documents développés pour lorganisation.
Classification et prédiction
Classification et prédiction
L’offre de la firme en concurrence
David Bounie Thomas Houy
David Bounie Thomas Houy
Chapitre 3 : L’OLIGOPOLE ET LES CARTELS
Introduction à la théorie des jeux
Chapitre 2 Les décisions de production
Y and en Two little words with a lot of meaning. y.
Chapitre 13 – Les concepts normatifs : surplus et optimalité de Pareto
QTLmap et les données ayant une distribution non gaussienne
How to solve biological problems with math Mars 2012.
Groupe de Recherche en Economie Théorique et appliquée – UMR CNRS 5113 An evolutionary modelling of recycling and product-life extension EMAEE 2007 Globalisation,
IFT313 Introduction aux langages formels
LA CONCURRENCE PURE ET PARFAITE
Détermination de la production optimale
Analyse d’Algorithmes
SQL: Contraintes et Triggers
Finger Rhyme 6 Summer Term Module 6 Culturethèque-ifru2013 May not be copied for commercial purposes.
Chapitre 9 Les sous-programmes.
Psychologie de l’utilité subjective espérée
D.L. Nash, G.W. Rogers, J.B. Cooper, G.L. Hargrove, and J.F. Keown
Donnez l’heure “Time”… it’s a ticking!.
La firme en situation de duopole
Modifications of working conditions in the host states Report on the AT Board held on 18 April 2000 New minimum wages in Switzerland Impact of the 35-hour.
Eléments de correction du galop
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
O-notation 1. Introduction 2. O-notation 3. Opérations 3.1 Somme 3.2 Produit 4. Règles générales 5. Exemple 6.Analyse des algorithmes récursifs 6.1 Dilatation.
Y and en Two little words with a lot of meaning. y.
UEO 3: Langue des affaires Semestre 6 Mme. Mountain.
Créer des packages.
Contrat pédagogique Durée : 24h Enseignant : Tanguy van Ypersele
Use of the Genetic Algorithm for optimal operation of multi - reservoirs on demand irrigation system By I. Nouiri,F. Lebdi,N. Lamaddalena O. Gharsallah,
Laboratoire des outils informatiques pour la conception et la production en mécanique (LICP) ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE 1 Petri nets for.
Concepts intermédiaires de VHDL
Mme. Rizlane GUATI Mr Amine ESSALHI. Le producteur…c’est qui?
Algorithmes pour le web “A Unified Approach to Personalization Based on Probabilistic Latent Semantic Models of Web Usage and Content”
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
1 INFOR 101 Chapitre 4 Marianne Morris. 2 Révision de chapitre 3 Algorithmes Sequential Search Selection Sort Binary Search Ordre de magnitude  (n) Mesurer.
THE ADJECTIVES: BEAU, NOUVEAU AND VIEUX 1.
1 Méthode de “Fast Marching” générique pour “Shape From Shading” E. Prados & S. Soatto RFIA 2006 janvier 2006, Tours.
RULES OF THE GAME There are 2 rounds. Round 1 - One person from each team comes to the front of the room. Team 1 will give a one-word clue to their “guesser”
« Venez ici! » Les regles: Choisissez: – 1er prix: 2 nombres Choose two of the three numbers to obtain the correct price – 2e prix: 3 nombres Choose.
Gains from trade Principle # 5: Trades improve the well-being of all.
Formatting of game by Candace R. Black © All rights reserved. Formatting of Game by Candace R. Black © All Rights Reserved. This line of text.
L’identité et la langue : Examen compréhensif. Presentational Speaking: Cultural Comparison Directions: You will make an oral presentation on a specific.
Irregular Adjectives Not all adjectives are made the same.
Les verbes réfléchis.
FINANCE Distribution des rentabilités Professeurr André Farber Solvay Business School Université Libre de Bruxelles.
Formatting of game by Candace R. Black © All rights reserved. Formatting of Game by Candace R. Black © All Rights Reserved. This line of text.
RULES OF THE GAME There are 2 rounds. Round 1 - One person from each team comes to the front of the room. Team 1 will give a one-word clue to their “guesser”
1. Introduction.
Coupe du Monde 2010 TOP TRUMPS!.
U NITE 7A: E CHAUFFEMENT 1 L E PREMIER OCTOBRE Le mot juste Fill in each blank with an appropriate vocabulary word. 1. M. Tremaine doit ( must ) avoir.
Exercice sur la tarification au coût marginal
Rapports équivalents Écrire, modéliser et identifier.
1 THÈME 1 : LA CONCURRENCE IMPARFAITE Les principes de la concurrence pure et parfaite (rappels) 1.1. Les conditions de la concurrence pure et parfaite.
© and ® 2011 Vista Higher Learning, Inc.3B.2-1 Point de départ The conditional expresses what you would do or what would happen under certain circumstances.
Week 7 Abakar Adam Sakina Ismael. By Elhanan Helpman, Marc J. Melitz, and Stephen R. Yeaple.
Week 6 Abakar Adam Sakina Ismael. Thomas Chaney  Introduction  Revue de littérature  I. Modèle simple de commerce international  II. Modèle complexe.
Où est la mouche? Paul Widergren © Où est la mouche? The object of this game is to find the fly among the food items. Choose a letter from the index.
Animal School: RaisingSmallSouls.com Carol Ann Tomlinson – Critical.
CONJUGAISON.
La famille ER conjugaison
Genetic Algorithm for Variable Selection Jennifer Pittman ISDS Duke University.
Transcription de la présentation:

Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) (publié au JEDC, 2000)

Problématique Démonstration de la différence entre un apprentissage individuel et collectif pour des agents Ici prend lexemple dun algorithme génétique pour des agents en situation de marché Comparaison des comportements aux données théoriques

Apprentissage Les deux perceptions Individuelle : ses propres perceptions seulement Sociale : savoir collectif Les données pertinentes Individuelles : ses actions passées et les gains correspondants Collectives : les actions de tous et les gains correspondants Note : La différence peut être en rapport avec la notion dexternalité, ou influence réciproque

Exemple choisi N firmes produisent le même bien vendu sur un marché unique. La firme i produit qi. Le total de production est Q. Le prix de marché dépend de Q : P (Q) = a + b.Q c – (courbe du papier) Il y a des frais fixes K et un coût marginal k, doù le coût total TC (q) = K + k.q prix quantité

Analyse des choix optimaux Profit : Π(q)=[a+bQ c ]q-[K+kq] Cas où la firme ninfluence pas le marché : d Π(q)/dq=[a+bQ c ]-K= 0 (optimal) Q W =((k-a) / b) 1/c et q W = Q W /n Équilibre walrasien Cas où la firme influence le marché : d Π(q)/dq=P + dP/dq –k = [a+bQ c ]+d[a+bQ c ]/dq-k= 0 Q W =((k-a) / b.((c/n)+1)) 1/c et q W = Q W /n Avec a 0 c -2n Équilibre de Cournot-Nash

Implémentation en modèle 40 firmes sont implémentées, apprenant selon le modèle de lalgorithme génétique Les règles ne sont pas des si… alors mais un bit string qui donne la production : 11 bits, définissant de 1 à 2048 la production. A chaque pas de temps, usage dune règle, gagne un gain. Apprentissage social : nutilise quune règle sur 100 pas de temps, connaît toutes les associations [règle > gain] de tout les agents. Révise tous les 100 pas de temps par imitation et recombinaison des règles qui gagnent le plus. Apprentissage individuel : lagent a 40 règles et les utilisent toutes en fonction des gains associés, construites aléatoirement, et il ne connaît que celle-là. Révise tous les 100 pas de temps par recombinaisondes règles qui gagnent le plus.

Pseudo-code start main loop for each period do begin for each firm do Classifier Systemss actions begin activerule : "CHOOSE - ACTION; output level : "action of active } rule; end; determine market price; for each firm do Classifier Systemss outcomes begin profit : "(market price) ) (output level)}costs; utility : "monotonic transformation of profit; with active } rule do fitness : "utility; end; if period is multiple of 100 then application Genetic Algorithm begin if individual learning GA then for each firm do GENERATE } NEW } RULES else if social learning GA then begin create set of 40 rules taking the 1 rule from each firm; GENERATE } NEW } RULES; re-assign 1 rule to each of the 40 firms end; end

Pseudo-code INITIALIZATION for each firm do for each rule do (1 ou 40) begin make random bit string of length 11 with standard binary encoding; fitness : "1.00; end; function CHOOSE - ACTION; begin for each rule do begin linearly rescale the firms actual fitnesses to [0,1]; bid : "rescaled } fitness#e; Mwith e+N(0, 0.075)N with probability : "0.025 the bid is ignored; end; determine highest } bid; end; choose } action : "highest } bid;

Pseudo-code procedure GENERATE } NEW } RULES; linearly rescale the actual fitnesses to [0,1]; repeat; choose two mating parent rules from 30 fittest rules by roulette wheelselection; (each rule with probability : "rescaled - fitness/sum (rescaled- fitnesses) with probability : "0.95 do begin place the two binary strings side by side and choose random crossing point; swap bits before crossing point; choose one of the two offspring at random as new } rule; end; with new } rule do begin fitness : "average fitnesses of the two mating parent strings; for each bit do with prob. : "0.001 do mutate bit from 1 to 0 or other way round; end; if new } rule is not duplicate of existing rule Then replace one of weakest 10 existing rule with new } rule else throwaway; until 10 new rules created;

Paramètres Minimum individual output level1 Maximum individual output level 2048 Encoding of bit string Standard binary Length of bit string 11 Number rules individual GA 40 Number rules social GA 40 X 1 GA-rate 100 Number new rules 10 Selection tournament Prob. selection Fitness/Σfitnesses Crossover Point Prob. crossover 0.95 Prob. mutation 0.001

Résultats

Analyse On voit le lien entre –apprentissage individuel et convergence vers Cournot-Nash –Apprentissage social et convergence vers walrasien Explication par le modèle en duopoly En terme dutilité, le modèle dapprentissage individuel est plus efficace. Il est aussi plus instable car il existe des équilibres multiples à adaptation permanente en fonction des actions des autres.

Discussion Si n tend vers infini, les deux équilibres correspondent On pourrait penser à des intermédiaires dapprentissage « type learning », ici type est sigleton. Spite effect influence lévolution mais il existe aussi dans les one shot game, na pas besoin de lévolution Ceci nest pas lusage le plus typique des algorithmes génétiques. Pourrait dailleurs être un autre type dapprentissage o lun est individuel et lautre social – lintérêt ici est lidentité des deux.

Conclusion On a bien une différence intrinsèque entre les deux formes dapprentissage Cest important de bien réfléchir pour chaque application informatique Souvent cest lapprentissage social qui est choisi pour des raisons de parcimonie, on peut dire que largument est mauvais Lien à des études empiriques ??