Des sociétés simulées Economie cognitive et sciences sociales cognitives Plusieurs apprentissages.
Cognitive economics " L’économie cognitive " (Walliser [1999]) peut être définie à deux niveaux, individuel et collectif. Au niveau individuel, il s’agit d’étudier les croyances, raisonnements et processus de décision qui gouvernent les choix économiques (y compris dans leurs dimension techniques et organisationnelles). C’est le "programme cognitiviste" qui met l'accent sur les processus d’apprentissage, présidant aux décisions et comportements des agents. Au niveau collectif, il s’agit d’étudier l’effet des interactions sociales sur la formation des grandeurs économiques agrégées et sur l’émergence et la régulation des formes organisationnelles, institutionnelles et techniques qui résultent, de manière délibérée ou involontaire des actions individuelles. C’est le "programme évolutionniste", qui met l'accent sur les processus d'adaptation des agents à leur environnement, en particulier au sein de réseaux ou de structures d'interaction spécifiques.
En ce qui concerne les apprentissages individuels, Bourgine [1993] distingue plusieurs niveaux de rationalité des agents selon leur relation à leur environnement et leur capacité à modéliser le réel. Les agents réactifs réagissent de manière fixe à l’information provenant de leur environnement, sur le mode stimulus-réponse (réponse sensori-motrice ou " pavlovienne " héritée génétiquement) : il y a absence d’apprentissage. Les agents hédoniques apprennent (par auto-renforcement) à modifier leur comportement afin d’augmenter leur " plaisir ". Ils sont capables d’anticipations " hédoniques " et d’adaptation lente à partir de leur expérience historique, ce qui suppose un niveau de conscience plus élevé que l’agent réactif (consciousness). Les agents éductifs sont dotés d’une capacité de modélisation de leur environnement, ce qui suppose la capacité de former des représentations symboliques, de simuler les conséquences d’une action sur leur environnement, et donc un niveau de conscience plus élevé (awareness).
Selon une perspective plus proche des catégories de l’économiste, Walliser [1997] propose une typologie des processus qui permettent de converger vers un équilibre en théorie des jeux. Il en distingue quatre, soit par ordre décroissant des capacités cognitives attribuées aux agents : Dans un processus EDUCTIF, chaque joueur dispose d’assez d’information pour simuler parfaitement le comportement des autres joueurs, ce qui conduit immédiatement à l’équilibre : il n’y a pas d’apprentissage. Dans un apprentissage EPISTEMIQUE, chaque joueur révise ses croyances relatives aux stratégies des autres adversaires à partir des informations qu’il a pu observer (Fudenberg, Levine [1998]). Dans un apprentissage COMPORTEMENTAL, chaque joueur modifie sa stratégie compte tenu des résultats observés de ses propres actions dans le passé (agent hédonique). Dans un apprentissage ÉVOLUTIONNAIRE, chaque joueur joue une stratégie fixe qui se reproduit proportionnellement au gain obtenu lors de confrontations aléatoires (agent réactif).
Complexity theory and social science (Simon, Lemoigne) BOUNDED rationality (non infinite ability to calculate and non perfect information) –Substantive logic: a perfect calculating person, norm to define «truth» of a demonstration (as used by neoclassic economists) –Procedural logic: refers to the thought process – search strategies, cognition which is difficult to make explicit and cannot be evaluated from outside. Satisfycing (« adéquat ») Inventive reasoning defined with two axes: –methodologic with the elaboration of heuristic reasoning strategies / procedures to find logistic path, algorithms for local deduction –Substantive logic to decide if the path is reasonable, a posteriori – aim / goal « tatonement ». Market as one institution (parallel with organisation) –Price as the sign of a usable distirbuted knowledge (see von Hayek)
APPRENTISSAGES
Reinforcement learning Melioration (basé sur moyenne des gains) – moins économe en calcul. Bush-Mosteller et Roth-Erev (basés sur le gain présent et la tendance précédente > update de la fréquence) – différence sur vitesse de convergence non constante ou constante. –Bush-Mosteller peut utiliser des gains négatifs (plus proche de la psychologie)
Bush-Mosteller p(a,t): proba d’action a à temps t Si Π >0 –p(a,t+1) = p (a,t) – ν (Π). p(a,t) si a pas utilisé –p(a,t+1) = p (a,t) + ν (Π). (1-p(a,t)) si a utilisé Si Π < 0 –p(a,t+1) = p (a,t) + ν (-Π). (p(a,t).p(a(t),t)) / (1- p(a(t),t)) –p(a,t+1) = p (a,t) - ν (-Π). (p(a,t)) si a utilisé
Erev-Roth N actions ou stratégies Qij (t) tendance à jouer j au temps t pour i Au début qij (1) = qik(1) = S(1) pour tout j et k et i –Plus S est élevé plus l’apprentissage est lent Pij(t) = qij (t) / Σ qik(t) Ou Pij(t) = exp(qij (t)) / Σ exp(qik(t)) Si i joue k et reçoit x, où R(x) = x-xmin –Qij (t+1) = (1 – Φ)qij(t)+ Ek(j,R(x)) –Avec Ek(j,R(x)) = (1-ε) R(x) si j=k –Et (ε/ (N-1)). R(x) sinon S, Φ réduction expé, ε experimentation
Routine-based (Melioration) Dans le cadre de 2 activités a et a’ dp(a,t)/ dt = ν(umoy t (a) – umoy t (a’) Umoy (a) est le gain moyen par action a jusqu’à t Et v est monotone avec v(0) = 0 dp(a,t)/ dt = p (a,t). (1-(p(a,t)).v(moy(a) – moy ( a’))) On peut étendre à plus de choix. On peut aussi mettre des poids à la moyenne.
Imitation Deux processus en parallèle : moyenne exponentielle des gains des actions de tous les agents Telle que la somme des poids est 1
Satisfycing (Simon, 57) Pas une recherche du meilleur, mais du « assez bon » défini sur la base de niveaux d’aspiration qu’il suffit d’atteindre z(t+1) = λ.z(t) + (1- λ).Π(t) Évolue dans le temps en fonction des gains. On peut aussi imiter les autres z i (t+1) = λ 1.z i (t) + λ 2.(Πi(t)-z i (t)) + λ 3. Πsoc(t) Avec λ 1 + λ 2+ λ 3 = 1 Puis le choix abandonné est remplacé grâce à un mécanisme de routine, ou random ou autre
Belief learning Fictitious play : et si j’avais joué… Classifier systems Stochastic belief learning
Fictitious play Mémorise les actions des autres dans le passé et suppose la même fréquence. Conclut à un profil d’actions pour tous les autres avec probabilité attendue –E(p(ai-,t)) = 1/t Σ δ(ai-(τ) = ai-) –Où δ(ai-(τ) = ai-) vaut 1 si (ai-(τ) = ai- et 0 sinon Comme on connaît aussi tous les gains, on peut calculer les gains espérés en fonction de la probabilité des profils d’actions –E(Πi(ai,t)) = Σ Πi(ai,ai-).E(p(ai-,t)) Comme souvent on peut faire moyenne exponentielle
Classifier system Classification comme compétence humaine Ensemble de règles condition-action Règle R: (c1, c2,.. cN) -> (a1, a2,…, aq) Face à situation (c1, cN) des règles sont sélectionnées, et choisies selon leur force et leur spécificité. B(R)= g1.(g2+ g3.specificity(R)).Strength (R(t)) Et la force évolue Strength (R(t+1)) = Strength (R(t))+Π(t)-B(R) Défaut : sur la base d’un jeu de règles préétabli.
Stocastic belief learning
USAGE DES MODELES
More generally: models in social sciences Humans in society: - culture, normes (macro) articulation de phénomènes macro– suicide – birth rate - inflation... identification de structures – rôles et relations, pouvoir - communication, échanges (interactionnisme) influence des réseaux – diffusion de connaissance, caractérisation des interactions - organisation (gestion) infuence de la structure relationnelle sur la production - preferences / utility / learning (individualism – utilitarism - micro) equilibrium ; looking for ideal situation for allocation,... game theory - analysis of power relation / cooperation
sciences sociales – Deux méthodologies 1. Les objets sociaux sont indépendants des humains et sont en lien entre eux ; ils doivent être étudiés dans leur dynamiques propres ; structuralisme, marxisme, fonctionnalisme ; induction basée sur l’observation identification de régularités signifiantes 2. Agréger les actions individuelles pour comprendre le social ; articuler les mécanismes infividuels et les articuler vers un résultat global ; hypothèses sur les processus de décision et les relations entre individus ; micro-économie classique; déduction basée sur des théoremes. Savoir – but – mécanisme de calcul > résolution de problèmes
Construction de modèles et simulation : une démarche intermédiaire Tester les hypothèses sur les ordres dus à la répétition des interactions entre hommes sur une ressource Virtual laboratory: – Faire des hypothèses sur la dynamique de la ressource, le fonctionnement individuel des entités, leurs relations, les lois de l'univers (théorie qui devrait permettre la déduction) > élaboration du modèle multi-agents et implémentation du système – Faire des simulations : détermination d'un état initial, laisser les entités agir selon les mécanismes prescrits, sans intervention de l'utilisateur – Observer les résultats : indicateurs, calculs de corrélation et interprétation, suivi d'un agent particulier (observation locale et globale) > interprétation des paramètres et de l'influence de la répétition des interactions – un travail toujours effectué par comparaison entre simulation (« sensibilité aux paramètres ») " the distinguishing features of an algorithtm is that all vagueness must be eliminated ; the rules must describe operations that are so simple they can be executed by a machine"
Contexte : questions générales et précises Comment les individus utilisent-ils les institutions dans lesquelles ils évoluent ? Les institutions comme : règles, rôles, droits, circulation d’information Approche du comportement comme le signe d’un “traitement d’information”, interprétation, habitudes et négociation Comment peut-on prouver les modèles cognitifs que l’on suppose aux humains? Une institution fondamentale en économie: le marché