Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Modélisation du conditionnement pavlovien et du conditionnement opérant Jean Marc Salotti Institut de Cognitique de Bordeaux
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Sommaire 1.Introduction 2.Conditionnement 3.Modèles du conditionnement 4.Idées fondamentales 5.Apprentissage incrémental 6.Simulateur 7.Conclusion
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 1. Introduction EA487 : équipe pluridisciplinaire en sciences de la cognition et facteurs humains I.A., neurosciences cognitives, psychologie cognitive, épistémologie Modélisation de processus cognitifs Robotique autonome Projet CNRS en neuroscience computationnelle
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique CNRS Project: Plasticity of amygdala networks in affective memories associated with opiate withdrawal
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Conditionnement : -Intérêt en robotique : inspiration des modèles de l'apprentissage comportemental animal -Conditionnement opérant = dressage -Conditionnement = base de l'apprentissage séquentiel ? -Mouvement = séquence d'événements perceptuels et moteurs -Traitement de l'information = séquence d'opérations mentales
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 1. Conditionnement 1) Conditionnement classique (CC3): (Cloche + nourriture cherche nourriture ) x 3 ==> Cloche cherche nourriture 2) Extinction CC3 + (cloche cherche nourriture) x 3 ==> Cloche ne fait rien
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 3) Inhibition latente (Cloche rien) x 3 + CC3 ==> Cloche rien (Cloche rien) x 3 + CC5 ==> Cloche cherche nourriture 4) Blocking CC3 + (Cloche+Lumière+Nourr. ch. Nour) x 3 ==> Lumière ne fait rien
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 5) Conditionnement de second degré CC3 + (Lumière+Cloche+Nour. ch. nour.) x 3 ==> Lumière cherche nourriture 6) Conditionnement opérant (dressage) (Appuie levier+nourriture ch. nour.) x 3 ==> appuie levier cherche nourriture IL, blocking, conditionnement de 2 nd degré, … aussi pour le conditionnement opérant
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 2. Modéles du conditionnement Modèle de Rescorla et Wagner : Vx : "associative strength" d'un stimulus X Rescorla R.A. and Wagner A.R., A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement, In Black, A. H., & Prokasy, W. F. (Eds.), Classical conditioning II: Current research and theory, 64-99, New York: Appleton-Century-Crofts, (1972).
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique TD modèle de Sutton and Barto Apprentissage par renforcement Système de prédiction Etat X => Etat Y Lien avec réseaux de neurones Qu'est-ce qu'un état ??? R.S. Sutton and A.G. Barto, 'A temporal-difference model of classical conditioning', Proceedings of the 9th Annual Conference of the Cognitive Science Society, , 1987.
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Autres travaux : C. Balkenius and J. Morén, 'Computational models of classical conditioning: a comparative study', in Mayer, J.-A., Roitblat, H. L., Wilson, S. W., and Blumberg, B. (Eds.), From Animals to Animats 5. Cambridge, MA: MIT Press, N.A. Schmajuk, Y. Lam and J.A. Gray, 'Latent inhibition :A neural network approach', Journal of Experimental Psychology : Animal Behavior Processes, 22 (3) :321–349, Computational models of classical conditioning (Schmajuk) conditioning
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 3. Idées fondamentales Système de prédiction => réseau bayésien -Nœud du réseau = perception d'un stimulus -Nœud du réseau = déclenchement du stimulus Et le changement de fréquence du métronome ? Et les actions ? -Nœud du réseau = événement représentationnel !!! -Evénement perceptif -Début d'action -Fin d'action
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Caractéristiques de l'apprentissage : - Apprentissage structurel (NP-difficile) - Apprentissage des paramètres Spécificités : - Apprentissage sur peu d'exemples - Dynamique temporelle complexe - Evolution des paramètres ! (extinction, réacquis. …) - Dépend de l'ordre de présentation des exemples !!! - Réseaux simples !
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Flash lumineux Bruit soudain Vue nourriture Début aller vers nour. Fin aller vers nour. Début manger Récompense Début appuyer levier Fin appuyer levier Cond. classique Cond. opérant Réseau bayésien à apprendre Partie du réseau déjà apprise Lien SC action Prédit que, mais n'oblige pas à
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 4. Apprentissage incrémental -Trace de chaque événement sur 5 secondes -On observe E1 et E2. -E1 E2 Ssi t(E2) -t(E1) < 5s E2 n'était pas prédit par un E3, (1) ou alors E3=E1 E2 prédit une récompense (appr. motivé, évite de complexifier inutilement le réseau) (1) => Activation des événements attendus
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Algorithme For each active trace Ax If reward present or expected For each active trace Ay (Y different from X) If (Eligible(Y)) or (W X->Y >0.5) If Start(X) < Start(Y) For each finishing trace A X If Ax predicted a reward that did not occur Look for the set of possible mistaken stimuli For each mistaken stim. M and prediction Y If A X occurred without expectation of any Reward and A X >0.2 A X =k A X (inhib. latente)
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique + règles ad hoc pour sélection et contrôle de l'action !
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 5. Simulateur
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 6. Conclusion Construction incrémentale d'un réseau bayésien (système de prédiction) permettant le conditionnement classique et opérant Perspectives –SC composés, généralisation, réacquisition spontanée, oubli … –Apprentissage séquentiel motivé –Apprentissage opératoire (Langage ? Maths ?)