La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Modélisation du conditionnement pavlovien et du conditionnement opérant Jean.

Présentations similaires


Présentation au sujet: "Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Modélisation du conditionnement pavlovien et du conditionnement opérant Jean."— Transcription de la présentation:

1 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Modélisation du conditionnement pavlovien et du conditionnement opérant Jean Marc Salotti Institut de Cognitique de Bordeaux salotti@idc.u-bordeaux2.fr

2 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Sommaire 1.Introduction 2.Conditionnement 3.Modèles du conditionnement 4.Idées fondamentales 5.Apprentissage incrémental 6.Simulateur 7.Conclusion

3 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 1. Introduction EA487 : équipe pluridisciplinaire en sciences de la cognition et facteurs humains I.A., neurosciences cognitives, psychologie cognitive, épistémologie Modélisation de processus cognitifs Robotique autonome Projet CNRS en neuroscience computationnelle

4 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique CNRS Project: Plasticity of amygdala networks in affective memories associated with opiate withdrawal

5 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Conditionnement : -Intérêt en robotique : inspiration des modèles de l'apprentissage comportemental animal -Conditionnement opérant = dressage -Conditionnement = base de l'apprentissage séquentiel ? -Mouvement = séquence d'événements perceptuels et moteurs -Traitement de l'information = séquence d'opérations mentales

6 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 1. Conditionnement 1) Conditionnement classique (CC3): (Cloche + nourriture  cherche nourriture ) x 3 ==> Cloche  cherche nourriture 2) Extinction CC3 + (cloche  cherche nourriture) x 3 ==> Cloche  ne fait rien

7 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 3) Inhibition latente (Cloche  rien) x 3 + CC3 ==> Cloche  rien (Cloche  rien) x 3 + CC5 ==> Cloche  cherche nourriture 4) Blocking CC3 + (Cloche+Lumière+Nourr.  ch. Nour) x 3 ==> Lumière  ne fait rien

8 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 5) Conditionnement de second degré CC3 + (Lumière+Cloche+Nour.  ch. nour.) x 3 ==> Lumière  cherche nourriture 6) Conditionnement opérant (dressage) (Appuie levier+nourriture  ch. nour.) x 3 ==> appuie levier  cherche nourriture IL, blocking, conditionnement de 2 nd degré, … aussi pour le conditionnement opérant

9 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 2. Modéles du conditionnement Modèle de Rescorla et Wagner : Vx : "associative strength" d'un stimulus X Rescorla R.A. and Wagner A.R., A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement, In Black, A. H., & Prokasy, W. F. (Eds.), Classical conditioning II: Current research and theory, 64-99, New York: Appleton-Century-Crofts, (1972).

10 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique TD modèle de Sutton and Barto Apprentissage par renforcement Système de prédiction Etat X => Etat Y Lien avec réseaux de neurones Qu'est-ce qu'un état ??? R.S. Sutton and A.G. Barto, 'A temporal-difference model of classical conditioning', Proceedings of the 9th Annual Conference of the Cognitive Science Society, 355-378, 1987.

11 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Autres travaux : C. Balkenius and J. Morén, 'Computational models of classical conditioning: a comparative study', in Mayer, J.-A., Roitblat, H. L., Wilson, S. W., and Blumberg, B. (Eds.), From Animals to Animats 5. Cambridge, MA: MIT Press, 1998. N.A. Schmajuk, Y. Lam and J.A. Gray, 'Latent inhibition :A neural network approach', Journal of Experimental Psychology : Animal Behavior Processes, 22 (3) :321–349, 1996. Computational models of classical conditioning (Schmajuk) http://www.scholarpedia.org/article/Computational_models_of_classical_ conditioning

12 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 3. Idées fondamentales Système de prédiction => réseau bayésien -Nœud du réseau = perception d'un stimulus -Nœud du réseau = déclenchement du stimulus Et le changement de fréquence du métronome ? Et les actions ? -Nœud du réseau = événement représentationnel !!! -Evénement perceptif -Début d'action -Fin d'action

13 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Caractéristiques de l'apprentissage : - Apprentissage structurel (NP-difficile) - Apprentissage des paramètres Spécificités : - Apprentissage sur peu d'exemples - Dynamique temporelle complexe - Evolution des paramètres ! (extinction, réacquis. …) - Dépend de l'ordre de présentation des exemples !!! - Réseaux simples !

14 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Flash lumineux Bruit soudain Vue nourriture Début aller vers nour. Fin aller vers nour. Début manger Récompense Début appuyer levier Fin appuyer levier Cond. classique Cond. opérant Réseau bayésien à apprendre Partie du réseau déjà apprise Lien SC action Prédit que, mais n'oblige pas à

15 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 4. Apprentissage incrémental -Trace de chaque événement sur 5 secondes -On observe E1 et E2. -E1 E2 Ssi t(E2) -t(E1) < 5s E2 n'était pas prédit par un E3, (1) ou alors E3=E1 E2 prédit une récompense (appr. motivé, évite de complexifier inutilement le réseau) (1) => Activation des événements attendus

16 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Algorithme For each active trace Ax If reward present or expected For each active trace Ay (Y different from X) If (Eligible(Y)) or (W X->Y >0.5) If Start(X) < Start(Y) For each finishing trace A X If Ax predicted a reward that did not occur Look for the set of possible mistaken stimuli For each mistaken stim. M and prediction Y If A X occurred without expectation of any Reward and A X >0.2 A X =k A X (inhib. latente)

17 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique + règles ad hoc pour sélection et contrôle de l'action !

18 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 5. Simulateur

19 Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique 6. Conclusion Construction incrémentale d'un réseau bayésien (système de prédiction) permettant le conditionnement classique et opérant Perspectives –SC composés, généralisation, réacquisition spontanée, oubli … –Apprentissage séquentiel motivé –Apprentissage opératoire (Langage ? Maths ?)


Télécharger ppt "Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Modélisation du conditionnement pavlovien et du conditionnement opérant Jean."

Présentations similaires


Annonces Google