Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical.

Slides:



Advertisements
Présentations similaires
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
Advertisements

Réseaux neuronaux - Architectures et algorithmes
Réseaux neuronaux - Architectures et algorithmes
Plan Les réseaux de neurones Le réseau RBF RBF et Mushroom Historique
Ensemble pour lEstimation et la Projection (EEP).
La microbiologie prévisionnelle
Simplification Out-of-Core des modèles polygonales complexes
Démarches de modélisation
RECONNAISSANCE DE FORMES
Calculs de complexité d'algorithmes
Critère d’ordonnancement en temps réel Partie II
LES RESEAUX DE NEURONES
Séminaire LISC 29/06/01 Diffusion de l innovation Etudes sociologiques Modèles à seuil Réseaux sociaux Automates cellulaires, en réseaux.
Master Génie Biologique et Informatique, première année
Optimisation du portefeuille clients d’EDF suivant des modèles de type Markowitz DALLAGI Anes.
Le remplacement moléculaire
Yann SEMET Projet Fractales, INRIA Rocquencourt
METHODES DE SIMULATION DE LA VITESSE DU VENT
Analyse de la variance à un facteur
Sytèmes dynamiques – modélisation Emmanuel Risler 2008 – 2009 INSA de Lyon - GEN.
Programmes du cycle terminal
Christelle Scharff IFI 2004
Reconnaissance des formes cours de D.E.A. Introduction
Points importants de la semaine Les commentaires. Les variables. Les instructions conditionnelles. Les instructions itératives (les boucles).
Concepts avancés en mathématiques et informatique appliquées
Calcul et programmation au lycée avec Scilab
Applications du perceptron multicouche
Théorie neuronale de la Cognition et entraînement cognitif
Feature Driven Development (FDD)
Méthode des k plus proches voisins
Modélisation d'un comportement addictif à l'aide de réseaux de neurones artificiels Modèles Constat biologique: Les comportements addictifs avec recompense.
Détection et isolation de défauts dans les procédés industriels Contrôle Statistique des Procédés Statistical Process Control (SPC)
RECONNAISSANCE DE FORMES
La formation des ressources humaines
Réseaux de neurones.
Les réseaux de neurones
La méthodologie expérimentale Fondements et bases d’application
Mémoires associatives
Chapitre 7 Réseau ART.
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
Projet JSimula.
Objectifs Chapitre 8: Mesure en psychologie
Travaux pratiques Hygiène-Génétique- Biostatistique:
Modélisation de la lecture grâce à un modèle connexionniste
1 Workshop : modelling relationships between agriculture and environment - Brussels - 15/02/2001 Séminaire LISC Vendredi 29 Juin 2001 Transmission de linformation.
Les réseaux de neurones artificiels (RNA)
Échantillonnage (STT-2000) Section 2 Tirage de Bernoulli (plan BE). Version: 4 septembre 2003.
Distributions de probabilité discrètes
PROBABILITÉS.
Chapitre 6 Réseaux récurrents.
Bases conceptuelles de l’enseignement par simulation
Mise en oeuvre et exploitation
Chapitre 3-B : AUTOMATIQUE : LES S.L.C.I.
Analyse des modes normaux
Séminaire 10 Juin 2008 Pervasive Learning Network : P-LearNet Institut TELECOM.
Université de Sherbrooke
Optimisation par les algorithmes génétiques
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Evaluation des incertitudes dans le recalage non rigide de formes Application à la segmentation avec ensemble apprentissage Maxime TARON Nikos PARAGIOS.
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
Christelle Scharff IFI 2004
Les réseaux de neurones à réservoir en traitement d’images
Institut de sciences et technologies Département d’informatique
Quelques notions pédagogiques
Predictive State Representation
Le chaos pourquoi ? Permet de modéliser un type de mouvement récent qui n’est ni uniforme, ni accéléré. Des dynamiques chaotiques ont été mises en évidence.
Idées apprentissage couche L3: démarche ascendante ou descendante Temps du premier spike: -conception filtre à la main -apprentissage suivant une règle.
Le réseau de neurones artificiel
Eq. Corps & Cognition – séminaire du 06/10/ Pourquoi doit-on dormir ?
A propos du “Minimal Controllability Problem” C. Commault Département Automatique Gipsa-Lab Grenoble –FRANCE 1 Séminaire GIPSA-Lab 22 octobre 2015.
Transcription de la présentation:

Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical ! Le renforcement permet de prédire des récompense à venir. Modèle Dynamique : Carte auto-organisatrice couplée à un apprentissage de type Q-learning modèle non biologiquement plausible Modèle Neuromimétique : Carte auto-organisatrice modèle biologiquement plausible de l ’organisation corticale Durant l’apprentissage, lors de la modification des poids synaptiques du neurone sélectionné, ses voisins modifient aussi les poids de leurs connexions d’après les informations de cette même entrée (vecteur à 17 dimensions). La mise à jour de la connexion (W Q ) avec l’utilitéQ se fait suivant l’équation: Q(s) t+1 =Q(s) t +  (r+  max(Q(s’) - Q(s) t ) s : situation r : renforcement s’: nouvelle situation0 < ,  ≤ 1 Durant l’apprentissage, lors de la modification des poids synaptiques du neurone sélectionné, ses voisins modifient les poids de leur connexions d’après les informations de l’entrée (vecteur à 16 dimensions). La mise à jour de la connexion (W Q ) avec l’utilité Q est faite (pour les voisins) en utilisant le poids synaptique de la connexion du neurone gagnant avec la composante Q (n°17). Un neurone est sélectionné sur la carte qui est le représentant de l’entrée appliquée (vecteur à 17 dimensions : 16 composantes et une valeur d’utilité Q). A l’issue de l’apprentissage, les situations voisines sont voisines sur la carte La prédiction d’achat pour le E-commerce : un exemple complexe d’application du renforcement Aurélie Lagarrigue Responsable du stage : Claude Touzet Modèles Simulation base = comportement des clients lors de 9950 visites du site des visites avec achat (+1) sans achat (-1) 1 VISITE = nombre variable de SEQUENCE 1 SEQUENCE = 16 composantes (8 couples de valeurs : nombre de fois qu’un type de page est vu, durée totale en secondes de la lecture de ce type de age) + 1 composante = Q: valeur d’utilité Les données obtenues sont étudiées sous forme de matrice de confusion Matrice de confusion obtenue avec le modèle neuromimétique Nb : nombre de visites considérées -1/-1 : prédiction de non achat pour une visite se terminant par un abandon +1/-1 : prédiction d’achat pour une visite se terminant par un abandon -1/+1 : prédiction de non achat pour une visite se terminant par un achat +1/+1 : prédiction d’achat pour une visite se terminant par un achat Total OK : somme des pourcentages où la prédiction est vrai Total KO : somme des pourcentages où la prédiction est fausse W Q < seuil : non achat W Q ≥ seuil : achat courbes représentant l’évolution des prédictions d’achat et non achat en fonction du seuil. Prédiction d’achat (%) Prédiction de non achat (%) Kohonen T., Self-Organisation and Associative Memory, Springer-Verlag, Berlin, p Moe W., Buying, Searching, or Browsing: Differentiating Between Online Shoppers Using In-Store Navigational Clickstream, Journal of Consumer Psychology, 13(1&2), Touzet C., "Q-learning for robots", The Handbook of Brain Theory and Neural Networks (Second Edition), M. Arbib editor, MIT Press, 2003, pp Références: Résultats Ces étapes sont répétées plusieurs fois afin d’obtenir une validation statistique car les résultats dépendent de l’initialisation aléatoire des poids de la carte auto-organisatrice et aussi de l’ordre (aléatoire) de sélection des exemples de la base d’apprentissage. Les performances des deux modèles sont similaires. Il est donc possible de simuler les effets de la programmation dynamique à l’aide de la notion de voisinage. Le modèle d ’organisation corticale proposé par la carte auto-organisatrice est donc capable - sans ajout ou modification particulière - de tenir compte de récompenses (ou pénalités) retardées dans le temps. Phase de test 130 visites avec achat 5000 visites sans achat prédiction d’achat à 5 et 10 pages vues: Phase d’apprentissage (avec 10 neurones et 10 itérations) RENFORCEMENT seuil Prédiction de non achat (%) Diagramme représentant les moyennes (avec écart-type) des pourcentages pour lesquels les prédictions vraies d’achat et non achat sont identiques.