Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical ! Le renforcement permet de prédire des récompense à venir. Modèle Dynamique : Carte auto-organisatrice couplée à un apprentissage de type Q-learning modèle non biologiquement plausible Modèle Neuromimétique : Carte auto-organisatrice modèle biologiquement plausible de l ’organisation corticale Durant l’apprentissage, lors de la modification des poids synaptiques du neurone sélectionné, ses voisins modifient aussi les poids de leurs connexions d’après les informations de cette même entrée (vecteur à 17 dimensions). La mise à jour de la connexion (W Q ) avec l’utilitéQ se fait suivant l’équation: Q(s) t+1 =Q(s) t + (r+ max(Q(s’) - Q(s) t ) s : situation r : renforcement s’: nouvelle situation0 < , ≤ 1 Durant l’apprentissage, lors de la modification des poids synaptiques du neurone sélectionné, ses voisins modifient les poids de leur connexions d’après les informations de l’entrée (vecteur à 16 dimensions). La mise à jour de la connexion (W Q ) avec l’utilité Q est faite (pour les voisins) en utilisant le poids synaptique de la connexion du neurone gagnant avec la composante Q (n°17). Un neurone est sélectionné sur la carte qui est le représentant de l’entrée appliquée (vecteur à 17 dimensions : 16 composantes et une valeur d’utilité Q). A l’issue de l’apprentissage, les situations voisines sont voisines sur la carte La prédiction d’achat pour le E-commerce : un exemple complexe d’application du renforcement Aurélie Lagarrigue Responsable du stage : Claude Touzet Modèles Simulation base = comportement des clients lors de 9950 visites du site des visites avec achat (+1) sans achat (-1) 1 VISITE = nombre variable de SEQUENCE 1 SEQUENCE = 16 composantes (8 couples de valeurs : nombre de fois qu’un type de page est vu, durée totale en secondes de la lecture de ce type de age) + 1 composante = Q: valeur d’utilité Les données obtenues sont étudiées sous forme de matrice de confusion Matrice de confusion obtenue avec le modèle neuromimétique Nb : nombre de visites considérées -1/-1 : prédiction de non achat pour une visite se terminant par un abandon +1/-1 : prédiction d’achat pour une visite se terminant par un abandon -1/+1 : prédiction de non achat pour une visite se terminant par un achat +1/+1 : prédiction d’achat pour une visite se terminant par un achat Total OK : somme des pourcentages où la prédiction est vrai Total KO : somme des pourcentages où la prédiction est fausse W Q < seuil : non achat W Q ≥ seuil : achat courbes représentant l’évolution des prédictions d’achat et non achat en fonction du seuil. Prédiction d’achat (%) Prédiction de non achat (%) Kohonen T., Self-Organisation and Associative Memory, Springer-Verlag, Berlin, p Moe W., Buying, Searching, or Browsing: Differentiating Between Online Shoppers Using In-Store Navigational Clickstream, Journal of Consumer Psychology, 13(1&2), Touzet C., "Q-learning for robots", The Handbook of Brain Theory and Neural Networks (Second Edition), M. Arbib editor, MIT Press, 2003, pp Références: Résultats Ces étapes sont répétées plusieurs fois afin d’obtenir une validation statistique car les résultats dépendent de l’initialisation aléatoire des poids de la carte auto-organisatrice et aussi de l’ordre (aléatoire) de sélection des exemples de la base d’apprentissage. Les performances des deux modèles sont similaires. Il est donc possible de simuler les effets de la programmation dynamique à l’aide de la notion de voisinage. Le modèle d ’organisation corticale proposé par la carte auto-organisatrice est donc capable - sans ajout ou modification particulière - de tenir compte de récompenses (ou pénalités) retardées dans le temps. Phase de test 130 visites avec achat 5000 visites sans achat prédiction d’achat à 5 et 10 pages vues: Phase d’apprentissage (avec 10 neurones et 10 itérations) RENFORCEMENT seuil Prédiction de non achat (%) Diagramme représentant les moyennes (avec écart-type) des pourcentages pour lesquels les prédictions vraies d’achat et non achat sont identiques.