Trajectory Tree [1] Patrick Cinq-Mars
© Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William T. B. Uther and Manuela M. Veloso In Adaptive Agents and Multi-Agent Systems, volume LNAI 2636, pages Springer, 2003.
© Name – Month YEAR3 / TOTAL PAGES Plan Introduction Formalisme Algorithme Abstraction temporelle (actions) Trajectoires Abstraction des états Résultats Questions
© Name – Month YEAR4 / TOTAL PAGES Introduction But : Réduire l’espace d’états (du SMDP) Pourquoi un arbre ? Efficace pour représenter la structure en régions de l’espace d’états On peut effectuer/stocker des tests au niveau des nœuds On peut grossir l’arbre à mesure que l’expérience le permet
© Name – Month YEAR5 / TOTAL PAGES Introduction Approximation Anytime Solution s’améliore au fur et à mesure que l’agent interagit avec l’environnement Preuve de convergence
© Name – Month YEAR6 / TOTAL PAGES Formalisme SMDP est un tuple S = { s 0, s 1, …, s |S| } A = { a 0, a 1, …, a |A| } P s,a (s',t) : S x A x S x [0,1] R(s,a) : S x A : S A
© Name – Month YEAR7 / TOTAL PAGES Formalisme Multiplicative discount factor (0,1) * maximise i r i i = 0 i est le temps où l’agent sa i-ème action r i est la récompense reçue pour l’action
© Name – Month YEAR8 / TOTAL PAGES Formalisme Fonctions
© Name – Month YEAR9 / TOTAL PAGES Formalisme Fonction
© Name – Month YEAR10 / TOTAL PAGES Formalisme Model génératif G
© Name – Month YEAR11 / TOTAL PAGES Formalisme Définir le SMDP abstrait Distinction par ¯ au dessus est une action abstraite, notée aussi est un état abstrait, Aussi nous avons que ; : On ajoute un tilde (~) pour les fonctions reliant le SMDP de base et le abstrait
© Name – Month YEAR12 / TOTAL PAGES Formalisme
© Name – Month YEAR13 / TOTAL PAGES Formalisme Expected discounted reward jusqu’au prochain état abstrait
© Name – Month YEAR14 / TOTAL PAGES Formalisme
© Name – Month YEAR15 / TOTAL PAGES Formalisme
© Name – Month YEAR16 / TOTAL PAGES Algorithme
© Name – Month YEAR17 / TOTAL PAGES Abstraction temporelle Pour chaque action a A, on créé une action abstraite tel que s S; (s) = a On ajoute également une action avec un politique aléatoire (exploration) Les autres actions ne servent qu’à améliorer la vitesse de convergence (heuristiques)
© Name – Month YEAR18 / TOTAL PAGES Algorithme
© Name – Month YEAR19 / TOTAL PAGES Algorithme
© Name – Month YEAR20 / TOTAL PAGES Trajectoires On génère les trajectoires avec G Quatre critères d’arrêt possibles pour les trajectoires On atteint un autre état abstrait On tombe dans un état absorbant On dépasse un certain temps maximum On ne peut sortir de l’état abstrait
© Name – Month YEAR21 / TOTAL PAGES Trajectoires Les trajectoires ont des états de départ choisis au hasard Trois valeurs générées Estimé de la fonction, soit La meilleure action abstraite selon La valeur de cette action
© Name – Month YEAR22 / TOTAL PAGES Algorithme
© Name – Month YEAR23 / TOTAL PAGES Algorithme
© Name – Month YEAR24 / TOTAL PAGES Abstraction des états Trois critères pour diviser (dans l’ordre) varient pour l’état abstrait ; la meilleure action varie varient pour une action donnée
© Name – Month YEAR25 / TOTAL PAGES Résultats Towers of Hanoi
© Name – Month YEAR26 / TOTAL PAGES Résultats Walking robot
© Name – Month YEAR27 / TOTAL PAGES Discussion Utilisation de G Exploration Preuve de convergence SMDP de base (abstraction) …
© Name – Month YEAR28 / TOTAL PAGES Questions ?