La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Trajectory Tree [1] Patrick Cinq-Mars. © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William.

Présentations similaires


Présentation au sujet: "Trajectory Tree [1] Patrick Cinq-Mars. © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William."— Transcription de la présentation:

1 Trajectory Tree [1] Patrick Cinq-Mars

2 © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William T. B. Uther and Manuela M. Veloso In Adaptive Agents and Multi-Agent Systems, volume LNAI 2636, pages 266-296. Springer, 2003.

3 © Name – Month YEAR3 / TOTAL PAGES Plan Introduction Formalisme Algorithme  Abstraction temporelle (actions)  Trajectoires  Abstraction des états Résultats Questions

4 © Name – Month YEAR4 / TOTAL PAGES Introduction But :  Réduire l’espace d’états (du SMDP) Pourquoi un arbre ?  Efficace pour représenter la structure en régions de l’espace d’états  On peut effectuer/stocker des tests au niveau des nœuds  On peut grossir l’arbre à mesure que l’expérience le permet

5 © Name – Month YEAR5 / TOTAL PAGES Introduction Approximation Anytime  Solution s’améliore au fur et à mesure que l’agent interagit avec l’environnement Preuve de convergence

6 © Name – Month YEAR6 / TOTAL PAGES Formalisme SMDP est un tuple  S = { s 0, s 1, …, s |S| }  A = { a 0, a 1, …, a |A| }  P s,a (s',t) : S x A x S x   [0,1]  R(s,a) : S x A     : S  A

7 © Name – Month YEAR7 / TOTAL PAGES Formalisme Multiplicative discount factor    (0,1)   * maximise     i r i i = 0  i est le temps où l’agent sa i-ème action r i est la récompense reçue pour l’action

8 © Name – Month YEAR8 / TOTAL PAGES Formalisme Fonctions 

9 © Name – Month YEAR9 / TOTAL PAGES Formalisme Fonction   

10 © Name – Month YEAR10 / TOTAL PAGES Formalisme Model génératif G 

11 © Name – Month YEAR11 / TOTAL PAGES Formalisme Définir le SMDP abstrait  Distinction par ¯ au dessus  est une action abstraite, notée aussi  est un état abstrait,   Aussi nous avons que   ;  :   On ajoute un tilde (~) pour les fonctions reliant le SMDP de base et le abstrait

12 © Name – Month YEAR12 / TOTAL PAGES Formalisme 

13 © Name – Month YEAR13 / TOTAL PAGES Formalisme   Expected discounted reward jusqu’au prochain état abstrait

14 © Name – Month YEAR14 / TOTAL PAGES Formalisme 

15 © Name – Month YEAR15 / TOTAL PAGES Formalisme    

16 © Name – Month YEAR16 / TOTAL PAGES Algorithme

17 © Name – Month YEAR17 / TOTAL PAGES Abstraction temporelle Pour chaque action a  A, on créé une action abstraite tel que  s  S; (s) = a On ajoute également une action avec un politique aléatoire (exploration) Les autres actions ne servent qu’à améliorer la vitesse de convergence (heuristiques)

18 © Name – Month YEAR18 / TOTAL PAGES Algorithme

19 © Name – Month YEAR19 / TOTAL PAGES Algorithme

20 © Name – Month YEAR20 / TOTAL PAGES Trajectoires On génère les trajectoires avec G Quatre critères d’arrêt possibles pour les trajectoires  On atteint un autre état abstrait  On tombe dans un état absorbant  On dépasse un certain temps maximum  On ne peut sortir de l’état abstrait

21 © Name – Month YEAR21 / TOTAL PAGES Trajectoires Les trajectoires ont des états de départ choisis au hasard Trois valeurs générées  Estimé de la fonction, soit  La meilleure action abstraite selon  La valeur de cette action

22 © Name – Month YEAR22 / TOTAL PAGES Algorithme

23 © Name – Month YEAR23 / TOTAL PAGES Algorithme

24 © Name – Month YEAR24 / TOTAL PAGES Abstraction des états Trois critères pour diviser (dans l’ordre)  varient pour l’état abstrait  ; la meilleure action varie  varient pour une action donnée

25 © Name – Month YEAR25 / TOTAL PAGES Résultats Towers of Hanoi

26 © Name – Month YEAR26 / TOTAL PAGES Résultats Walking robot

27 © Name – Month YEAR27 / TOTAL PAGES Discussion Utilisation de G Exploration Preuve de convergence SMDP de base (abstraction) …

28 © Name – Month YEAR28 / TOTAL PAGES Questions ?


Télécharger ppt "Trajectory Tree [1] Patrick Cinq-Mars. © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William."

Présentations similaires


Annonces Google