Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parGermaine Benard Modifié depuis plus de 9 années
1
Trajectory Tree [1] Patrick Cinq-Mars
2
© Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William T. B. Uther and Manuela M. Veloso In Adaptive Agents and Multi-Agent Systems, volume LNAI 2636, pages 266-296. Springer, 2003.
3
© Name – Month YEAR3 / TOTAL PAGES Plan Introduction Formalisme Algorithme Abstraction temporelle (actions) Trajectoires Abstraction des états Résultats Questions
4
© Name – Month YEAR4 / TOTAL PAGES Introduction But : Réduire l’espace d’états (du SMDP) Pourquoi un arbre ? Efficace pour représenter la structure en régions de l’espace d’états On peut effectuer/stocker des tests au niveau des nœuds On peut grossir l’arbre à mesure que l’expérience le permet
5
© Name – Month YEAR5 / TOTAL PAGES Introduction Approximation Anytime Solution s’améliore au fur et à mesure que l’agent interagit avec l’environnement Preuve de convergence
6
© Name – Month YEAR6 / TOTAL PAGES Formalisme SMDP est un tuple S = { s 0, s 1, …, s |S| } A = { a 0, a 1, …, a |A| } P s,a (s',t) : S x A x S x [0,1] R(s,a) : S x A : S A
7
© Name – Month YEAR7 / TOTAL PAGES Formalisme Multiplicative discount factor (0,1) * maximise i r i i = 0 i est le temps où l’agent sa i-ème action r i est la récompense reçue pour l’action
8
© Name – Month YEAR8 / TOTAL PAGES Formalisme Fonctions
9
© Name – Month YEAR9 / TOTAL PAGES Formalisme Fonction
10
© Name – Month YEAR10 / TOTAL PAGES Formalisme Model génératif G
11
© Name – Month YEAR11 / TOTAL PAGES Formalisme Définir le SMDP abstrait Distinction par ¯ au dessus est une action abstraite, notée aussi est un état abstrait, Aussi nous avons que ; : On ajoute un tilde (~) pour les fonctions reliant le SMDP de base et le abstrait
12
© Name – Month YEAR12 / TOTAL PAGES Formalisme
13
© Name – Month YEAR13 / TOTAL PAGES Formalisme Expected discounted reward jusqu’au prochain état abstrait
14
© Name – Month YEAR14 / TOTAL PAGES Formalisme
15
© Name – Month YEAR15 / TOTAL PAGES Formalisme
16
© Name – Month YEAR16 / TOTAL PAGES Algorithme
17
© Name – Month YEAR17 / TOTAL PAGES Abstraction temporelle Pour chaque action a A, on créé une action abstraite tel que s S; (s) = a On ajoute également une action avec un politique aléatoire (exploration) Les autres actions ne servent qu’à améliorer la vitesse de convergence (heuristiques)
18
© Name – Month YEAR18 / TOTAL PAGES Algorithme
19
© Name – Month YEAR19 / TOTAL PAGES Algorithme
20
© Name – Month YEAR20 / TOTAL PAGES Trajectoires On génère les trajectoires avec G Quatre critères d’arrêt possibles pour les trajectoires On atteint un autre état abstrait On tombe dans un état absorbant On dépasse un certain temps maximum On ne peut sortir de l’état abstrait
21
© Name – Month YEAR21 / TOTAL PAGES Trajectoires Les trajectoires ont des états de départ choisis au hasard Trois valeurs générées Estimé de la fonction, soit La meilleure action abstraite selon La valeur de cette action
22
© Name – Month YEAR22 / TOTAL PAGES Algorithme
23
© Name – Month YEAR23 / TOTAL PAGES Algorithme
24
© Name – Month YEAR24 / TOTAL PAGES Abstraction des états Trois critères pour diviser (dans l’ordre) varient pour l’état abstrait ; la meilleure action varie varient pour une action donnée
25
© Name – Month YEAR25 / TOTAL PAGES Résultats Towers of Hanoi
26
© Name – Month YEAR26 / TOTAL PAGES Résultats Walking robot
27
© Name – Month YEAR27 / TOTAL PAGES Discussion Utilisation de G Exploration Preuve de convergence SMDP de base (abstraction) …
28
© Name – Month YEAR28 / TOTAL PAGES Questions ?
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.