Trajectory Tree [1] Patrick Cinq-Mars. © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William.

Slides:



Advertisements
Présentations similaires
Explorer un espace d’états
Advertisements

Fabrice Lauri, François Charpillet, Daniel Szer
Hierarchical Z-Buffer Visibility
CALCUL MENTAL Quelques situations.
10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.
Classification et prédiction
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Vers une approche multi- environnements pour les agents Jean-Christophe Soulié Equipe MAS 2 – IREMIA – Université de La Réunion.
Métaheuristiques pour l’optimisation combinatoire
Affine registration with Feature Space Mutual Information (2001)
A Pyramid Approach to Subpixel Registration Based on Intensity
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Yann SEMET Projet Fractales, INRIA Rocquencourt
LI.A ça ressemble à ça… des fois…. Ou pas… Rappels et définition de lIA – Lidée quon sen fait – Jusquoù on va aujourdhui / dans le futur? – Petit Etat.
Comportements hybrides
New Deflation Criterion for the QR Algorithm Présenté par Nader EL KHATIB Sous la direction de M. Mario AHUES.
To Tune or not to Tune? To Tune or not to Tune? A Lightweight Physical Design Alerter Costa Jean-Denis Le Yaouanc Aurélie Mécanismes de SGBD 2007.
Agents intelligents Chap. 2.
CHALLENGE ROADEF 2001 Résolution par une métaheuristique à base de recherche à voisinage variable et propagation par contraintes Fabrice BUSCAYLET Fabrice.
Aide à la décision et à la négociation dans un problème de gestion de production distribuée Jean-Pierre Camalot et Patrick Esquirol LAAS-CNRS 7, avenue.
Analyse économique Philippe LeBel, Ph.D. Professeur en sciences économiques Ecole Supérieure de Gestion Montclair State University Upper Montclair, New.
Heuristiques A. Introduction B. Recherche d ’une branche
Programmation linéaire
Méthodes Numériques appliquées à la
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
La segmentation
Gestion de Fichiers Arbres B.
Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802
Simulation distribuée et continue
Programmation linéaire en nombres entiers Algorithme de la subdivision successive («Branch and Bound Algorithm»)
Universté de la Manouba
Deux méthodes incrémentales pour le maintien dun arbre de connexion Nicolas Thibault Christian Laforest
Tutorat en bio-informatique Le 21 novembre Exercices 2 et 3 (MAT1400) - solutions Chapitre 11.7, Analyse - concepts et contextes vol. 2 27) Cherchez.
Structures de données IFT-2000 Abder Alikacem La récursivité Semaine 5 Département dinformatique et de génie logiciel Édition Septembre 2009.
Filtre de Kalman – Préliminaires (1)
Pour le chemin le plus court pour tous les couples

Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Le chiffrement asymétrique
Optimisation par la méthode des abeilles
Etude et test des algorithmes d'estimation de mouvement en MPEG
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
Ranking the web frontier Nadav Eiron, Kevin S. McCurley, John A. Tomlin IBM Almaden Research Center Bah Thierno Madiou.
I.A. Session 2009/2010 E.P.S.I. Bordeaux – C.S.I.I – 2 ème Année – Cours n°6.
I.A. Session 2009/2010 E.P.S.I. Bordeaux – C.S.I.I – 2 ème Année – Cours n°5.
 8 avril  Tahiti 2003 : Calcul efficace de trajectoires utilisant l'interversibilité.
Apprentissage pour les jeux d’arcade
Travaux Pratiques Optimisation Combinatoire
Initiation à la conception des systèmes d'informations
Vers une loi à densité. Masse en gEffectifFréquence % [600,800[1162,32 [800,900[3957,9 [900,1000[91818,36 [1000,1100[124824,96 [1100,1200[121824,36 [1200,1300[71514,3.
Gestion du portefeuille 07A – Modèle à facteurs
Introduction Définir Planning. L’agent Planning. Représentation pour l’agent planning. Idées derrieres l’agent planning.
Sujets spéciaux en informatique I
1 Méthode de “Fast Marching” générique pour “Shape From Shading” E. Prados & S. Soatto RFIA 2006 janvier 2006, Tours.
BIO 4518: Biostatistiques appliquées Les 11 et 18 octobre 2005 Laboratoire 4 et 5 ANOVA à critères multiples.
Suivi de trajectoires par vision Y. Goyat, T. Chateau, L. Trassoudaine 1.
Resource-Limited Genetic Programming : Replacing Tree Depth Limit.
4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.
ELE6306 : Test de systèmes électroniques Test intégré et Modèle de faute de délai Etudiante : S. BENCHIKH Professeur : A. Khouas Département de génie électrique.
Ajouts et retraits dans un arbre de connexion Nicolas Thibault et Christian Laforest, Équipe OPAL Laboratoire IBISC (regroupement LaMI et LSC), Évry 8.
Optimisation par les algorithmes génétiques
Peuplement d’une ville virtuelle S.ESTIENNE PRE001v1.01 Exemple d’utilisation du GA 1. Initialement une population est choisie au hasard. 2. Chaque individu.
Le Jeu et l’intelligence artificielle
1 Courbes Bsplines non uniformes Bsplines uniformes 1.Nombre de points de définition 2.Position des points de définition 3.Degré m des polynômes Paramètres.
CSI25101 Tri Plus efficace. CSI25102 Tri récursif Le tri récursif divise les données de grande taille en deux presque moitiés et est appelé récursivement.
. Le B-Arbre.
Programmation par contraintes Réalisé par: WETCHA Chaima MOKDED Mohamed Ali FIA3-GL-AL 1 1.
Informatique 2A Langage C 2 è séance. Objectifs de la séance 2 Début de la modularité avec les fonctions Création d’une première bibliothèque.
Transcription de la présentation:

Trajectory Tree [1] Patrick Cinq-Mars

© Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William T. B. Uther and Manuela M. Veloso In Adaptive Agents and Multi-Agent Systems, volume LNAI 2636, pages Springer, 2003.

© Name – Month YEAR3 / TOTAL PAGES Plan Introduction Formalisme Algorithme  Abstraction temporelle (actions)  Trajectoires  Abstraction des états Résultats Questions

© Name – Month YEAR4 / TOTAL PAGES Introduction But :  Réduire l’espace d’états (du SMDP) Pourquoi un arbre ?  Efficace pour représenter la structure en régions de l’espace d’états  On peut effectuer/stocker des tests au niveau des nœuds  On peut grossir l’arbre à mesure que l’expérience le permet

© Name – Month YEAR5 / TOTAL PAGES Introduction Approximation Anytime  Solution s’améliore au fur et à mesure que l’agent interagit avec l’environnement Preuve de convergence

© Name – Month YEAR6 / TOTAL PAGES Formalisme SMDP est un tuple  S = { s 0, s 1, …, s |S| }  A = { a 0, a 1, …, a |A| }  P s,a (s',t) : S x A x S x   [0,1]  R(s,a) : S x A     : S  A

© Name – Month YEAR7 / TOTAL PAGES Formalisme Multiplicative discount factor    (0,1)   * maximise     i r i i = 0  i est le temps où l’agent sa i-ème action r i est la récompense reçue pour l’action

© Name – Month YEAR8 / TOTAL PAGES Formalisme Fonctions 

© Name – Month YEAR9 / TOTAL PAGES Formalisme Fonction   

© Name – Month YEAR10 / TOTAL PAGES Formalisme Model génératif G 

© Name – Month YEAR11 / TOTAL PAGES Formalisme Définir le SMDP abstrait  Distinction par ¯ au dessus  est une action abstraite, notée aussi  est un état abstrait,   Aussi nous avons que   ;  :   On ajoute un tilde (~) pour les fonctions reliant le SMDP de base et le abstrait

© Name – Month YEAR12 / TOTAL PAGES Formalisme 

© Name – Month YEAR13 / TOTAL PAGES Formalisme   Expected discounted reward jusqu’au prochain état abstrait

© Name – Month YEAR14 / TOTAL PAGES Formalisme 

© Name – Month YEAR15 / TOTAL PAGES Formalisme    

© Name – Month YEAR16 / TOTAL PAGES Algorithme

© Name – Month YEAR17 / TOTAL PAGES Abstraction temporelle Pour chaque action a  A, on créé une action abstraite tel que  s  S; (s) = a On ajoute également une action avec un politique aléatoire (exploration) Les autres actions ne servent qu’à améliorer la vitesse de convergence (heuristiques)

© Name – Month YEAR18 / TOTAL PAGES Algorithme

© Name – Month YEAR19 / TOTAL PAGES Algorithme

© Name – Month YEAR20 / TOTAL PAGES Trajectoires On génère les trajectoires avec G Quatre critères d’arrêt possibles pour les trajectoires  On atteint un autre état abstrait  On tombe dans un état absorbant  On dépasse un certain temps maximum  On ne peut sortir de l’état abstrait

© Name – Month YEAR21 / TOTAL PAGES Trajectoires Les trajectoires ont des états de départ choisis au hasard Trois valeurs générées  Estimé de la fonction, soit  La meilleure action abstraite selon  La valeur de cette action

© Name – Month YEAR22 / TOTAL PAGES Algorithme

© Name – Month YEAR23 / TOTAL PAGES Algorithme

© Name – Month YEAR24 / TOTAL PAGES Abstraction des états Trois critères pour diviser (dans l’ordre)  varient pour l’état abstrait  ; la meilleure action varie  varient pour une action donnée

© Name – Month YEAR25 / TOTAL PAGES Résultats Towers of Hanoi

© Name – Month YEAR26 / TOTAL PAGES Résultats Walking robot

© Name – Month YEAR27 / TOTAL PAGES Discussion Utilisation de G Exploration Preuve de convergence SMDP de base (abstraction) …

© Name – Month YEAR28 / TOTAL PAGES Questions ?