Labeled Real-Time Dynamic Programming (LRTDP) Pierrick Plamondon.

Slides:



Advertisements
Présentations similaires
La recherche de chemin optimal
Advertisements

Théorie des graphes.
Chapitre annexe. Récursivité
III. IDENTIFICATION PARAMETRIQUE DES SYSTEMES LINEAIRES
3. Variantes de l’algorithme
Algorithmes et structures de données avancés
Champs de Markov en Vision par Ordinateur
Introduction à l’Algorithmique
D B C A commande optimale (critère quadratique) et filtrage de kalman
Algorithmique Résume.
Cours d’Algorithmique
Synthèse Stage Algorithmique Académie de la Réunion.
Optimisation dans les télécommunications
IFT 702 – Planification en Intelligence Artificielle Planification avec des processus de décision de Markov Froduald Kabanza Département d’informatique.
5. Algorithme du simplexe
Génération de colonnes
Section VI Structures répétitives (suite)
Fonction définie par une formule.
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
ELE6207 Commande de systèmes robotiques
Les bases de l’Algorithmique
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Calcul et programmation au lycée avec Scilab
Quest-ce que la planification ? Planifier = Décider dun plan À partir dune base de connaissances sur les opérateurs possibles, on simule un grand nombre.
Partie 1: Notions & concepts
Froduald Kabanza Département d’informatique Université de Sherbrooke
RÉSOLUTION DE PROBLÈMES
Programmation linéaire
Optimisation linéaire
Méthode des k plus proches voisins
Le cas de la demande déterministe non stationnaire
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
1ère utilisation, prise en main du logiciel pour un modèle simple
RECONNAISSANCE DE FORMES
TP8: Equations différentielles II
Algorithme de Bellman-Ford
Modélisation du robot Azimut-3
IFT Complexité et NP-complétude
Programmation linéaire en nombres entiers Algorithme de la subdivision successive («Branch and Bound Algorithm»)
CSI 4506: Introduction à l’intelligence artificielle
Vincent Thomas Christine Bourjot Vincent Chevrier
Optimisation dans les réseaux
Optimisation linéaire
Jean-François Landry Département d’informatique
ASI 3 Méthodes numériques pour l’ingénieur
Programmation linéaire en nombres entiers : les méthodes de troncature
Analyse des Algorithmes
Modélisation géométrique de base
Solution connue à l’avance
O-notation 1. Introduction 2. O-notation 3. Opérations 3.1 Somme 3.2 Produit 4. Règles générales 5. Exemple 6.Analyse des algorithmes récursifs 6.1 Dilatation.
les méthodes de recherche locale
ASI 3 Méthodes numériques pour l’ingénieur
Programmation linéaire en nombres entiers
Foued Mnasri Weal Rekik
Asservissement et Régulation continu
PROGRAMMATION SCIENTIFIQUE EN C
IFT 702 – Planification en intelligence artificielle Planification par les processus de décision markoviens Froduald Kabanza Département d’informatique.
Travaux Pratiques Optimisation Combinatoire
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Classification de données par l’algorithme FPSO-GA
Introduction à la récursivité
Sujets spéciaux en informatique I
Soutenance de Stage DEA / DESS
2005/2006 Structures de Données Introduction à la complexité des algorithmes.
1 Logiciels de confection automatique d’horaires.
Résolution des équations différentielles
1 CSI 4506: Introduction à l’Intelligence Artificielle La Recherche Adversariale.
1 A. Cornuéjols Introduction à l’intelligence artificielle Introduction à l’Intelligence Artificielle (Cours n°3) Recherche informée dans les graphes Antoine.
CentralWeb F. Playe1 Principes de base du routage IP Ce cours est la propriété de la société CentralWeb. Il peut être utilisé et diffusé librement.
OPTIMISATION 1ère année ingénieurs
Transcription de la présentation:

Labeled Real-Time Dynamic Programming (LRTDP) Pierrick Plamondon

© Pierrick Plamondon – Juillet / 24 Plan de la présentation Introduction Learning Real-Time A* (LRTA*) Real-Time Dynamic Programming (RTDP) Labeled RTDP (LRTDP)

© Pierrick Plamondon – Juillet / 24 Rappel : Définitions Selon Dean et Kambhambati [1996] −Planification hors-ligne : Un algorithme de planification qui performe tous les calculs avant d’exécuter une action −Planification en-ligne : Un algorithme de planification dans lequel il y a un entrelacement entre calculs et actions Cet entrelacement peut se faire dans l’environnement ou dans un simulateur de l’environnement

© Pierrick Plamondon – Juillet / 24 Introduction : Aperçu La solution peut être optimale ou non dans un algorithme hors-ligne ou en-ligne LRTA*, RTDP et LRTDP sont de type : −En-ligne où l’entrelacement est fait dans un simulateur de l’environnement

© Pierrick Plamondon – Juillet / 24 Plan de la présentation Introduction Learning Real-Time A* (LRTA*) Real-Time Dynamic Programming (RTDP) Labeled RTDP (LRTDP)

© Pierrick Plamondon – Juillet / 24 Hors-ligne vs en-ligne : déterministe Situation −État initial connu −Heuristique admissible pour orienter la recherche Les récompenses ne doivent pas être sous-estimées Planification hors ligne −A* Planification en ligne −LRTA*

© Pierrick Plamondon – Juillet / 24 Problème de Russel et Norvig [2003] adapté 1234 État initial = s 1

© Pierrick Plamondon – Juillet / 24 Heuristique On peut définir l’heuristique selon l’endroit −Colonne 1 : −Colonne 2 : −Colonne 3 : −Colonne 4 : La récompense est ainsi surestimée 1 234

© Pierrick Plamondon – Juillet / 24 LRTA* [Korf, 1990] : Algorithme

© Pierrick Plamondon – Juillet / 24 Exécution de LRTA* 1234 V(s 5 ) = 0,88 V( s 2 ) = 0,92 1er essai: a 1 = droite a 2 = droite V’(s 1 ) = 0,88 V( s 1 ) = 0,88V( s 3 ) = 0,96 V’(s 2 ) = 0,92 V( s 4 ) = 1 a 3 = droite V( s 6 ) = 0,96 V’(s 3 ) = 0,96 a 4 = gauche V’(s 4 ) = 0,92 V( s 4 ) = 0,92 a 5 = haut V’(s 3 ) = 0,92 V( s 3 ) = 0,92 a 6 = haut V(s 10 ) = 0,96 V’(s 6 ) = 0,92 V( s 6 ) = 0,92 V(s 9 ) = 0,92 a 7 = droite V’(s 10 ) = 0,96 Une solution acceptable est trouvée rapidement

© Pierrick Plamondon – Juillet / 24 Discussion sur A* et LRTA* LRTA* trouve une solution réalisable en moins de temps que A* LRTA* requiert moins de mémoire −Ne considère que l’état courant pour orienter sa recherche −Peut résoudre des problèmes plus complexes En général A*, prend moins de temps à converger que LRTA* Il existe plusieurs extensions à A* et LRTA*

© Pierrick Plamondon – Juillet / 24 Plan de la présentation Introduction Learning Real-Time A* (LRTA*) Real-Time Dynamic Programming (RTDP) Labeled RTDP (LRTDP)

© Pierrick Plamondon – Juillet / 24 Planification stochastique Planification hors-ligne −AO* et LAO* −HDP Planification en-ligne −RTDP et LRTDP

© Pierrick Plamondon – Juillet / 24 RTDP [Barto et al, 1995] Version stochastique de LRTA* RTDP, tout comme LRTA* fournit une politique optimale suite à un certain nombre d’itération −Mais on n’a aucun critère pour déterminer si une politique de RTDP est optimale −Converge à l’infini…

© Pierrick Plamondon – Juillet / 24 RTDP : Algorithme

© Pierrick Plamondon – Juillet / 24 Plan de la présentation Introduction Learning Real-Time A* (LRTA*) Real-Time Dynamic Programming (RTDP) Labeled RTDP (LRTDP)

© Pierrick Plamondon – Juillet / 24 LRTDP LRTDP Introduit une procédure d’étiquetage d’un état résolu à RTDP Les itérations de LRTDP prennent fin lors de la rencontre d’un état résolu L’algorithme termine lorsque l’état initial est étiqueté comme résolu

© Pierrick Plamondon – Juillet / 24 LRTDP : Algorithme

© Pierrick Plamondon – Juillet / 24 CheckSolved On mets dans closed les enfants de s. On ne va pas plus loin qu’un état s’ dont son erreur de Bellman est supérieure à epsilon. Si tous les états dans closed on une erreur inféreur à epsilon, ils sont résolus Sinon, on les met à jour

© Pierrick Plamondon – Juillet / 24 Problème de Russel et Norvig [2003] 1234 État initial = s 1

© Pierrick Plamondon – Juillet / 24 Exécution de LRTDP 1234 V(s 5 ) = 0,88 V(s 2 ) = 0,92 1er essai: a 1 = droite a 2 = droite V’(s 1 ) = 0,872 V(s 1 ) = 0,88V(s 3 ) = 0,96 V’(s 2 ) = 0,912 V(s 4 ) = 1 a 3 = droite V(s 6 ) = 0,96V’(s 3 ) = 0,952 a 4 = gauche V’(s 4 ) = 0,854 V(s 4 ) = 0,92 a 6 = haut V’(s 3 ) = 0,905 V(s 3 ) = 0,92 V’(s 1 ) = 0,872 V’(s 2 ) = 0,912 V’(s 2 ) = 0,854V’(s 2 ) = 0,952V’(s 2 ) = 0,905 V(s 10 ) = 0,96 a 7 = haut V’(s 6 ) = 0,824 V’(s 2 ) = V(s 10 ) = 0,92V’(s 6 ) = 0,938 a 8 = droite V’(s 10 ) = 0.938

© Pierrick Plamondon – Juillet / 24 LRTDP : Discussion LRTDP vs LAO* et VI −LRTDP obtient une bonne politique plus rapidement −LRTDP converge à l’optimal plus lentement

© Pierrick Plamondon – Juillet / 24 A Modified LRTDP Approach Idée de l’approche Propager l’erreur de Bellman d’un état à ses parents dans checkSolved −Un paramètre est utilisée pour définir le degré de propagation. Plus est élevé, moins on propage. −Formule utilisée pour la propagation : −Bien moins complexe qu’un Bellman backup

© Pierrick Plamondon – Juillet / 24 Questions ?