4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes Mathématiques et Informatiques pour la Décision
Temps off-line, temps on-line n n Temps off-line : temps simulé, phase d ’apprentissage n n Temps on-line : temps réel, phase d ’exploitation En IA, dans les problèmes de décision séquentielle, on distingue : Ex. Programmes de jeux d ’échecs : off-line : des heures, des jours...par exemple pour ajuster les poids w d’une fonction d’évaluation V (s,w) définie sur tout l’espace d’états on-line : recherche locale depuis un état courant sur un certain horizon H pour améliorer la décision déduite de V ~ ~
Résolution en ligne pour les PDMs de grande taille : développement d’un arbre stochastique par simulation n Approximation par sampling : n Pour chaque état rencontré en ligne, on développe un arbre sur un horizon H dont les feuilles sont évaluées par V s,as’, r(s,a) simulateur ~
Fondements théoriques : l’algorithme de Kearns et al. ( ) r(s 0,a 2 ) s0s0 s 21 s 22 s 23 a2a2 a1a1 r(s 0,a 1 ) s 12 s 13 s 11 a1a1 a2a2 s 111 s 113 s 112 s 121 s 123 s 122 V(s 112 ) V(s 111 ) V(s 113 ) V(s 122 ) V(s 121 ) V(s 123 ) Résultat théorique de Kearns : sinon V(s) si H=0 ~ … … … … H ~ ~ ~ ~ ~ ~
Pathologie de la recherche Quand on augmente l’horizon H avec une largeur fixée C, deux phénomènes sont en compétition: Borne sur l’erreur |V H,C (s) - V*(s)| en fonction de H et C visibilité accrue amplification du bruit dû au sampling Finalement, plus la recherche est profonde, plus la décision déduite de l’arbre est mauvaise !
Quelles stratégies de contrôle pour le développement de l’arbre ? Question : sur quels nœuds simuler des transitions supplémentaires ? s0s0 s 21 a2a2 a1a1 s 11 a1a1 s 111 s 113 s 112 V(s 112 ) s 12 s 113 s 112 a2a2 V(s 12 ) V(s 21 ) s 22 V(s 22 ) ~ ~ V(s 111 ) V(s 113 ) V(s 112 ) V(s 131 ) ~ ~ ~ ~ ~ ~
Une approche par trajectoires s0s0 a1a1 s 11 a2a2 s 21 Contrôle local : politiques d’exploration utilisées en apprentissage par renforcement (Boltzmann, recency-based...). Objectif : bon compromis exploration/exploitation Contrôle global : contrôle de l’horizon H. Evaluation de l’erreur globale. Objectif : éviter les phénomènes pathologiques Favoriser les noeuds : a1a1 s 111 V(s 111 ) ~ a2a2 s 112 V(s 112 ) ~ a1a1 s 211 V(s 211 ) ~ s 12 n proches de la racine n de bonne qualité n à forte incertitude
Navigation sur un plan d’eau (R. Vanderbei, 1996, univ. de Princeton) n Problème : traverser un plan d’eau le plus vite possible n Source d’aléa : fluctuations du vent n On génère V en bruitant V * (bruit uniforme) PDM de complexité moyenne (6400 états, 8 actions) ~
Pathologie de la recherche
» des politiques pour différentes stratégies de développement de l’arbre Profil « anytime » des politiques pour différentes stratégies de développement de l’arbre
Conclusions et perspectives n n Approche en ligne peu exploitée dans le cadre PDM n n Tests d’autres stratégies de contrôle adaptées d’algorithmes de recherche avec modèle (LAO*) n Application à la maintenance optimale d’une constellation de satellites : PDM très complexe (~10 80 états). Amélioration de 2% de la meilleure politique optimisée hors ligne par recherche en ligne.