4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.

4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes Mathématiques et Informatiques pour la Décision

Temps off-line, temps on-line n n Temps off-line : temps simulé, phase d ’apprentissage n n Temps on-line : temps réel, phase d ’exploitation En IA, dans les problèmes de décision séquentielle, on distingue : Ex. Programmes de jeux d ’échecs : off-line : des heures, des jours...par exemple pour ajuster les poids w d’une fonction d’évaluation V (s,w) définie sur tout l’espace d’états on-line : recherche locale depuis un état courant sur un certain horizon H pour améliorer la décision déduite de V ~ ~

Résolution en ligne pour les PDMs de grande taille : développement d’un arbre stochastique par simulation n Approximation par sampling : n Pour chaque état rencontré en ligne, on développe un arbre sur un horizon H dont les feuilles sont évaluées par V s,as’, r(s,a) simulateur ~

Fondements théoriques : l’algorithme de Kearns et al. (1999-2002) r(s 0,a 2 ) s0s0 s 21 s 22 s 23 a2a2 a1a1 r(s 0,a 1 ) s 12 s 13 s 11 a1a1 a2a2 s 111 s 113 s 112 s 121 s 123 s 122 V(s 112 ) V(s 111 ) V(s 113 ) V(s 122 ) V(s 121 ) V(s 123 ) Résultat théorique de Kearns : sinon V(s) si H=0 ~ … … … … H ~ ~ ~ ~ ~ ~

Pathologie de la recherche Quand on augmente l’horizon H avec une largeur fixée C, deux phénomènes sont en compétition: Borne sur l’erreur |V H,C (s) - V*(s)| en fonction de H et C visibilité accrue amplification du bruit dû au sampling Finalement, plus la recherche est profonde, plus la décision déduite de l’arbre est mauvaise !

Quelles stratégies de contrôle pour le développement de l’arbre ? Question : sur quels nœuds simuler des transitions supplémentaires ? s0s0 s 21 a2a2 a1a1 s 11 a1a1 s 111 s 113 s 112 V(s 112 ) s 12 s 113 s 112 a2a2 V(s 12 ) V(s 21 ) s 22 V(s 22 ) ~ ~ V(s 111 ) V(s 113 ) V(s 112 ) V(s 131 ) ~ ~ ~ ~ ~ ~

Une approche par trajectoires s0s0 a1a1 s 11 a2a2 s 21 Contrôle local : politiques d’exploration utilisées en apprentissage par renforcement (Boltzmann, recency-based...). Objectif : bon compromis exploration/exploitation Contrôle global : contrôle de l’horizon H. Evaluation de l’erreur globale. Objectif : éviter les phénomènes pathologiques Favoriser les noeuds : a1a1 s 111 V(s 111 ) ~ a2a2 s 112 V(s 112 ) ~ a1a1 s 211 V(s 211 ) ~ s 12 n proches de la racine n de bonne qualité n à forte incertitude

Navigation sur un plan d’eau (R. Vanderbei, 1996, univ. de Princeton) n Problème : traverser un plan d’eau le plus vite possible n Source d’aléa : fluctuations du vent n On génère V en bruitant V * (bruit uniforme) PDM de complexité moyenne (6400 états, 8 actions) ~

Pathologie de la recherche

» des politiques pour différentes stratégies de développement de l’arbre Profil « anytime » des politiques pour différentes stratégies de développement de l’arbre

Conclusions et perspectives n n Approche en ligne peu exploitée dans le cadre PDM n n Tests d’autres stratégies de contrôle adaptées d’algorithmes de recherche avec modèle (LAO*) n Application à la maintenance optimale d’une constellation de satellites : PDM très complexe (~10 80 états). Amélioration de 2% de la meilleure politique optimisée hors ligne par recherche en ligne.

4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.

Présentations similaires

Présentation au sujet: "4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes.

Présentations similaires

Présentation au sujet: "4ème journées PDM IA - Vendredi 7 mai 2004 Recherche en ligne pour la résolution de PDMs Laurent Péret, Frédérick Garcia INRA Toulouse, équipe Méthodes."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back