Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Predictive State Representation
Abdeslam BOULARIAS Damas laboratory, Computer Science and Software Engineering Departement Laval University
2
Le problème du control des systèmes dynamiques
Un système dynamique est un système qui change d’état à travers le temps, selon des règles mathématiques fixes. Un système dynamique peut être: Déterministe: Étant donné un état initial, n’importe quel état futur peut être déterminé avec certitude (ex: le système solaire). Stochastique: Les états futurs du système peuvent seulement être estimés avec une certaine probabilité (ex: une file d’attente). Contrôlé: L’état du système est influencé par des actions prises par un agent (ex: la navigation d’un robot). Incontrôlé: Le temps est le seul paramètre (action) qui influence l’état du système (ex: la reconnaissance de la parole). Abdeslam BOULARIAS - 26 June 2006
3
Le problème du control des systèmes dynamiques
Deux opérations principales dans les systèmes dynamiques: La prédiction de l’état du système à l’instant t. Le control optimal: Maximiser les récompenses obtenues. Représentation de l’état du système: Énumération explicite des états : S0, S1, … Sn. (modèle génératif). Ex: MDPs, POMDPs… Historique des actions et des observations St= a0 o0 a1 o1 …at-1 ot-1. Ex: les modèles k-markoviens, Utile Suffix Memory (USM).. Abdeslam BOULARIAS - 26 June 2006
4
La représentation des états
Modèle génératif: L’état courant est mis à jour récursivement. Modèle historique: L’état courant est la séquence des actions et observations passées. Abdeslam BOULARIAS - 26 June 2006
5
La représentation des états
Dans la plupart des systèmes, les états ne sont que partiellement observables. Les POMDPs permettent de remédier à ce problème en utilisant la notion de l’état de croyance: une distribution de probabilité sur tous les états du système. Mais: Les algorithmes de planification sont NP-Difficiles à cause de la continuité de l’état de croyance. Un état est souvent l’effet de plusieurs facteurs (états), ce qui produit une explosion combinatoire de l’espace des états. Les états de croyance ne sont pas observables, donc non vérifiables. Limités aux environnements markoviens et stationnaires. En absence des paramètres du modèles, les algorithmes d’apprentissage sont peu efficaces. (problèmes des alias perceptuels, maximums locaux dans les méthodes par descente du gradient …) Les POMDPs manquent d’autonomie: À chaque nouvelle configuration de l’environnement il faut que l’utilisateur intervient pour spécifier les états. Abdeslam BOULARIAS - 26 June 2006
6
La représentation des états
Les modèle k-markoviens, le système est caractérisé par: Certains systèmes ne peuvent pas êtres décrits par aucun modèle k-markovien, avec une longueur d’historique k finie: La méthode USM (Utile Suffixe Memory) utilise une longueur variable de l’historique (non limitée). Dans l’exemple précédent, la profondeur de l’arbre USM grandit d’un niveau à chaque étape du temps. a2 o2 S1 S2 a1 a1 o1 S0 a2 o2 a2 S3 S4 a1 o1 Abdeslam BOULARIAS - 26 June 2006
7
La représentation prédictive des états
Idée de base: l’état actuel du système est représenté par un ensemble de réponses (observations) à un certain nombre de questions (actions). Exemple: État classique: (Rétroprojecteur en panne) ν (Télécommande défectueuse) ν (Coupure du courant électrique). Représentation prédictive: Action (appuyer sur le bouton ON de la télécommande) Observation (Le rétroprojecteur se mis en marche). Les prédictions peuvent êtres apprises, testées, et maintenues. Abdeslam BOULARIAS - 26 June 2006
8
La représentation prédictive des états
Un test t (une question, un futur) est: Dans un système non contrôlé: une séquence d’observations t=o1o2..ok. Dans un système contrôlé: une séquence t=a1o1a2o2.. akok d’observations obtenues depuis une séquence d’actions. Une réponse à un test est: Dans un système non contrôlé: P(t)=P(o1=o1 ..., ok=ok). Dans un système contrôlé: P(t)=P(o1=o1 ..., ok=ok / P(a1=a1 ..., ak=ak ). Un système est une distribution de probabilités sur tous les futurs possibles: t t t …. ti …. P(t0) P(t1) P(t2) …. P(ti) …. Abdeslam BOULARIAS - 26 June 2006
9
La représentation prédictive des états
… a1 o1 a2 o2 a3 o3 aj oj ak ok History Test Prédiction d’un test p(t|h) Abdeslam BOULARIAS - 26 June 2006
10
La représentation prédictive des états: Exemple
Un ensemble réduit de tests permet de décrire parfaitement l’état actuel du système, et donc les réponses de tous les autres tests. Dans l’exemple: t1=Gauche Mur t2=Droite Mur t3=Haut Mur t4=Bas Mur P(t1)=0.2, P(t2)=0.2, P(t3)=0.9, P(t4)=0.2. s1 s3 s4 s5 s6 s7 s8 s9 Abdeslam BOULARIAS - 26 June 2006
11
La représentation prédictive des états
Travaux précédents: Deterministic Finite State Automata: Rivest & Shapire, 1987. Rajouter le stochastique: Herbert Jaeger, 1999. Rajouter les actions: Littman, Sutton, & Singh, 2002 Un PSR est un ensemble fini de tests de base Q, tel que: En posant Si est linéaire alors: Abdeslam BOULARIAS - 26 June 2006
12
La représentation prédictive des états
Le modèle PSR est génératif car à chaque nouvelle action et observation, on mis à jours l’état courant du système. Donc les paramètres du modèle sont : Le vecteur initial p(Q/ Ф). Les vecteurs mao. Les vecteurs maoqi. Abdeslam BOULARIAS - 26 June 2006
13
La matrice de la dynamique d’un système
Cette matrice représente le système lui-même, et pas un modèle. Tout modèle correcte du système doit être en mesure de la générer. La dimension linéaire N d’un système est le rang de sa matrice de dynamique. t t t …. ti …. Q=p(qi/hj) N h0=Ф h1 h2 . hi p(t0) p(t0/h1) p(t0/h2) . p(t0/hi) p(t1) p(t1/h1) p(t2/h2) . p(ti/hi) Abdeslam BOULARIAS - 26 June 2006
14
La matrice de la dynamique d’un système
L’ordre de tous les tests possibles: Les propriétés des prédictions de chaque ligne de D. hi hi Abdeslam BOULARIAS - 26 June 2006
15
La représentation prédictive des états
Théorème: N’importe quel système dynamique de dimension finie N, peut être modélisé par un PSR à N tests. Preuve: Soit D la matrice du système, et Q la matrice formée par N vecteurs colonnes linéairement indépendants. Donc les tests du PSR correspondront aux N vecteur colonnes indépendants. Abdeslam BOULARIAS - 26 June 2006
16
Abdeslam BOULARIAS - 26 June 2006
POMDPs et PSRs Théorème: N’importe quel système dynamique représenté par un POMDP à N états, peut être représenté par un PSR avec au plus N tests, chacun de taille inférieure ou égale à N. Preuve: Dans les POMDPs, l’état actuel du système est représenté par le vecteur b. Suite à une action et une observation, la mise à jours de b se fait comme suit: La matrice U suivante, permet de représenter les probabilités des tests selon l’état actuel. t t t …. ti …. s0 sn P(t0/s0) …. P(ti/so) …. Abdeslam BOULARIAS - 26 June 2006
17
Abdeslam BOULARIAS - 26 June 2006
POMDPs et PSRs Preuve (Suite): Si dans la matrice U, les vecteurs de la sous-matrice L forment un noyau, alors ces vecteurs forment aussi un noyau dans la matrice de la dynamique D. En effet: Donc, les vecteurs de L peuvent être utilisés comme tests de base pour le PSR. Étant donné que la matrice U a n lignes, alors le nombre maximale de vecteurs linéairement indépendants ne peut pas dépasser n. Résultat: Le PSR construit à partir de la matrice U ne peut pas avoir plus de n tests. Abdeslam BOULARIAS - 26 June 2006
18
Abdeslam BOULARIAS - 26 June 2006
POMDPs et PSRs Preuve (Suite): Puisque toute extension d’un test linéairement dépendant produit un nouveau test qui est aussi linéairement dépendant, alors la taille d’un test ne peut pas dépasser le nombre maximum de tests, soit n. L’algorithme suivant (Littman, Sutton & Singh 2002) permet de construire un PSR à partir d’un POMDP. Abdeslam BOULARIAS - 26 June 2006
19
Abdeslam BOULARIAS - 26 June 2006
POMDPs et PSRs Théorème: Un POMDP a k états ne peut pas modéliser un système de dimension linéaire supérieure à k. Preuve: La matrice de la dynamique D du système représenté par un POMDP est produite comme suit: Donc le rang de D ne peux pas dépasser max(rang(B),rang(U))=k. De plus, Jaeger (1998) a présenté un système à dimension linéaire finie qui ne pas être représenté par aucun POMDP avec un nombre des états fini. Abdeslam BOULARIAS - 26 June 2006
20
Abdeslam BOULARIAS - 26 June 2006
Modèles n-markoviens Théorème: Un modèle n-markovien ne peut pas représenter un système ayant une dimension linéaire supérieure à k=(|A||O|)n. Preuve: Dans les modèles n-markoviens la probabilité P(t/h) ne dépend que du suffixe de h de taille inférieure ou égale à n. Puisque il y’a exactement (|A||O|)n historiques de taille inférieure ou égale à n, alors la matrice D de la dynamique du système contient au plus (|A||O|)n lignes différentes, donc son rang doit être inférieur ou égale à (|A||O|)n . Abdeslam BOULARIAS - 26 June 2006
21
Abdeslam BOULARIAS - 26 June 2006
Modèles n-markoviens Théorème: Certains systèmes à dimension finie ne peuvent pas être représentés par aucun modèle n-markovien. Preuve: Dans une matrice de rang fini, on peut avoir toutes les lignes différentes. Abdeslam BOULARIAS - 26 June 2006
22
Les PSRs Non-Linéaires
Les PSRs non linéaire peuvent être représentés par un nombre réduit de tests par rapport au nombre d’états des POMDPs. Exemple: Le problème de float-reset Les deux tests Reset1 et Float0Reset1 suffisent pour déterminer l’état actuel du système, car après chaque action Float depuis le dernier Reset, ils prennent des valeurs successives de la suite: … R=1 O=1 R=1 O=o R=1 O=o R=1 O=o R=1 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o Abdeslam BOULARIAS - 26 June 2006
23
Les PSRs Non-Linéaires
Le registre à décalage: Représenté en POMDPs avec 2n états. Avec les PSRs, il faut seulement n tests: D1,DD1, DDD1, DDDD1, … , DDDD ….D 1 n n-1 3 2 1 1 1 1 n fois Réduction exponentielle de l’espace des états Abdeslam BOULARIAS - 26 June 2006
24
Abdeslam BOULARIAS - 26 June 2006
Le modèle PSR Modèles k-markovien < POMDPs à k états < PSRs à k tests = Systèmes dynamiques de dimension k. Découverte des tests de base à partir des données expérimentales. Apprentissage des paramètres du PSR étant donné les tests de base et les données expérimentales. Abdeslam BOULARIAS - 26 June 2006
25
Apprentissage des tests de base
Si on dispose de la matrice D alors: Sinon, estimer les probabilités de la matrice par simulation Monte Carlo (avec la méthode suffix-history). t t t …. ti …. h0=Ф h1 h2 . hi p(t0) p(t0/h1) p(t0/h2) . p(t0/hi) p(t1) p(t1/h1) p(t2/h2) . p(ti/hi) Abdeslam BOULARIAS - 26 June 2006
26
Apprentissage des tests de base
Si on dispose de la matrice D alors: P(t2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P(t1) P(t2) ne dépend pas de P(t1) Abdeslam BOULARIAS - 26 June 2006
27
Apprentissage des tests de base
Si on dispose de la matrice D alors: P(t2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P(t1) P(t2) ne dépend pas de P(t1) Abdeslam BOULARIAS - 26 June 2006
28
Apprentissage des tests de base
Si on dispose de la matrice D alors: . . P(t2) . . . . . . . . . . . . . . . . P(t1) P(t2) dépend pas de P(t1) Abdeslam BOULARIAS - 26 June 2006
29
Apprentissage des tests de base
Si on dispose de la matrice D alors: . . P(t2) . . . . . . . . . . . . . . . . P(t1) P(t2) dépend pas de P(t1) Abdeslam BOULARIAS - 26 June 2006
30
Abdeslam BOULARIAS - 26 June 2006
PSRs et Options Une option est une macro-action: une politique pour atteindre un objectif intermédiare. Abdeslam BOULARIAS - 26 June 2006
31
Abdeslam BOULARIAS - 26 June 2006
PSRs et Options Un test avec les options est de la forme suivante: t=A1o1A2o2.. Akok Tel que o est une observation, et A est une action ou une option. Abdeslam BOULARIAS - 26 June 2006
32
Abdeslam BOULARIAS - 26 June 2006
PSRs et Options Exemple: Une grille de 9*9 nécessite (9-1)+(9-1)=16 tests sans options Abdeslam BOULARIAS - 26 June 2006
33
Abdeslam BOULARIAS - 26 June 2006
PSRs et Options Exemple: Une grille de 9*9 nécessite (3-1)+(3-1)+(3-1)=6 tests avec options Abdeslam BOULARIAS - 26 June 2006
34
Abdeslam BOULARIAS - 26 June 2006
Quelques questions Comment planifier avec les PSRs en connaissant seulement les tests de base, et sans connaitre les probabilités? Comment planifier et construire le modèle en même temps? Question théorique: C’est quoi le nombre minimal de tests nécessaires pour représenter un environnement donné? Abdeslam BOULARIAS - 26 June 2006
35
Abdeslam BOULARIAS - 26 June 2006
Références James, M. R., & Singh, S. (2004). Learning and discovery of predictive state representations in dynamical systems with reset. Proceedings of the 21st International Conference on Machine Learning (ICML) (pp. 719–726). Littman, M., Sutton, R. S., & Singh, S. (2002). Predictive representations of state. Advances in Neural Information Processing Systems 14 (NIPS) (pp. 1555–1561). MIT Press. McCracken, P., & Bowling, M. (2006). Online learning of predictive state representations. Advances in Neural Information Processing Systems 18 (NIPS). MIT Press. To appear. Singh, S., James, M. R., & Rudary, M. R. (2004). Predictive state representations: A new theory for modeling dynamical systems. Uncertainty in Artificial Intelligence: Proceedings of the Twentieth Conference (UAI) (pp. 512–519). Singh, S., Littman, M., Jong, N., Pardoe, D., & Stone, P.(2003). Learning predictive state representations. Proceedings of the Twentieth International Conference on Machine Learning (ICML) (pp. 712–719). Wiewiora, E. (2005). Learning predictive representations from a history. Proceedings of the 22nd International Conference on Machine Learning (ICML) (pp. 969–976). Wolfe, B., James, M. R., & Singh, S. (2005). Learning predictive state representations in dynamical systems without reset. Proceedings of the 22nd International Conference on Machine Learning (ICML) (pp. 985–992). Bowling, M., McCracken, P., James, M., Neufeld J., & Wilkinson, D. (2006). Learning predictive state representations using non-blind polices. ICML 2006 Abdeslam BOULARIAS - 26 June 2006
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.