Predictive State Representation

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Explorer un espace d’états
Fabrice Lauri, François Charpillet, Daniel Szer
Modèle des jeux et des mécanismes
Algorithmes et structures de données avancés
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
ACS et Séquences Comportementales en environnements non-markoviens
LI.A ça ressemble à ça… des fois…. Ou pas… Rappels et définition de lIA – Lidée quon sen fait – Jusquoù on va aujourdhui / dans le futur? – Petit Etat.
Modélisation des systèmes non linéaires par des SIFs
Chapitre VII :Commande par retour d’état
THÈME APPLICATION OF THE ARTIFICIAL NEURAL NETWORK FOR MODELING THE THERMAL BEHAVIOR OF BUILDING IN HUMID REGION Léopold Mbaa, Pierre Meukamb, Alexis.
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Christelle Scharff IFI 2004
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Structures de données linéaires
Quest-ce que la planification ? Planifier = Décider dun plan À partir dune base de connaissances sur les opérateurs possibles, on simule un grand nombre.
Méthodes de Biostatistique
Décodage des informations
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Optimisation non linéaire sans contraintes
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Espaces vectoriels Montage préparé par : S André Ross
Vancouver, SCÉÉ 1. Raîche et collab. (2008) Lutilisation des simulations informatisées pour la recherche en éducation Gilles Raîche, UQAM Komi Sodoké,
Le microscope à effet tunnel (STM) Appliqué aux métaux
IFT Complexité et NP-complétude
Courbes de Bézier.
Visualisation de surfaces décrites analytiquement
Vincent Thomas Christine Bourjot Vincent Chevrier
Michael Esfeld Université de Lausanne
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
GPA750 – Gestion de Projets
Modélisation des opérations Spécifier les transformations détat que lon attend des services de la machine Létat dune machine entièrement déterminée par.
Cours du 25 octobre Mardi le 24 octobre
Rappel... Valeurs propres et vecteurs propres. Définitions;
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
O-notation 1. Introduction 2. O-notation 3. Opérations 3.1 Somme 3.2 Produit 4. Règles générales 5. Exemple 6.Analyse des algorithmes récursifs 6.1 Dilatation.
Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Programmation linéaire en nombres entiers
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Algorithmes Branch & Bound
Programmation créative – Les vecteurs
Foued Mnasri Weal Rekik
IFT 702 – Planification en intelligence artificielle Planification par les processus de décision markoviens Froduald Kabanza Département d’informatique.
Structures de données avancées : Fichiers multidimensionnels Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI) zegour.esi.dz
Recherches locales et méta-heuristiques
Équilibre de satisfaction
Structures de données avancées : LH (Hachage linéaire) D. E ZEGOUR Institut National d ’Informatique.
Alignement de génomes. MUMmer (1999) Utilise l’arbre des suffixe. Basé sur le principe de « Maximum Unique Match » (MUM). Étant donné deux génomes A et.
1 Méthode de “Fast Marching” générique pour “Shape From Shading” E. Prados & S. Soatto RFIA 2006 janvier 2006, Tours.
Les réseaux de neurones à réservoir en traitement d’images
Trajectory Tree [1] Patrick Cinq-Mars. © Name – Month YEAR2 / TOTAL PAGES TTree: Tree-Based State Generalization with Temporally Abstract Actions William.
Recherche de motifs par projections aléatoires
Décision incertaine et logistique : Grille typologique
Hiver 2004SEG2501 Chapître 41 Chapître 4 SDL – structure d’un système et son comportement.
Programmation dynamique
Méthode des moindres carrés (1)
Structures de données avancées : MLH (Multidimensional linear hashing) D. E ZEGOUR Institut National d ’Informatique.
Structures de données avancées : MTH ( Multidimensional trie hashing ) D. E ZEGOUR Institut National d ’Informatique.
DIAGNOSTICABILITÉ DES SYSTEMES MULTIMODES ET DIAGNOSTICABILITÉ HYBRIDE
Programmation créative – Les vecteurs
A propos du “Minimal Controllability Problem” C. Commault Département Automatique Gipsa-Lab Grenoble –FRANCE 1 Séminaire GIPSA-Lab 22 octobre 2015.
A. Lebrun. Principe de base Dans la logique combinatoire, les sorties dépendent des différentes entrées et peuvent être calculées par l’algèbre de Boole.
LES POSTULATS DE LA MÉCANIQUE QUANTIQUE
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
Jean Marc Salotti - Institut de Cognitique de Bordeaux - GT4 GDR Robotique Modélisation du conditionnement pavlovien et du conditionnement opérant Jean.
MECANIQUE DES MILLIEUX CONTINUS ET THERMODYDAMIQUE SIMULATIONS.
Transcription de la présentation:

Predictive State Representation Abdeslam BOULARIAS Damas laboratory, Computer Science and Software Engineering Departement Laval University boularias@damas.ift.ulaval.ca

Le problème du control des systèmes dynamiques Un système dynamique est un système qui change d’état à travers le temps, selon des règles mathématiques fixes. Un système dynamique peut être: Déterministe: Étant donné un état initial, n’importe quel état futur peut être déterminé avec certitude (ex: le système solaire). Stochastique: Les états futurs du système peuvent seulement être estimés avec une certaine probabilité (ex: une file d’attente). Contrôlé: L’état du système est influencé par des actions prises par un agent (ex: la navigation d’un robot). Incontrôlé: Le temps est le seul paramètre (action) qui influence l’état du système (ex: la reconnaissance de la parole). Abdeslam BOULARIAS - 26 June 2006

Le problème du control des systèmes dynamiques Deux opérations principales dans les systèmes dynamiques: La prédiction de l’état du système à l’instant t. Le control optimal: Maximiser les récompenses obtenues. Représentation de l’état du système: Énumération explicite des états : S0, S1, … Sn. (modèle génératif). Ex: MDPs, POMDPs… Historique des actions et des observations St= a0 o0 a1 o1 …at-1 ot-1. Ex: les modèles k-markoviens, Utile Suffix Memory (USM).. Abdeslam BOULARIAS - 26 June 2006

La représentation des états Modèle génératif: L’état courant est mis à jour récursivement. Modèle historique: L’état courant est la séquence des actions et observations passées. Abdeslam BOULARIAS - 26 June 2006

La représentation des états Dans la plupart des systèmes, les états ne sont que partiellement observables. Les POMDPs permettent de remédier à ce problème en utilisant la notion de l’état de croyance: une distribution de probabilité sur tous les états du système. Mais: Les algorithmes de planification sont NP-Difficiles à cause de la continuité de l’état de croyance. Un état est souvent l’effet de plusieurs facteurs (états), ce qui produit une explosion combinatoire de l’espace des états. Les états de croyance ne sont pas observables, donc non vérifiables. Limités aux environnements markoviens et stationnaires. En absence des paramètres du modèles, les algorithmes d’apprentissage sont peu efficaces. (problèmes des alias perceptuels, maximums locaux dans les méthodes par descente du gradient …) Les POMDPs manquent d’autonomie: À chaque nouvelle configuration de l’environnement il faut que l’utilisateur intervient pour spécifier les états. Abdeslam BOULARIAS - 26 June 2006

La représentation des états Les modèle k-markoviens, le système est caractérisé par: Certains systèmes ne peuvent pas êtres décrits par aucun modèle k-markovien, avec une longueur d’historique k finie: La méthode USM (Utile Suffixe Memory) utilise une longueur variable de l’historique (non limitée). Dans l’exemple précédent, la profondeur de l’arbre USM grandit d’un niveau à chaque étape du temps. a2 o2 S1 S2 a1 a1 o1 S0 a2 o2 a2 S3 S4 a1 o1 Abdeslam BOULARIAS - 26 June 2006

La représentation prédictive des états Idée de base: l’état actuel du système est représenté par un ensemble de réponses (observations) à un certain nombre de questions (actions). Exemple: État classique: (Rétroprojecteur en panne) ν (Télécommande défectueuse) ν (Coupure du courant électrique). Représentation prédictive: Action (appuyer sur le bouton ON de la télécommande) Observation (Le rétroprojecteur se mis en marche). Les prédictions peuvent êtres apprises, testées, et maintenues. Abdeslam BOULARIAS - 26 June 2006

La représentation prédictive des états Un test t (une question, un futur) est: Dans un système non contrôlé: une séquence d’observations t=o1o2..ok. Dans un système contrôlé: une séquence t=a1o1a2o2.. akok d’observations obtenues depuis une séquence d’actions. Une réponse à un test est: Dans un système non contrôlé: P(t)=P(o1=o1 ..., ok=ok). Dans un système contrôlé: P(t)=P(o1=o1 ..., ok=ok / P(a1=a1 ..., ak=ak ). Un système est une distribution de probabilités sur tous les futurs possibles: t0 t1 t2 …. ti …. P(t0) P(t1) P(t2) …. P(ti) …. Abdeslam BOULARIAS - 26 June 2006

La représentation prédictive des états … a1 o1 a2 o2 a3 o3 aj oj ak ok History Test Prédiction d’un test p(t|h) Abdeslam BOULARIAS - 26 June 2006

La représentation prédictive des états: Exemple Un ensemble réduit de tests permet de décrire parfaitement l’état actuel du système, et donc les réponses de tous les autres tests. Dans l’exemple: t1=Gauche Mur t2=Droite Mur t3=Haut Mur t4=Bas Mur P(t1)=0.2, P(t2)=0.2, P(t3)=0.9, P(t4)=0.2. s1 s3 s4 s5 s6 s7 s8 s9 Abdeslam BOULARIAS - 26 June 2006

La représentation prédictive des états Travaux précédents: Deterministic Finite State Automata: Rivest & Shapire, 1987. Rajouter le stochastique: Herbert Jaeger, 1999. Rajouter les actions: Littman, Sutton, & Singh, 2002 Un PSR est un ensemble fini de tests de base Q, tel que: En posant Si est linéaire alors: Abdeslam BOULARIAS - 26 June 2006

La représentation prédictive des états Le modèle PSR est génératif car à chaque nouvelle action et observation, on mis à jours l’état courant du système. Donc les paramètres du modèle sont : Le vecteur initial p(Q/ Ф). Les vecteurs mao. Les vecteurs maoqi. Abdeslam BOULARIAS - 26 June 2006

La matrice de la dynamique d’un système Cette matrice représente le système lui-même, et pas un modèle. Tout modèle correcte du système doit être en mesure de la générer. La dimension linéaire N d’un système est le rang de sa matrice de dynamique. t0 t1 t2 …. ti …. Q=p(qi/hj) N h0=Ф h1 h2 . hi p(t0) p(t0/h1) p(t0/h2) . p(t0/hi) p(t1) p(t1/h1) p(t2/h2) . p(ti/hi) Abdeslam BOULARIAS - 26 June 2006

La matrice de la dynamique d’un système L’ordre de tous les tests possibles: Les propriétés des prédictions de chaque ligne de D. hi hi Abdeslam BOULARIAS - 26 June 2006

La représentation prédictive des états Théorème: N’importe quel système dynamique de dimension finie N, peut être modélisé par un PSR à N tests. Preuve: Soit D la matrice du système, et Q la matrice formée par N vecteurs colonnes linéairement indépendants. Donc les tests du PSR correspondront aux N vecteur colonnes indépendants. Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 POMDPs et PSRs Théorème: N’importe quel système dynamique représenté par un POMDP à N états, peut être représenté par un PSR avec au plus N tests, chacun de taille inférieure ou égale à N. Preuve: Dans les POMDPs, l’état actuel du système est représenté par le vecteur b. Suite à une action et une observation, la mise à jours de b se fait comme suit: La matrice U suivante, permet de représenter les probabilités des tests selon l’état actuel. t0 t1 t2 …. ti …. s0 sn P(t0/s0) …. P(ti/so) …. Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 POMDPs et PSRs Preuve (Suite): Si dans la matrice U, les vecteurs de la sous-matrice L forment un noyau, alors ces vecteurs forment aussi un noyau dans la matrice de la dynamique D. En effet: Donc, les vecteurs de L peuvent être utilisés comme tests de base pour le PSR. Étant donné que la matrice U a n lignes, alors le nombre maximale de vecteurs linéairement indépendants ne peut pas dépasser n. Résultat: Le PSR construit à partir de la matrice U ne peut pas avoir plus de n tests. Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 POMDPs et PSRs Preuve (Suite): Puisque toute extension d’un test linéairement dépendant produit un nouveau test qui est aussi linéairement dépendant, alors la taille d’un test ne peut pas dépasser le nombre maximum de tests, soit n. L’algorithme suivant (Littman, Sutton & Singh 2002) permet de construire un PSR à partir d’un POMDP. Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 POMDPs et PSRs Théorème: Un POMDP a k états ne peut pas modéliser un système de dimension linéaire supérieure à k. Preuve: La matrice de la dynamique D du système représenté par un POMDP est produite comme suit: Donc le rang de D ne peux pas dépasser max(rang(B),rang(U))=k. De plus, Jaeger (1998) a présenté un système à dimension linéaire finie qui ne pas être représenté par aucun POMDP avec un nombre des états fini. Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 Modèles n-markoviens Théorème: Un modèle n-markovien ne peut pas représenter un système ayant une dimension linéaire supérieure à k=(|A||O|)n. Preuve: Dans les modèles n-markoviens la probabilité P(t/h) ne dépend que du suffixe de h de taille inférieure ou égale à n. Puisque il y’a exactement (|A||O|)n historiques de taille inférieure ou égale à n, alors la matrice D de la dynamique du système contient au plus (|A||O|)n lignes différentes, donc son rang doit être inférieur ou égale à (|A||O|)n . Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 Modèles n-markoviens Théorème: Certains systèmes à dimension finie ne peuvent pas être représentés par aucun modèle n-markovien. Preuve: Dans une matrice de rang fini, on peut avoir toutes les lignes différentes. Abdeslam BOULARIAS - 26 June 2006

Les PSRs Non-Linéaires Les PSRs non linéaire peuvent être représentés par un nombre réduit de tests par rapport au nombre d’états des POMDPs. Exemple: Le problème de float-reset Les deux tests Reset1 et Float0Reset1 suffisent pour déterminer l’état actuel du système, car après chaque action Float depuis le dernier Reset, ils prennent des valeurs successives de la suite: 1 0.5 0.5 0.375 0.375 0.3125 0.3125… R=1 O=1 R=1 O=o R=1 O=o R=1 O=o R=1 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o f=0.5 O=o Abdeslam BOULARIAS - 26 June 2006

Les PSRs Non-Linéaires Le registre à décalage: Représenté en POMDPs avec 2n états. Avec les PSRs, il faut seulement n tests: D1,DD1, DDD1, DDDD1, … , DDDD ….D 1 n n-1 3 2 1 1 1 1 n fois Réduction exponentielle de l’espace des états Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 Le modèle PSR Modèles k-markovien < POMDPs à k états < PSRs à k tests = Systèmes dynamiques de dimension k. Découverte des tests de base à partir des données expérimentales. Apprentissage des paramètres du PSR étant donné les tests de base et les données expérimentales. Abdeslam BOULARIAS - 26 June 2006

Apprentissage des tests de base Si on dispose de la matrice D alors: Sinon, estimer les probabilités de la matrice par simulation Monte Carlo (avec la méthode suffix-history). t0 t1 t2 …. ti …. h0=Ф h1 h2 . hi p(t0) p(t0/h1) p(t0/h2) . p(t0/hi) p(t1) p(t1/h1) p(t2/h2) . p(ti/hi) Abdeslam BOULARIAS - 26 June 2006

Apprentissage des tests de base Si on dispose de la matrice D alors: P(t2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P(t1) P(t2) ne dépend pas de P(t1) Abdeslam BOULARIAS - 26 June 2006

Apprentissage des tests de base Si on dispose de la matrice D alors: P(t2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P(t1) P(t2) ne dépend pas de P(t1) Abdeslam BOULARIAS - 26 June 2006

Apprentissage des tests de base Si on dispose de la matrice D alors: . . P(t2) . . . . . . . . . . . . . . . . P(t1) P(t2) dépend pas de P(t1) Abdeslam BOULARIAS - 26 June 2006

Apprentissage des tests de base Si on dispose de la matrice D alors: . . P(t2) . . . . . . . . . . . . . . . . P(t1) P(t2) dépend pas de P(t1) Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 PSRs et Options Une option est une macro-action: une politique pour atteindre un objectif intermédiare. Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 PSRs et Options Un test avec les options est de la forme suivante: t=A1o1A2o2.. Akok Tel que o est une observation, et A est une action ou une option. Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 PSRs et Options Exemple: Une grille de 9*9 nécessite (9-1)+(9-1)=16 tests sans options Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 PSRs et Options Exemple: Une grille de 9*9 nécessite (3-1)+(3-1)+(3-1)=6 tests avec options Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 Quelques questions Comment planifier avec les PSRs en connaissant seulement les tests de base, et sans connaitre les probabilités? Comment planifier et construire le modèle en même temps? Question théorique: C’est quoi le nombre minimal de tests nécessaires pour représenter un environnement donné? Abdeslam BOULARIAS - 26 June 2006

Abdeslam BOULARIAS - 26 June 2006 Références James, M. R., & Singh, S. (2004). Learning and discovery of predictive state representations in dynamical systems with reset. Proceedings of the 21st International Conference on Machine Learning (ICML) (pp. 719–726). Littman, M., Sutton, R. S., & Singh, S. (2002). Predictive representations of state. Advances in Neural Information Processing Systems 14 (NIPS) (pp. 1555–1561). MIT Press. McCracken, P., & Bowling, M. (2006). Online learning of predictive state representations. Advances in Neural Information Processing Systems 18 (NIPS). MIT Press. To appear. Singh, S., James, M. R., & Rudary, M. R. (2004). Predictive state representations: A new theory for modeling dynamical systems. Uncertainty in Artificial Intelligence: Proceedings of the Twentieth Conference (UAI) (pp. 512–519). Singh, S., Littman, M., Jong, N., Pardoe, D., & Stone, P.(2003). Learning predictive state representations. Proceedings of the Twentieth International Conference on Machine Learning (ICML) (pp. 712–719). Wiewiora, E. (2005). Learning predictive representations from a history. Proceedings of the 22nd International Conference on Machine Learning (ICML) (pp. 969–976). Wolfe, B., James, M. R., & Singh, S. (2005). Learning predictive state representations in dynamical systems without reset. Proceedings of the 22nd International Conference on Machine Learning (ICML) (pp. 985–992). Bowling, M., McCracken, P., James, M., Neufeld J., & Wilkinson, D. (2006). Learning predictive state representations using non-blind polices. ICML 2006 Abdeslam BOULARIAS - 26 June 2006