Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parFifi Seguin Modifié depuis plus de 10 années
1
ACS et Séquences Comportementales en environnements non-markoviens
Marc Métivier LIAP5 Université René Descartes 45 rue des Saints-Pères 75006 Paris
2
Les Systèmes de Classeurs (1)
Learning Classifier System (LCS) Processus de décision dans lequel des règles (ou classeurs) sont en compétition pour diriger le système Format classique des classeurs (C : A, P) C : partie conditions (chaînes de symboles) (dont le symbole particulier : "#" ou "DONT_CARE") A : partie action (chaîne de symboles) P : partie paramètres (qualité du classeur) Exemple de classeur : (01#0#1 : 01, 45)
3
Les Systèmes de Classeurs (2)
Un LCS gère une population de classeurs A chaque cycle : Calcul de l'intérêt de chaque action Sélection d'une action Renforcement des classeurs Création de nouveau classeurs Elimination de classeurs Présentation des différents ensembles de classeurs: - Popuation - On sélectionne les classeurs concernés par la perception courante -- Match Set : à chaque cycle, donc pour perception particulière, il s'agit du sous-ensemble de classeur de la population dont les conditions s'apparient avec la perception actuelle. En quelque sorte il s'agit des l'ensemble des classeurs ayant le droit de s'exprimer dans le choix de l'action pour ce cycle. - Détermination d'une valeur d'intérêt pour chaque action. - Sélection de l'action en fonction de ces valeures (on notera deux manière : l'exploration et l'exploitation) - On sélectionne les classeurs dont l'action est celle exécutée par le système - Action Set : à chaque cycle, il s'agit du sous-ensemble de classeurs du match set dont l'action correspond à celle finalement exécuté. Ce sont les classeurs qui auront participés à l'action et donc qui seront mis à jour en fonction du renforcement. A chaque cycle, les seuls classeurs mis à jours sont les classeurs de l'action set. C'est normal car ce sont ceux dont l'action à été testée.
4
ACS: Anticipatory Classifier System
Présenté par Wolfgang Stolzmann (1997) Un Système de Classeurs (LCS) où la structure des classeurs est munie d'une Partie Effet ACS développe de manière latente un modèle de l'environnement
5
The ACS Framework Le classeur: (C - A - E M, q, r)
C : partie condition A : partie action E : partie effet M : la marque q : qualité d'anticipation r : prédiction du gain
6
Le Problème des Ambiguïtés Perceptives
Etats ambigus : états distincts de l'environnement perçus comme identique par le système La propriété de Markov : La condition selon laquelle un environnement de contient pas d'états ambigus Situation = state
7
Séquences Comportementales
Séquences Comportementales dans ACS Wolfgang Stolzmann,1999: ACS utilise des classeurs à séquence comportementale pour autoriser la planification d'actions dans les environnements non-markoviens Objectifs: Une implémentation d'ACS avec Séquences Comportementales, mais sans planification Une étude des différentes propriétés des environnements non-markoviens qui permettent l'utilisation des séquences comportementales
8
Classeurs à séquence comportementale
Séquence comportementale : suite d'actions cl = (Ccl - Acl - Ecl Mcl) est un BS-classeur si: Acl = (αi)i=1..s et 1 < s BSmax, où: αi sont des actions s est la taille de la séquence dans cl BSmax est le nombre maximum d'actions autorisé dans les séquences représentées dans le système
9
BS-ACS BS-ACS est le système résultant de l'ajout des séquences comportementales dans ACS Principe général : les classeurs peuvent proposer des séquences comportementales au lieu de simple actions Seules les séquences comportementales permettant d'éviter la prise de décision dans des états ambiguës sont développées Pourquoi ACS ? L'anticipation perceptive permet la combinaison de plusieurs classeurs en un BS-classeur Le mécanisme de marque permet de détecter les ambiguïtés
10
Sélection de comportement
Sélection d'un classeur actif au lieu d'une action. Le système exécute la partie action du classeur actif. Méthode de sélection de classeur : avec une probabilité px: sélection aléatoire sinon : sélection roulette-wheel avec pour force (r * q) Rmq: - px : exploration probability - egreedy classiquement utilisé mais inadapté à la possibilité de choix d’une séquence comportementale note: une séquence aléatoire pourrait être choisie mais ça impliquerit beaucoup de choix (somme de n¨i pour i=1..Bsmax) De plus, permet le choix de séquence non présente dans le système ce qui n’est pas souhaitable car le but n’est pas de développer tout les BS-classifiers possibles.
11
Création des BS-Classeurs
Détection des états ambigus Si un classeur Cl anticipe correctement dans un état S mais est marqué avec S Alors S est considéré comme état ambigu Si un état ambigu est détecté : un nouveau BS-classeur est créé combinant le précédent classeur actif et le classeur Cl
12
Mise à jour des classeurs pendant l'exécutions d'une séquence
Ensemble d'Apprentissage : classeurs du match set ayant la séquence courante comme partie action La mise à jour des qualité d'anticipation des classeurs n'est effectuée qu'à la fin de la séquence Evitement des séquences cycliques : Si un état est perçu plusieurs fois pendant l'exécution, la qualité de tous classeurs de l'ensemble d'apprentissage est pénalisée.
13
Expériences (1) Expériences dans trois environnements non-Markoviens de complexité croissante Deux types d'expériences Tests d'apprentissage latent Tests de maximisation du gain Rapport au travail de Stolzmann présenté en 1999: Pourquoi le T-maze n’a-t-il pas été utilisé ? Pourquoi un environnement markovien ? Faut-il parler des environnements nouveaux ? Pourquoi deux environnment nouveaux ? Que souhaite-t-on tester par nos expériences ? - Le but est de tester les perforances générales du système (donc principalement la capacité à optimiser la fonction de gain) => les exp d’app latent servent à mieux comprendre le comportement du système. En effet, le principe d’ACS repose sur la construction d’un modèle environnemental. Il est important d’étudier celui-ci pour comprendre ses capacités d’optimisation. Caractéristiques des expériences de type “Woods” Parler des diffréents types de sélection action/classifier
14
Expériences (2) Une expérience est composée de problèmes Un problème
L'agent est placé aléatoirement dans une cellule vide L'agent se déplace sous le contrôle de BS-ACS Le problème se termine quand il atteint la nourriture L'agent perçoit ses huit cellules voisines
15
Expériences dans Woods100
Avec BSmax = 1, Modèle de l'environnement incomplet Performances de maximisation du gain en augmentation constante. Elles sont pires que celles d'un comportement totalement aléatoire. Avec BSmax = 2, Modèle complet de l'environnement Performances de maximisation du gain convergent vers 2.3
16
Expériences dans E1 Avec BSmax = 1, Avec BSmax = 2,
Modèle de l'environnement incomplet Performances de maximisation du gain convergent vers 4 Avec BSmax = 2, Modèle complet de l'environnement Performances de maximisation du gain convergent vers 3.3
17
Expériences dans E2 Apprentissage latent Maximisation du gain
Un BSmax de 3 est nécessaire pour développer un modèle complet de l'environnement. Maximisation du gain Un BSmax de 2 est suffisant pour obtenir des performances stable autour de 6 Avec BSmax de 3, les performances converges vers 6.3 Ces performances restent deux fois supérieures à l'optimum absolu
18
Analyse des résultats dans E2
Peu de séquences sont utilisées pou atteindre la nourriture La politique classique consiste à longer les bords pour atteindre un coin Quel que soit BSmax (2 ou 3), la politique pour atteindre la nourriture est la même.
19
Conclusions Limites des séquences comportementales
Elles ne permettent pas de lever les ambiguïtés mais seulement de les éviter Un efficacité dépendante de la position des états non-ambiguës Travail futur concernant ACS : utiliser la capacité de détection des ambiguïtés de ACS pour développer des classeurs utilisant la mémoire des états passés
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.