La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

ACS et Séquences Comportementales en environnements non-markoviens Marc Métivier LIAP5 Université René Descartes 45 rue des Saints-Pères 75006 Paris.

Présentations similaires


Présentation au sujet: "ACS et Séquences Comportementales en environnements non-markoviens Marc Métivier LIAP5 Université René Descartes 45 rue des Saints-Pères 75006 Paris."— Transcription de la présentation:

1 ACS et Séquences Comportementales en environnements non-markoviens Marc Métivier LIAP5 Université René Descartes 45 rue des Saints-Pères Paris

2 Les Systèmes de Classeurs (1) Learning Classifier System (LCS) –Processus de décision dans lequel des règles (ou classeurs) sont en compétition pour diriger le système Format classique des classeurs (C : A, P) –C : partie conditions (chaînes de symboles) (dont le symbole particulier : "#" ou "DONT_CARE") –A : partie action (chaîne de symboles) –P : partie paramètres (qualité du classeur) Exemple de classeur : (01#0#1 : 01, 45)

3 Les Systèmes de Classeurs (2) Un LCS gère une population de classeurs A chaque cycle : –Calcul de l'intérêt de chaque action –Sélection d'une action –Renforcement des classeurs –Création de nouveau classeurs –Elimination de classeurs

4 ACS: Anticipatory Classifier System Présenté par Wolfgang Stolzmann (1997) Un Système de Classeurs (LCS) où la structure des classeurs est munie d'une Partie Effet ACS développe de manière latente un modèle de l'environnement

5 The ACS Framework Le classeur: (C - A - E M, q, r) –C : partie condition –A : partie action –E : partie effet –M : la marque –q : qualité d'anticipation –r : prédiction du gain

6 Le Problème des Ambiguïtés Perceptives Etats ambigus : états distincts de l'environnement perçus comme identique par le système La propriété de Markov : La condition selon laquelle un environnement de contient pas d'états ambigus

7 Séquences Comportementales Séquences Comportementales dans ACS Wolfgang Stolzmann,1999: ACS utilise des classeurs à séquence comportementale pour autoriser la planification d'actions dans les environnements non-markoviens Objectifs: –Une implémentation d'ACS avec Séquences Comportementales, mais sans planification –Une étude des différentes propriétés des environnements non- markoviens qui permettent l'utilisation des séquences comportementales

8 Classeurs à séquence comportementale Séquence comportementale : suite d'actions cl = (C cl - A cl - E cl M cl ) est un BS-classeur si: A cl = (α i ) i=1..s et 1 < s BSmax, où: α i sont des actions s est la taille de la séquence dans cl BSmax est le nombre maximum d'actions autorisé dans les séquences représentées dans le système

9 BS-ACS BS-ACS est le système résultant de l'ajout des séquences comportementales dans ACS Principe général : –les classeurs peuvent proposer des séquences comportementales au lieu de simple actions –Seules les séquences comportementales permettant d'éviter la prise de décision dans des états ambiguës sont développées Pourquoi ACS ? –L'anticipation perceptive permet la combinaison de plusieurs classeurs en un BS-classeur –Le mécanisme de marque permet de détecter les ambiguïtés

10 Sélection de comportement Sélection d'un classeur actif au lieu d'une action. Le système exécute la partie action du classeur actif. Méthode de sélection de classeur : –avec une probabilité p x : sélection aléatoire –sinon : sélection roulette-wheel avec pour force (r * q)

11 Création des BS-Classeurs Détection des états ambigus Si un classeur Cl anticipe correctement dans un état S mais est marqué avec S Alors S est considéré comme état ambigu Si un état ambigu est détecté : un nouveau BS-classeur est créé combinant le précédent classeur actif et le classeur Cl

12 Mise à jour des classeurs pendant l'exécutions d'une séquence Ensemble d'Apprentissage : classeurs du match set ayant la séquence courante comme partie action La mise à jour des qualité d'anticipation des classeurs n'est effectuée qu'à la fin de la séquence Evitement des séquences cycliques : Si un état est perçu plusieurs fois pendant l'exécution, la qualité de tous classeurs de l'ensemble d'apprentissage est pénalisée.

13 Expériences (1) Expériences dans trois environnements non-Markoviens de complexité croissante Deux types d'expériences –Tests d'apprentissage latent –Tests de maximisation du gain

14 Expériences (2) Une expérience est composée de problèmes Un problème –L'agent est placé aléatoirement dans une cellule vide –L'agent se déplace sous le contrôle de BS-ACS –Le problème se termine quand il atteint la nourriture L'agent perçoit ses huit cellules voisines

15 Expériences dans Woods100 Avec BSmax = 1, –Modèle de l'environnement incomplet –Performances de maximisation du gain en augmentation constante. Elles sont pires que celles d'un comportement totalement aléatoire. Avec BSmax = 2, –Modèle complet de l'environnement –Performances de maximisation du gain convergent vers 2.3

16 Expériences dans E1 Avec BSmax = 1, –Modèle de l'environnement incomplet –Performances de maximisation du gain convergent vers 4 Avec BSmax = 2, –Modèle complet de l'environnement –Performances de maximisation du gain convergent vers 3.3

17 Expériences dans E2 Apprentissage latent –Un BSmax de 3 est nécessaire pour développer un modèle complet de l'environnement. Maximisation du gain –Un BSmax de 2 est suffisant pour obtenir des performances stable autour de 6 –Avec BSmax de 3, les performances converges vers 6.3 –Ces performances restent deux fois supérieures à l'optimum absolu

18 Analyse des résultats dans E2 Peu de séquences sont utilisées pou atteindre la nourriture La politique classique consiste à longer les bords pour atteindre un coin Quel que soit BSmax (2 ou 3), la politique pour atteindre la nourriture est la même.

19 Conclusions Limites des séquences comportementales –Elles ne permettent pas de lever les ambiguïtés mais seulement de les éviter –Un efficacité dépendante de la position des états non- ambiguës Travail futur concernant ACS : –utiliser la capacité de détection des ambiguïtés de ACS pour développer des classeurs utilisant la mémoire des états passés


Télécharger ppt "ACS et Séquences Comportementales en environnements non-markoviens Marc Métivier LIAP5 Université René Descartes 45 rue des Saints-Pères 75006 Paris."

Présentations similaires


Annonces Google