ACS et Séquences Comportementales en environnements non-markoviens

Slides:



Advertisements
Présentations similaires
Module 5 : Implémentation de l'impression
Advertisements

Soutenance du stage de DEA.
Chaîne de traitement Notion de plot
Managing Domain Knowledge and Multiple Models with Boosting Peng Zang – Charles Isbell.
Efficient Simplification of Point-Sampled Surfaces
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
GEF 435 Principes des systèmes d’exploitation
Conception de Programmes Evolutifs Pré Soutenance de TER Année Encadrants : Cathy Escazut et Michel Gautero Auteurs: Paul-Kenji Cahier Sylvain.
CHAP 1. Les critères de décision en univers non mesurable
PRESENTATION DU SITE : Création du compte « administrateur » M.ANDRAL
Méthodes de simulation
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
CAO & ASSERVISSEMENTS Cette présentation a été faite lors du séminaire inter-académique de Limoges, le 07 octobre Elle montre une utilisation possible.
Systèmes Experts implémentation en Prolog
Chap 1 Grammaires et dérivations.
MasterMind en spécialité i.s.n.
Gouvernance.
Traitement des erreurs en Java
Utilisation des modulettes informatiques et manuelles
Prévisions des ventes :
ELE6207 Commande de systèmes robotiques
Application des algorithmes génétiques
5. Algorithme à estimation de distribution
La recherche-action existentielle (introduction)
Behavioral economics Economie comportementale Claudia Senik Université Paris-4 Sorbonne Paris School of Economics
جامعــــــة محمد خيضــــــــــــر بــســكــــــــــــرة
LES PRINCIPES D’ENTRAINEMENT
Algorithmes Branch & Bound
Méthode des k plus proches voisins
Ergonomie et facteurs humains
DataLab® Toute la connaissance client en quelques minutes
Introduction - Modèle Discret – Modèle Continu - Algorithmes - Conclusion
Module 4 : Création et gestion de comptes d'utilisateur
Création et gestion de comptes d'utilisateur
Saint Egrève, 19 Juillet 2007http://biobimo.eurecom.fr1 BIOBIMO BIOmétrie BImodale sur MObile Réunion davancement 19 Juillet 2007, Saint-Egrève.
Interfaces : comment classifier ?
LES ARBRES IUP 2 Génie Informatique
Séance 13.1 Agent de changement (modèle de Dave Ulrich, 1997)
LA VALEUR ÉCONOMIQUE AJOUTÉE (VÉA)
Vincent Thomas Christine Bourjot Vincent Chevrier
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
ORCHIDEE. OR…DE. Outil de Remise … de DEvoirs … OR.HIDE. Outil de Remise … à Horaires Imposés de DEvoirs …
Analyse des Algorithmes
Dév. d’application interactive III Recherche de chemin.
Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.

Agents intelligents.  L’IA peut être envisagée de différentes manières. Les deux questions essentielles qu’ il convient de se poser sont: Vous intéressez-vous.
4. Enquête sur l’Abus de Position Dominante
Guy Braun- Rc-Coupvray.fr
Optimisation par les algorithmes génétiques
ATNoSFERES : Construction de contrôleurs pour envts non markoviens par algorithme génétique Samuel Landau, Sébastien Picault (équipe MIRIAD) Pierre.
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Tables et Procédures de décompression
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
Marquez cette valeur sur le diagramme à points de la question 6. La moyenne réelle des nombres de lettres par mots dans la population de l'ensemble des.
Les processus métiers : concepts, modèles et systèmes Claude Godart Université de lorraine. Esstin
LES PRINCIPES DE LA THERMODYNAMIQUE
Cours LCS N°4 Présenté par Mr: LALLALI
Structures de données avancées : LH (Hachage linéaire) D. E ZEGOUR Institut National d ’Informatique.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Une nouvelle approche pour la promotion de l’agriculture européenne Luciano Trentini Présidente du Groupe Consultatif Promotion de la Commission Européenne.
ANNEE UNIVERSITAIRE :2010/2011
Visualisation des flots optiques en 3D
Systèmes d’exploitation Processus conclusion Modèle conceptuel de processus Pour masquer les effets des interruptions, les SE fournissent un modèle conceptuel.
IFT 703 Informatique cognitive ACT-R Modèle symbolique et perceptuel
1 Analyse des tâches en ergonomie Chapitre 3 – Évaluation des performances 1 – La notion de performance 2 – Les mesures de la performance.
Human Side TM Europe La performance par les hommes Human Side ___________________________________________.
 Il existe des moyens pour déplacer des objets que nous pouvons pas faire avec nos mains seulement.  Il en existe 6 types : › Le levier › Le plan incliné.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

ACS et Séquences Comportementales en environnements non-markoviens Marc Métivier LIAP5 Université René Descartes 45 rue des Saints-Pères 75006 Paris

Les Systèmes de Classeurs (1) Learning Classifier System (LCS) Processus de décision dans lequel des règles (ou classeurs) sont en compétition pour diriger le système Format classique des classeurs (C : A, P) C : partie conditions (chaînes de symboles) (dont le symbole particulier : "#" ou "DONT_CARE") A : partie action (chaîne de symboles) P : partie paramètres (qualité du classeur) Exemple de classeur : (01#0#1 : 01, 45) metivier@math-info.univ-paris5.fr

Les Systèmes de Classeurs (2) Un LCS gère une population de classeurs A chaque cycle : Calcul de l'intérêt de chaque action Sélection d'une action Renforcement des classeurs Création de nouveau classeurs Elimination de classeurs Présentation des différents ensembles de classeurs: - Popuation - On sélectionne les classeurs concernés par la perception courante -- Match Set : à chaque cycle, donc pour perception particulière, il s'agit du sous-ensemble de classeur de la population dont les conditions s'apparient avec la perception actuelle. En quelque sorte il s'agit des l'ensemble des classeurs ayant le droit de s'exprimer dans le choix de l'action pour ce cycle. - Détermination d'une valeur d'intérêt pour chaque action. - Sélection de l'action en fonction de ces valeures (on notera deux manière : l'exploration et l'exploitation) - On sélectionne les classeurs dont l'action est celle exécutée par le système - Action Set : à chaque cycle, il s'agit du sous-ensemble de classeurs du match set dont l'action correspond à celle finalement exécuté. Ce sont les classeurs qui auront participés à l'action et donc qui seront mis à jour en fonction du renforcement. A chaque cycle, les seuls classeurs mis à jours sont les classeurs de l'action set. C'est normal car ce sont ceux dont l'action à été testée. metivier@math-info.univ-paris5.fr

ACS: Anticipatory Classifier System Présenté par Wolfgang Stolzmann (1997) Un Système de Classeurs (LCS) où la structure des classeurs est munie d'une Partie Effet ACS développe de manière latente un modèle de l'environnement metivier@math-info.univ-paris5.fr

The ACS Framework Le classeur: (C - A - E  M, q, r) C : partie condition A : partie action E : partie effet M : la marque q : qualité d'anticipation r : prédiction du gain metivier@math-info.univ-paris5.fr

Le Problème des Ambiguïtés Perceptives Etats ambigus : états distincts de l'environnement perçus comme identique par le système La propriété de Markov : La condition selon laquelle un environnement de contient pas d'états ambigus Situation = state metivier@math-info.univ-paris5.fr

Séquences Comportementales Séquences Comportementales dans ACS Wolfgang Stolzmann,1999: ACS utilise des classeurs à séquence comportementale pour autoriser la planification d'actions dans les environnements non-markoviens Objectifs: Une implémentation d'ACS avec Séquences Comportementales, mais sans planification Une étude des différentes propriétés des environnements non-markoviens qui permettent l'utilisation des séquences comportementales metivier@math-info.univ-paris5.fr

Classeurs à séquence comportementale Séquence comportementale : suite d'actions cl = (Ccl - Acl - Ecl  Mcl) est un BS-classeur si: Acl = (αi)i=1..s et 1 < s  BSmax, où: αi sont des actions s est la taille de la séquence dans cl BSmax est le nombre maximum d'actions autorisé dans les séquences représentées dans le système metivier@math-info.univ-paris5.fr

BS-ACS BS-ACS est le système résultant de l'ajout des séquences comportementales dans ACS Principe général : les classeurs peuvent proposer des séquences comportementales au lieu de simple actions Seules les séquences comportementales permettant d'éviter la prise de décision dans des états ambiguës sont développées Pourquoi ACS ? L'anticipation perceptive permet la combinaison de plusieurs classeurs en un BS-classeur Le mécanisme de marque permet de détecter les ambiguïtés metivier@math-info.univ-paris5.fr

Sélection de comportement Sélection d'un classeur actif au lieu d'une action. Le système exécute la partie action du classeur actif. Méthode de sélection de classeur : avec une probabilité px: sélection aléatoire sinon : sélection roulette-wheel avec pour force (r * q) Rmq: - px : exploration probability - egreedy classiquement utilisé mais inadapté à la possibilité de choix d’une séquence comportementale note: une séquence aléatoire pourrait être choisie mais ça impliquerit beaucoup de choix (somme de n¨i pour i=1..Bsmax) De plus, permet le choix de séquence non présente dans le système ce qui n’est pas souhaitable car le but n’est pas de développer tout les BS-classifiers possibles. metivier@math-info.univ-paris5.fr

Création des BS-Classeurs Détection des états ambigus Si un classeur Cl anticipe correctement dans un état S mais est marqué avec S Alors S est considéré comme état ambigu Si un état ambigu est détecté : un nouveau BS-classeur est créé combinant le précédent classeur actif et le classeur Cl metivier@math-info.univ-paris5.fr

Mise à jour des classeurs pendant l'exécutions d'une séquence Ensemble d'Apprentissage : classeurs du match set ayant la séquence courante comme partie action La mise à jour des qualité d'anticipation des classeurs n'est effectuée qu'à la fin de la séquence Evitement des séquences cycliques : Si un état est perçu plusieurs fois pendant l'exécution, la qualité de tous classeurs de l'ensemble d'apprentissage est pénalisée. metivier@math-info.univ-paris5.fr

Expériences (1) Expériences dans trois environnements non-Markoviens de complexité croissante Deux types d'expériences Tests d'apprentissage latent Tests de maximisation du gain Rapport au travail de Stolzmann présenté en 1999: Pourquoi le T-maze n’a-t-il pas été utilisé ? Pourquoi un environnement markovien ? Faut-il parler des environnements nouveaux ? Pourquoi deux environnment nouveaux ? Que souhaite-t-on tester par nos expériences ? - Le but est de tester les perforances générales du système (donc principalement la capacité à optimiser la fonction de gain) => les exp d’app latent servent à mieux comprendre le comportement du système. En effet, le principe d’ACS repose sur la construction d’un modèle environnemental. Il est important d’étudier celui-ci pour comprendre ses capacités d’optimisation. Caractéristiques des expériences de type “Woods” Parler des diffréents types de sélection action/classifier metivier@math-info.univ-paris5.fr

Expériences (2) Une expérience est composée de problèmes Un problème L'agent est placé aléatoirement dans une cellule vide L'agent se déplace sous le contrôle de BS-ACS Le problème se termine quand il atteint la nourriture L'agent perçoit ses huit cellules voisines metivier@math-info.univ-paris5.fr

Expériences dans Woods100 Avec BSmax = 1, Modèle de l'environnement incomplet Performances de maximisation du gain en augmentation constante. Elles sont pires que celles d'un comportement totalement aléatoire. Avec BSmax = 2, Modèle complet de l'environnement Performances de maximisation du gain convergent vers 2.3 metivier@math-info.univ-paris5.fr

Expériences dans E1 Avec BSmax = 1, Avec BSmax = 2, Modèle de l'environnement incomplet Performances de maximisation du gain convergent vers 4 Avec BSmax = 2, Modèle complet de l'environnement Performances de maximisation du gain convergent vers 3.3 metivier@math-info.univ-paris5.fr

Expériences dans E2 Apprentissage latent Maximisation du gain Un BSmax de 3 est nécessaire pour développer un modèle complet de l'environnement. Maximisation du gain Un BSmax de 2 est suffisant pour obtenir des performances stable autour de 6 Avec BSmax de 3, les performances converges vers 6.3 Ces performances restent deux fois supérieures à l'optimum absolu metivier@math-info.univ-paris5.fr

Analyse des résultats dans E2 Peu de séquences sont utilisées pou atteindre la nourriture La politique classique consiste à longer les bords pour atteindre un coin Quel que soit BSmax (2 ou 3), la politique pour atteindre la nourriture est la même. metivier@math-info.univ-paris5.fr

Conclusions Limites des séquences comportementales Elles ne permettent pas de lever les ambiguïtés mais seulement de les éviter Un efficacité dépendante de la position des états non-ambiguës Travail futur concernant ACS : utiliser la capacité de détection des ambiguïtés de ACS pour développer des classeurs utilisant la mémoire des états passés metivier@math-info.univ-paris5.fr