ATNoSFERES : Construction de contrôleurs pour envts non markoviens par algorithme génétique Samuel Landau, Sébastien Picault (équipe MIRIAD) Pierre.

Slides:



Advertisements
Présentations similaires
Explorer un espace d’états
Advertisements

Soutenance du stage de DEA.
Fabrice Lauri, François Charpillet, Daniel Szer
Conception Préliminaire de Manipulateurs Mobiles et Génération de Consignes Évolutionnaires : une Méthodologie pour Intégrer la Commande dans l’Évaluation.
Cours n°2M2. IST-IE (S. Sidhom) UE 303 Promo. M2 IST-IE 2005/06 Conception dun système d'information multimédia Architecture trois-tiers : PHP/MySQL &
Yann Chevaleyre et Jean-Daniel Zucker
Cosmos/Works Les chargements type PALIER
ACS et Séquences Comportementales en environnements non-markoviens
LI.A ça ressemble à ça… des fois…. Ou pas… Rappels et définition de lIA – Lidée quon sen fait – Jusquoù on va aujourdhui / dans le futur? – Petit Etat.
Tests et Validation du logiciel
Optimisation globale non déterministe
Introduction à l’Intelligence Artificielle
Structures de données linéaires
Application des algorithmes génétiques
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
Chapitre 2 : La fonction de transfert
Programmation fonctionnelle Le langage LISP
1 Exercice : longueur d’un mot est-elle paire ?  Test fonctionnel  Quel ensemble de valeur choisir / spécification  Test structurel  Soit le code d’un.
SCIENCES DE L ’INGENIEUR
Définir des caractéristiques chercher de linformation? sur un support électronique? Élaborer un cadre théorique pour comprendre les enjeux et proposer.
Les réseaux de neurones
Universté de la Manouba
Vincent Thomas Christine Bourjot Vincent Chevrier
Recherche Opérationnelle
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Partie II Sémantique.
Programmation logique Le Langage PROLOG
Structures de données IFT-2000 Abder Alikacem La récursivité Semaine 5 Département dinformatique et de génie logiciel Édition Septembre 2009.
La génétique statistique
Structures de données IFT-2000 Abder Alikacem La récursivité Département d’informatique et de génie logiciel Édition Septembre 2009.
Langage de modélisation graphique de systèmes
Introduction à la programmation orientée objets
IA IPR Académie de Rennes L’algorithmique une nouveauté ? Regard sur les programmes et les ressources ; quelques pistes.
Introduction Objet de la programmation mathématique, construction d'un modèle mathématique, problème général de programmation mathématique et classification,
Jacques Nicolas INRIA /IRISA Rennes
Présentation de la méthode des Eléments Finis
S. AUGUSTINE B. GAGNAIRE C. ADAM-GUILLERMIN S.A.L.M. KOOIJMAN
C.Moronval IA.IPR EPS 28 Janvier 2010 La notion de Compétence.
Graphes 1. Introduction 2. Définition 3. Représentation mémoire
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
Dév. d’application interactive III Recherche de chemin.
Banc d’essai pour un circuit combinatoire
les méthodes de recherche locale
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
Rencontre des écoles ciblées du secondaire 22 mars 2004
Une pédagogie de l’activité pour développer des compétences transversales Claire Herviou Alain Taurisson Juin 2003.
Etude des systèmes Notion de système.
Pascale MULARD BIANCO, Jean-Michel RUIZ Professeurs à l ’EGIM
Optimisation par les algorithmes génétiques
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Probabilités et Statistiques
1 Licence d’informatique Algorithmique des graphes Cours 7 : Graphes valués Chemins de valeur optimale Algorithme de Bellmann-Kalaba Utilisation de ce.
Intelligence Artificielle
Travaux Pratiques Optimisation Combinatoire
Fonctions avancées et graphiques
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Optimisation pour la Conception de Systèmes Embarqués
Soutenance de Stage DEA / DESS
Université Farhat Abbas_setif
Présenté par : ABED Djemaa; BAKHOUIA Roqiya.
Chapitre 2 Rappels objet et Présentation des diagrammes UML
Chapitre 2 Rappels objet et Présentation des diagrammes UML
Quelques notions utiles
Informatique et Sciences du Numérique
2 Cadre du TER Projet Algol But du TER Conception et étude d’algorithmes de traitement de données dans un satellite d’observation de la voûte spatiale.
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Évolution de second ordre dans un algorithme évolutionnaire V. Lefort
Développement du jeu Ricochet Robots pour Android
Titre de la diapositive Les systèmes de classifieurs une brève introduction Stéphane Sanchez IRIT-UT1 Equipe Synthèse d’Images et Réalité Virtuelle (SIRV)
Transcription de la présentation:

ATNoSFERES : Construction de contrôleurs pour envts non markoviens par algorithme génétique Samuel Landau, Sébastien Picault (équipe MIRIAD) Pierre Gérard, Olivier Sigaud (AnimatLab)

Problématique Construire une architecture de contrôle produisant un comportement adapté à un environnement non markovien Exemple : trouver de la nourriture dans un labyrinthe

Problème : le « perceptual aliazing » « Perceptual aliazing » : des situations perceptives identiques requièrent des actions différentes action = fonction du contexte  ETATS INTERNES

Questions Comment construire, par évolution, un comportement : – « adapté » (résolvant de façon satisfaisante le problème) ? – « intelligible » (exprimable comme un ensemble de règles) ? – « optimal » (menant le plus rapidement au but) ? – « économe » (de complexité minimale pour résoudre le problème) ? nb règles / spécificité vs. généralité ?

Approches évolutionnistes classiques (1) Algorithmes génétiques (Holland 75) Support héréditaire (génotype) Paramètres (phénotype) dans comportement prédéfini 51 2.78 faux Continuité génotype/phénotype et parents/enfants Pauvreté comportementale

Approches évolutionnistes classiques (2) Programmation génétique (Koza 92) IF > x – 3 y W Fd 10 Support héréditaire (génotype) Exécution (phénotype) Conception automatique de comportements complexes Contraintes structurelles fortes

ATNoSFERES : interprétation par pile Les variations affectent le contenu et la taille de la chaîne

Construction d’un graphe étiqueté (1) Interpréteur connect dupNode c1? a1! node Pile ATN (graphe étiqueté orienté) <vide>

Construction d’un graphe étiqueté (2) Interpréteur connect dupNode c1? a1! 1 Pile ATN 1

Construction d’un graphe étiqueté (3) Interpréteur a1! connect dupNode c1? 1 Pile ATN 1

Construction d’un graphe étiqueté (4) Interpréteur c1? a1! connect dupNode 1 Pile ATN 1

Construction d’un graphe étiqueté (5) Interpréteur 1 c1? a1! connect 1 Pile ATN 1

Construction d’un graphe étiqueté (6) Interpréteur 1 1 Pile 1 c1? a1! ATN

ATNoSFERES : Utilisation du graphe Etats intégrés dans l’architecture

Les systèmes de classeurs (LCS) • Systèmes à base de règles + apprentissage • Un classeur = – un vecteur spécifiant les valeurs des conditions : 0 (faux) / 1 (vrai) / # (indifférent) – action à effectuer si les conditions sont vérifiées – force du classeur (modifiée par RL) • Application d’un A.G. à la population de classeurs – généralisation : remplacement de 0/1 par # – spécialisation : replacement de # par 0/1 • Ajout d’états internes (XCSM, Lanzi) = conditions/actions « internes »

Utilisation des systèmes de classeurs + conditions internes (« état » de l’agent) + actions internes (changement d’état)

Sous-optimalité : la longue marche vers la perfection • Solution trouvée : marche très bien (98% du score théorique maximal), mais moins bien que XCSM • Solution trop simple ? • Coût structurel du test du coin S8 : 1 nœud, au moins 2 arcs + des conditions/actions appropriées = trop élevé • Problème « classique » de minimum local dans les A.G. !

Quelques avantages d’ATNoSFERES • La « mémoire » (états internes) fait partie du comportement (structure) Le nb de nœuds (=d’états), d’arcs (=de règles) n’a pas à être fixé a priori (adaptation taille génome) • Lisibilité des comportements directement donnés par le parcours du graphe en fonction des conditions environnementales (dans un LCS : – règles très nombreuses – force associée à chaque règle – suivi des changements d’états fastidieux)

Quelques inconvénients… • Force des classeurs (LCS) : apprise par renforcement  compensé par la définition de la fonction de fitness • La question de la généralisation : – sur les conditions / actions : implicite (seules les conditions pertinentes et les actions nécessaires sont présentes) – sur les états internes : INEXISTANT dans le modèle initial  fonction de la « simplicité » de la règle et de son utilité mais… pas pertinent dans le cas d’environnements non-markoviens

Faciliter la généralisation ? • Ajout d’un token de connexion opérant sur tous les nœuds présents dans la pile et leur rajoutant un même arc bouclé 1 c1? a1! 2 c1? a1! 4 3 2 4 c1? a1! c1? 3 c1? a1! a1! 1 Pile

Expériences : généraliser pour survivre • La généralisation est quasiment indispensable • Effet très positif du nouveau token • Effets également positifs sur le labyrinthe initial = convergence plus fréquente vers la bonne solution

Plus précisément... • En fait, dans le labyrinthe le token de généralisation est utilisé lorsqu’un seul nœud est présent dans la pile  C’est un « raccourci » permettant d’appliquer une règle sans changement d’état … et non la définition d’une règle valable quel que soit l’état !

Résultats : rien / règles générales / règles sans changement d’état

Conclusions • Nuancer l’utilité de la généralisation pour les problèmes non markoviens • Les avantages d’une représentation structurelle des états internes se paie du risque de sous-optimalité • Idée : rajouter de l’apprentissage sur une base évolutionniste

Algorithme évolutionniste : principe Variations aléatoires soumises à une sélection Forme d’apprentissage non supervisé Environnement (Sélection) Evolution de la population (reproduction avec variations) Population (variations)

Eléments de réponse 1. Objectif : algorithmes évolutionnistes pour construire des comportements d’agents (ATNoSFERES)  comparaison avec autres approches (apprentissage) 2. Architecture contrainte par 5° (intelligibilité)  symbolique + nécessité d’intégrer des états internes 4. Complexité ?  ajustée par l’apprentissage • nombre d’états internes • nombre de « règles » / spécificité vs. généralité + lien entre optimalité et complexité ? 1/ Question = est-ce vrai pour tout SMA ? Il semble que sous cette formulation ce soit le cas de tout SMA adaptatif… Problème : lien (antinomique ?) avec les méthodologies de conception de SMA ?