FSA/INGI - 5 septembre 2006 Application du Reinforcement Learning à un jeu de Markov de type évasion-poursuite Lionel Dricot Promoteur : Professeur Marco.

Slides:

Advertisements

Présentations similaires

P RINCIPES F ONDAMENTAUX DE L ’E CONOMIE ET DE LA G ESTION Classe de 2 nde – Enseignement d’exploration.

Advertisements

Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.

Nouveau programme de 3ème Probabilités Document de travail – Académie de Rouen

Chapitre 3: Des molécules pour comprendre.. I) Construction d'une modèlisation ● Définition d'un modèle : Représentation simplifiée de la réalité étudiée.

1 Créer un extension OpenOffice.org avec Eclipse Créer une extension OpenOffice.org avec Eclipse.

La séquence pédagogique : Définition Période d’apprentissage dont le but est de permettre à l’apprenant d’acquérir un savoir faire nouveau, ou de le consolider.

Utiliser le calcul littéral pour résoudre ou démontrer

du plaisir dans l’apprentissage ?

Outils de Recherche Opérationnelle en Génie MTH 8414

La ProbabilitÉ.

Plan la séance 6 L’offre de service et l’entente contractuelle

Un Algorithme , c'est Quoi ?

ICMS’2014 Modélisation de la machine asynchrone double étoile

Matériel d’apprentissage en électricité

Section 1.1 : Unités du système international (SI)

Analyse temporelle des systèmes asservis

Analyse Performance Chaine Energie + Problématique

DEFINITION DU CONCEPT DE MODÈLE DE PERFORMANCE

Journées d’étude et de prospective Bagnolet, les 22 et 23 janvier 2010

Activités algorithmiques

Chapitre 9 : Les fonctions (2)

Plans d’expériences: Plans factoriels

STRATÉGIES ET INSTRUMENTS D´ÉVALUATION

Mouvement harmonique simple

La technique du pipeline

TECHNOLOGIE 6ème Equipe 6 Compte Rendu

Mesure de température par radiométrie photothermique

Techniques du Data Mining

Contrôle de la qualité par dosage

Martin Lesage Étudiant au doctorat en éducation

Approximation de Pi par la méthode de Monte Carlo

Les hélices des protéines transmembranaires

Démarche de conception. Démarche didactique.

Apprentissage profond Q

Les gammes de valeurs des paramètres

Démarche d’investigation

LOG770 Annexe A Éléments de probabilité

« On n’apprend bien que ce qui répond aux questions que l’on se pose »

Ruoqi He & Chia-Man Hung

Programme financé par l’Union européenne

نظريات التعلم والتدريس عن طريق حل المسائل (إعدادي- ثانوي)

Lois de Probabilité Discrètes

Lois de Probabilité Discrètes

LE processus d’enquête

Difficultés d’apprentissage

STAT D103 Esteban Callejas Perez H.4.145

BIO1130 LAB 4 MICROÉVOLUTION.

Présentation 4 : Sondage stratifié

Présentation 9 : Calcul de précision des estimateurs complexes

Sciences physiques et chimiques

Reconnaissance de formes: lettres/chiffres

MATHEMATIQUES APPLIQUEES A LA REGULATION DE LA GLYCEMIE POUR LE DIABETE DE TYPE 1 H. FERJOUCHIA1, F. IFTAHY2, S. ELBOUANANI1, M. RACHIK1, S. EL AZIZ2.

projets en terminale Ssi …

Programmation Scratch

Analyses des situations didactiques

INTELLIGENCE ARTIFICIELLE

Panorama of Recommender Systems to Support Learning

Chapter 11: Récursivité Java Software Solutions Second Edition

Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.

Une autre façon de se former

Estimation des conditions initiales par inversion

INTELLIGENCE ARTIFICIELLE

La résolution des inéquations

National Instruments Leadership Seminar

Projet de fin d’études – Semestre 10

Gestion de l'information

Nom élève 1 - Nom élève 2 - Nom élève 3 - Nom élève 4

spécialité mathématiques Première

Transcription de la présentation:

FSA/INGI - 5 septembre 2006 Application du Reinforcement Learning à un jeu de Markov de type évasion-poursuite Lionel Dricot Promoteur : Professeur Marco Saerens

Structure 4 composantes à ce mémoire : 1. Bibliographique : Reinforcement Learning et jeux de Markov 2. Théorique : Analyse du problème et développement d'une méthode de coopération 3. Technique : Implémentation d'un framework assez généraliste. 4. Expérimentale : Simulations et résultats

1.1 Reinforcement Learning ● Un agent au sein d'un environnement ● Maximiser le Reward ➢ Passer un obstacle ? ● Maximiser le Return attendu ➢ Boucler infiniment sur un reward positif ? ● Maximiser le Return attendu amorti ➢ paramètre gamma ● Dilemme Exploration - Exploitation

1.2 MDP & Markov Games ● Propriété de Markov : signal qui décrit entièrement un état (jeu d'échec, gravité) Deterministic Markov Decision Process : à chaque état correspond une valeur (équation de Bellman) ➢ Résolution par Q-Learning ● Jeu de Markov : présence d'agents stochastiques ➢ Transposition du Q-Learning aux Markov Games (Littman)

2.1 Le problème chat-souris (1) ● Discret en temps ● Discret spatialement ● Torique ● Alterné ● 5 mouvements possibles par agent ● MDP si souris Best-Escape (BE) ● Markov game si BE Stoch. 5-6 min Reward : opposé de la somme des carrés des distances à la souris + extra reward sur la souris

2.1 Le problème chat-souris (2) Problème impossible pour 2 chats : ● 3 chats ● fatigue de la souris

2.2 Coopération entre les chats Problème du parallélisme -> Coopération entre les chats indispensable ! Les chats sont les sous- agents d'un seul et unique agent. L'ensemble des mouvements au temps t représente une action de l'agent.

2.3 Exploration - Exploitation 3 possibilités de résolution : 1. Exploration stochastique fixe : taux constant [Littman, 1994] 2. Exploration stochastique décroissante : idem mais avec un taux décroissant (utilisé ici) 3. (perspective) Entropie et degré d'exploration : exploration liée à l'état de chaque noeud. Idéal mais plus complexe [Achbany et al, 2006].

3.1 Implémentation Implémentation d'un framework assez généraliste et modulaire. Technologies utilisées : ● Python ● LiveWires 2.0 (bibliothèque d'affichage en Tk) min

3.2 Optimisation préliminaire L'espace étant torique, les états sont similaires par translation.

3.3 Démonstration Démonstration du programme

4.1 Expérimentation 3 chats et une souris - 2 chats et une souris fatiguée 15 min

4.2 Résultats Fort overfitting avec le nombre de coups d'apprentissage.

4.3 Perspectives ● Performances décevantes -> mieux comprendre l'overfitting, étudier les cas où l'aléatoire n'a pas la tâche aussi facile ● Grande complexité spatiale de Q -> développer une notion de similarité entre les états ● Affiner la coopération en individualisant le reward aux sous-agents

Questions ? Des questions ? Bibliographie : [Littman 1994] Michael L. Littman, Markov games as a framework for multi-agent reinforcement learning, In Proceedings of the 11th International Conference on Machine Learning (ML-94), 1994 [Achbany et al, 2006] Youssef Achbany, François Fouss, Luh Yen, Alain Pirotte & Marco Saerens, Managing the Exploration/Exploitation Trade-Off in Reinforcement Learning, submitted for publication, 2006