FSA/INGI - 5 septembre 2006 Application du Reinforcement Learning à un jeu de Markov de type évasion-poursuite Lionel Dricot Promoteur : Professeur Marco.

Slides:



Advertisements
Présentations similaires
P RINCIPES F ONDAMENTAUX DE L ’E CONOMIE ET DE LA G ESTION Classe de 2 nde – Enseignement d’exploration.
Advertisements

Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Nouveau programme de 3ème Probabilités Document de travail – Académie de Rouen

Chapitre 3: Des molécules pour comprendre.. I) Construction d'une modèlisation ● Définition d'un modèle : Représentation simplifiée de la réalité étudiée.
1 Créer un extension OpenOffice.org avec Eclipse Créer une extension OpenOffice.org avec Eclipse.
La séquence pédagogique : Définition Période d’apprentissage dont le but est de permettre à l’apprenant d’acquérir un savoir faire nouveau, ou de le consolider.
Utiliser le calcul littéral pour résoudre ou démontrer
du plaisir dans l’apprentissage ?
Outils de Recherche Opérationnelle en Génie MTH 8414
La ProbabilitÉ.
Plan la séance 6 L’offre de service et l’entente contractuelle
Un Algorithme , c'est Quoi ?
ICMS’2014 Modélisation de la machine asynchrone double étoile
Matériel d’apprentissage en électricité
Section 1.1 : Unités du système international (SI)
Analyse temporelle des systèmes asservis
Analyse Performance Chaine Energie + Problématique
DEFINITION DU CONCEPT DE MODÈLE DE PERFORMANCE
Journées d’étude et de prospective Bagnolet, les 22 et 23 janvier 2010
Activités algorithmiques
Chapitre 9 : Les fonctions (2)
Plans d’expériences: Plans factoriels
STRATÉGIES ET INSTRUMENTS D´ÉVALUATION
Mouvement harmonique simple
La technique du pipeline
TECHNOLOGIE 6ème Equipe 6 Compte Rendu
Mesure de température par radiométrie photothermique
Techniques du Data Mining
Contrôle de la qualité par dosage
Martin Lesage Étudiant au doctorat en éducation
Approximation de Pi par la méthode de Monte Carlo
Les hélices des protéines transmembranaires
Démarche de conception. Démarche didactique.
Apprentissage profond Q
Les gammes de valeurs des paramètres
Démarche d’investigation
LOG770 Annexe A Éléments de probabilité
« On n’apprend bien que ce qui répond aux questions que l’on se pose »
Ruoqi He & Chia-Man Hung
Programme financé par l’Union européenne
نظريات التعلم والتدريس عن طريق حل المسائل (إعدادي- ثانوي)
La force.
Lois de Probabilité Discrètes
Lois de Probabilité Discrètes
LE processus d’enquête
Difficultés d’apprentissage
STAT D103 Esteban Callejas Perez H.4.145
BIO1130 LAB 4 MICROÉVOLUTION.
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
Sciences physiques et chimiques
Reconnaissance de formes: lettres/chiffres
MATHEMATIQUES APPLIQUEES A LA REGULATION DE LA GLYCEMIE POUR LE DIABETE DE TYPE 1 H. FERJOUCHIA1, F. IFTAHY2, S. ELBOUANANI1, M. RACHIK1, S. EL AZIZ2.
projets en terminale Ssi …
Programmation Scratch
Analyses des situations didactiques
INTELLIGENCE ARTIFICIELLE
Panorama of Recommender Systems to Support Learning
Chapter 11: Récursivité Java Software Solutions Second Edition
Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.
Une autre façon de se former
Estimation des conditions initiales par inversion
INTELLIGENCE ARTIFICIELLE
La résolution des inéquations
National Instruments Leadership Seminar
Projet de fin d’études – Semestre 10
Gestion de l'information
Nom élève 1 - Nom élève 2 - Nom élève 3 - Nom élève 4
spécialité mathématiques Première
Transcription de la présentation:

FSA/INGI - 5 septembre 2006 Application du Reinforcement Learning à un jeu de Markov de type évasion-poursuite Lionel Dricot Promoteur : Professeur Marco Saerens

Structure 4 composantes à ce mémoire : 1. Bibliographique : Reinforcement Learning et jeux de Markov 2. Théorique : Analyse du problème et développement d'une méthode de coopération 3. Technique : Implémentation d'un framework assez généraliste. 4. Expérimentale : Simulations et résultats

1.1 Reinforcement Learning ● Un agent au sein d'un environnement ● Maximiser le Reward ➢ Passer un obstacle ? ● Maximiser le Return attendu ➢ Boucler infiniment sur un reward positif ? ● Maximiser le Return attendu amorti ➢ paramètre gamma ● Dilemme Exploration - Exploitation

1.2 MDP & Markov Games ● Propriété de Markov : signal qui décrit entièrement un état (jeu d'échec, gravité) Deterministic Markov Decision Process : à chaque état correspond une valeur (équation de Bellman) ➢ Résolution par Q-Learning ● Jeu de Markov : présence d'agents stochastiques ➢ Transposition du Q-Learning aux Markov Games (Littman)

2.1 Le problème chat-souris (1) ● Discret en temps ● Discret spatialement ● Torique ● Alterné ● 5 mouvements possibles par agent ● MDP si souris Best-Escape (BE) ● Markov game si BE Stoch. 5-6 min Reward : opposé de la somme des carrés des distances à la souris + extra reward sur la souris

2.1 Le problème chat-souris (2) Problème impossible pour 2 chats : ● 3 chats ● fatigue de la souris

2.2 Coopération entre les chats Problème du parallélisme -> Coopération entre les chats indispensable ! Les chats sont les sous- agents d'un seul et unique agent. L'ensemble des mouvements au temps t représente une action de l'agent.

2.3 Exploration - Exploitation 3 possibilités de résolution : 1. Exploration stochastique fixe : taux constant [Littman, 1994] 2. Exploration stochastique décroissante : idem mais avec un taux décroissant (utilisé ici) 3. (perspective) Entropie et degré d'exploration : exploration liée à l'état de chaque noeud. Idéal mais plus complexe [Achbany et al, 2006].

3.1 Implémentation Implémentation d'un framework assez généraliste et modulaire. Technologies utilisées : ● Python ● LiveWires 2.0 (bibliothèque d'affichage en Tk) min

3.2 Optimisation préliminaire L'espace étant torique, les états sont similaires par translation.

3.3 Démonstration Démonstration du programme

4.1 Expérimentation 3 chats et une souris - 2 chats et une souris fatiguée 15 min

4.2 Résultats Fort overfitting avec le nombre de coups d'apprentissage.

4.3 Perspectives ● Performances décevantes -> mieux comprendre l'overfitting, étudier les cas où l'aléatoire n'a pas la tâche aussi facile ● Grande complexité spatiale de Q -> développer une notion de similarité entre les états ● Affiner la coopération en individualisant le reward aux sous-agents

Questions ? Des questions ? Bibliographie : [Littman 1994] Michael L. Littman, Markov games as a framework for multi-agent reinforcement learning, In Proceedings of the 11th International Conference on Machine Learning (ML-94), 1994 [Achbany et al, 2006] Youssef Achbany, François Fouss, Luh Yen, Alain Pirotte & Marco Saerens, Managing the Exploration/Exploitation Trade-Off in Reinforcement Learning, submitted for publication, 2006