Apprentissage profond Q

Slides:



Advertisements
Présentations similaires
© 2006 Les Éditions de la Chenelière inc., La gestion dynamique: concepts, méthodes et applications, 4 e édition1/14 Chapitre 4 : Le gestionnaire en tant.
Advertisements

Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Nouveau programme de 3ème Probabilités Document de travail – Académie de Rouen
Nombres et calculs Attendus de fin de cycle: Attendus de fin de cycleÉclairages Cycle 3  Utiliser et représenter les grands nombres entiers, des fractions.
FSA/INGI - 5 septembre 2006 Application du Reinforcement Learning à un jeu de Markov de type évasion-poursuite Lionel Dricot Promoteur : Professeur Marco.
Les grandes fonctions de la gestion Séance du 23 janvier 2013 Professeur Eric Champagne École d’études politiques Gestion dans le secteur public PAP 2027.
Que faire? La recherche découverte. Dans une recherche découverte Sensibilisation ; Discussion ; Préparation-projet ; Opération-activités ; Réflexion.
1 CoRFiLaC Ragusa, Regione Siciliana. Expérience de coopération transfrontalière pour la réalisation d’un network d’excellence.
Exercice On considère un Système de contrôle de température composé de: Capteur, ordinateur Le capteur transmit à chaque heure de la journée la température.
Coloration de graphe, backtracking, branch and bound
Le PMC et l’apprentissage profond
Information, Calcul, Communication
Formules en 2 étapes 1MPES4
Mots 2, Venir, Les prépositions
[Insérez le nom du programme]
SNMP - Comment calculer l'utilisation de la Bande passante
Algorithmique demander jeu du pendu.
Niveau 2 : Tables de plongée
Review of Passé Composé
IDL_IDL bridge The IDL_IDLBridge object class allows an IDL session to create and control other IDL sessions, each of which runs as a separate process.
Domaine: Relations R.A.:
Domaine: Relations R.A.:
Review of Passé Composé
Technologies de l’intelligence d’affaires Séance 14
Étude “Aide au Budget” Cadre conceptuel
Cyber-Sphinx Séance 2.
Le passé composé avec être
Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics.
8/23/2018 2:32 AM Cinématique But :
Le programme Le programme est construit autour de quatre notions fondamentales : Représentation de l’information Algorithmique Langages Architecture.
Les gammes de valeurs des paramètres
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
Comptes les points noirs !!!
How to get to double verb sentences!!
Tools & Bibliography November 2008
Réseaux de neurones appliqués à la reconnaissance de caractères
Phase de préparation avec le commanditaire
LOG770 Annexe A Éléments de probabilité
Des mathématiques derrière l’intelligence artificielle
Efficacité des algorithmes
A l’aide du triangle pédagogique de Jean Houssaye
Modélisation objet avec UML
Information sur survies des patients en dialyse péritonéale, en France métropolitaine dans le RDPLF Année 2016.
Pour commencer…Corrige les erreurs
Lois de Probabilité Discrètes
Comptes les points noirs !!!
Essaie Persuasif.
De Scratch à Python : une transition douce… COMMUNICATION
Les formes et les couleurs
Froduald Kabanza et Hugo Larochelle
Roots of a Polynomial: Root of a polynomial is the value of the independent variable at which the polynomial intersects the horizontal axis (the function.
Un Mécanisme d‘Adaptation Guidé par le Contexte en Utilisant une Représentation par Objets Manuele Kirsch Pinheiro Laboratoire LSR – IMAG, Équipe SIGMA.
Reconnaissance de formes: lettres/chiffres
1°) Un nombre y est-il associé à 3, et si oui lequel ?
Comptes les points noirs !!!
INTELLIGENCE ARTIFICIELLE
La confiance de pouvoir réussir à résoudre un problème
5. Processus de l’acte d’achat
LES NOUVEAUX PROGRAMMES DE MATHÉMATIQUES
Chapter 11: Récursivité Java Software Solutions Second Edition
1 Sensitivity Analysis Introduction to Sensitivity Analysis Introduction to Sensitivity Analysis Graphical Sensitivity Analysis Graphical Sensitivity Analysis.
Comptes les points noirs !!!
Spelling Change Verbs.
Des évaluations au service de la réussite des élèves
Reporting on national biodiversity strategies,
Survol de l’application de la loi
Les données structurées et leur traitement
Comptes les points noirs !!!
Atelier des acheteurs publics responsables Aide à la rédaction de votre plan d’action Département du Développement durable Direction opérationnelle du.
Le passé composé avec être
Transcription de la présentation:

Apprentissage profond Q Adapté de Tambet Matiisen

Jeu Breakout Atari Breakout game. Image credit: DeepMind. But : déplacer une raquette en bas de l’écran pour faire rebondir la balle et effacer toutes les briques en haut. Actions possibles : rien, à droite, à gauche, frapper

Jeu Breakout On peut faire apprendre le jeu à un réseau de neurones si on dispose de beaucoup de paires d’entraînement (écran, action) Une meilleure solution est d’apprendre soi-même par renforcement, en se rappelant les bon coups à mesure Approche intermédiaire entre les apprentissages supervisé et non supervisé : on construit un plan d’actions (écran, action) en fonction de récompenses attendues, basée sur l’expérience. Il s’agit d’identifier la ou les actions qui a/ont mené à chaque récompense

Processus de décision markovien Apprentisssage par réenforcement Processus de decision markovien Solution possible à : L’identification des actions ayant mené à une récompense (Problème de l’attribution du mérite) credit assignment problem La détermination de la séquence d’actions donnant le meilleur score

Rendement futur actualisé (Discounted future reward) À chaque réalisation du processus, on peut calculer le rendement (récompense) total accumulé : Le rendement futur à partir d’un instant t est alors : Comme on ne connait pas Rt avec certitude, on peut introduire un facteur de modération  compris entre 0 et 1 dans l’expression : On a aussi: L’agent devrait toujours agir en vue de maximiser Rt

Apprentissage Q Utilise une fonction Q (pour qualité) qui donne le maximum de Rt lorsqu’on prend une action a au temps t en étant dans l’état s : L ’objectif est de définir une politique (d’actions)  qui maximise Q pour chaque étape L ’équation de Bellman permet d’exprimer Q sous forme itérative, en fonction des états et actions à venir:

Problème : pour une image de taille TxT et C niveaux d’intensité par pixel, il y a CTxT états à considérer!

Deep Q network Naive formulation of deep Q-network.  More optimized architecture of deep Q-network Le premier modèle prend (s, a) en entrée et génère la valeur Q correspondante Le second modèle prend s en entrée et génères la valeur Q de chaque action possible

Architecture utilisée par DeepMind Pooling non utilisé afin de sauvegarder la représentation spatiale

Given a transition < s, a, r, s’ >, the Q-table update rule in the previous algorithm must be replaced with the following: Do a feedforward pass for the current state s to get predicted Q-values for all actions. Do a feedforward pass for the next state s’ and calculate maximum overall network outputs max a’ Q(s’, a’). Set Q-value target for action to r + γmax a’ Q(s’, a’) (use the max calculated in step 2). For all other actions, set the Q-value target to the same as originally returned from step 1, making the error 0 for those outputs. Update the weights using backpropagation

Expérience replay Exploration exploitation

Deep Q algorithm