Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Apprentissage profond Q
Adapté de Tambet Matiisen
2
Jeu Breakout Atari Breakout game. Image credit: DeepMind. But : déplacer une raquette en bas de l’écran pour faire rebondir la balle et effacer toutes les briques en haut. Actions possibles : rien, à droite, à gauche, frapper
3
Jeu Breakout On peut faire apprendre le jeu à un réseau de neurones si on dispose de beaucoup de paires d’entraînement (écran, action) Une meilleure solution est d’apprendre soi-même par renforcement, en se rappelant les bon coups à mesure Approche intermédiaire entre les apprentissages supervisé et non supervisé : on construit un plan d’actions (écran, action) en fonction de récompenses attendues, basée sur l’expérience. Il s’agit d’identifier la ou les actions qui a/ont mené à chaque récompense
4
Processus de décision markovien
Apprentisssage par réenforcement Processus de decision markovien Solution possible à : L’identification des actions ayant mené à une récompense (Problème de l’attribution du mérite) credit assignment problem La détermination de la séquence d’actions donnant le meilleur score
5
Rendement futur actualisé (Discounted future reward)
À chaque réalisation du processus, on peut calculer le rendement (récompense) total accumulé : Le rendement futur à partir d’un instant t est alors : Comme on ne connait pas Rt avec certitude, on peut introduire un facteur de modération compris entre 0 et 1 dans l’expression : On a aussi: L’agent devrait toujours agir en vue de maximiser Rt
6
Apprentissage Q Utilise une fonction Q (pour qualité) qui donne le maximum de Rt lorsqu’on prend une action a au temps t en étant dans l’état s : L ’objectif est de définir une politique (d’actions) qui maximise Q pour chaque étape L ’équation de Bellman permet d’exprimer Q sous forme itérative, en fonction des états et actions à venir:
7
Problème : pour une image de taille TxT et C niveaux d’intensité par pixel, il y a CTxT états à considérer!
8
Deep Q network Naive formulation of deep Q-network. More optimized architecture of deep Q-network Le premier modèle prend (s, a) en entrée et génère la valeur Q correspondante Le second modèle prend s en entrée et génères la valeur Q de chaque action possible
9
Architecture utilisée par DeepMind
Pooling non utilisé afin de sauvegarder la représentation spatiale
10
Given a transition < s, a, r, s’ >, the Q-table update rule in the previous algorithm must be replaced with the following: Do a feedforward pass for the current state s to get predicted Q-values for all actions. Do a feedforward pass for the next state s’ and calculate maximum overall network outputs max a’ Q(s’, a’). Set Q-value target for action to r + γmax a’ Q(s’, a’) (use the max calculated in step 2). For all other actions, set the Q-value target to the same as originally returned from step 1, making the error 0 for those outputs. Update the weights using backpropagation
11
Expérience replay Exploration exploitation
12
Deep Q algorithm
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.