La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage profond Q

Présentations similaires


Présentation au sujet: "Apprentissage profond Q"— Transcription de la présentation:

1 Apprentissage profond Q
Adapté de Tambet Matiisen

2 Jeu Breakout Atari Breakout game. Image credit: DeepMind. But : déplacer une raquette en bas de l’écran pour faire rebondir la balle et effacer toutes les briques en haut. Actions possibles : rien, à droite, à gauche, frapper

3 Jeu Breakout On peut faire apprendre le jeu à un réseau de neurones si on dispose de beaucoup de paires d’entraînement (écran, action) Une meilleure solution est d’apprendre soi-même par renforcement, en se rappelant les bon coups à mesure Approche intermédiaire entre les apprentissages supervisé et non supervisé : on construit un plan d’actions (écran, action) en fonction de récompenses attendues, basée sur l’expérience. Il s’agit d’identifier la ou les actions qui a/ont mené à chaque récompense

4 Processus de décision markovien
Apprentisssage par réenforcement Processus de decision markovien Solution possible à : L’identification des actions ayant mené à une récompense (Problème de l’attribution du mérite) credit assignment problem La détermination de la séquence d’actions donnant le meilleur score

5 Rendement futur actualisé (Discounted future reward)
À chaque réalisation du processus, on peut calculer le rendement (récompense) total accumulé : Le rendement futur à partir d’un instant t est alors : Comme on ne connait pas Rt avec certitude, on peut introduire un facteur de modération  compris entre 0 et 1 dans l’expression : On a aussi: L’agent devrait toujours agir en vue de maximiser Rt

6 Apprentissage Q Utilise une fonction Q (pour qualité) qui donne le maximum de Rt lorsqu’on prend une action a au temps t en étant dans l’état s : L ’objectif est de définir une politique (d’actions)  qui maximise Q pour chaque étape L ’équation de Bellman permet d’exprimer Q sous forme itérative, en fonction des états et actions à venir:

7 Problème : pour une image de taille TxT et C niveaux d’intensité par pixel, il y a CTxT états à considérer!

8 Deep Q network Naive formulation of deep Q-network.  More optimized architecture of deep Q-network Le premier modèle prend (s, a) en entrée et génère la valeur Q correspondante Le second modèle prend s en entrée et génères la valeur Q de chaque action possible

9 Architecture utilisée par DeepMind
Pooling non utilisé afin de sauvegarder la représentation spatiale

10 Given a transition < s, a, r, s’ >, the Q-table update rule in the previous algorithm must be replaced with the following: Do a feedforward pass for the current state s to get predicted Q-values for all actions. Do a feedforward pass for the next state s’ and calculate maximum overall network outputs max a’ Q(s’, a’). Set Q-value target for action to r + γmax a’ Q(s’, a’) (use the max calculated in step 2). For all other actions, set the Q-value target to the same as originally returned from step 1, making the error 0 for those outputs. Update the weights using backpropagation

11 Expérience replay Exploration exploitation

12 Deep Q algorithm


Télécharger ppt "Apprentissage profond Q"

Présentations similaires


Annonces Google