La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

GEF447 Robotique Lecture 17 Apprentissage par renforcement

Présentations similaires


Présentation au sujet: "GEF447 Robotique Lecture 17 Apprentissage par renforcement"— Transcription de la présentation:

1 GEF447 Robotique Lecture 17 Apprentissage par renforcement
Capt Vincent Roberge

2 PID Avantages Simple Ne demande pas de connaissance du modèle
TD-learning: temporal differential learning Avantages Simple Ne demande pas de connaissance du modèle Configurable expérimentalement 2

3 PID Désavantages Environnement dynamique? Modèle dynamique?
TD-learning: temporal differential learning Désavantages Environnement dynamique? Modèle dynamique? Problème de logique? Jeux? 3

4 Plan de cours Définition apprentissage par renforcement
3 techniques de base Programmation dynamique Monte Carlo Apprentissage temporel différentiel Application au suivi d’une ligne DEMO sur simulateur WEBOTS 4

5 Apprentissage par renforcement
Inspiré de la psychologie du comportementalisme Agent Environnement Prend des actions pour maximiser le retour R Different from: Optimization methods Machine learning Neural networks Retour: somme des récompenses futures Apprend ou s’adapte en ligne 5

6 Exemple simple Terrain 2D Frontière solide 4 mouvements possibles
Vent vers le Nord Bût: trouver le chemin le plus court

7 3 techniques de bases 1. Programmation dynamique 2. Monte Carlo
Connaissance complète de l’environnement Processus itératif hors-ligne Évalue un état par rapport à l’état voisin 2. Monte Carlo Aucune connaissance de l’environnement Processus itératif en-ligne Très grand nombre d’essais Évalue un état d’après le résultat de plusieurs l’essais 3. Apprentissage temporel différentiel (TD-learning) Hybride de Programmation Dynamique et Monte Carlo Essais + états voisins TD-learning: temporal differential learning [3] 7

8 Pour ce problème ℛ 𝑠𝑠′ 𝑎 =−1
Quelque définitions 𝑠: état ou position 𝑎: action 𝜋(𝑠): politique (action 𝑎 à prendre pour un état 𝑠) 𝑃 𝑠𝑠′ 𝑎 : probabilité de passer de 𝑠 à 𝑠’ si on prend l’action 𝑎 ℛ 𝑠𝑠′ 𝑎 : récompense si l’on passe de 𝑠 à 𝑠’ en prenant l’action 𝑎 𝑅: retour ou somme des récompenses futures Pour ce problème ℛ 𝑠𝑠′ 𝑎 =−1 Politique: probabilité de sélectioner chaque action possible

9 1. Programmation dynamique
Politique 𝜋(𝑠) initialisée aléatoirement Fonction valeur-état 𝑉 𝜋 (𝑠) Connaissance complète de l’environnement 𝑃 𝑠𝑠′ 𝜋 ℛ 𝑠𝑠′ 𝜋 Amélioration itérative de la politique E veut dire « expected » ou retour attendu Epsilon: facteur de dévaluation entre 0 et 1 * politique optimale et valeur-état associé 9

10 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
État initiale 10

11 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Passe 1 - Valeur V 11

12 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Passe 1 - Valeur V 12

13 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Passe 1 - politique 13

14 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Passe 2 - Valeur V 14

15 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Passe 2 - politique 15

16 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Passe 3 - Valeur V 16

17 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Passe 3 - politique 17

18 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Passe 4 - Valeur V 18

19 Mettre à jour à politique 𝜋 est trivial Mettre à jour 𝑉 𝜋 :
Complexité - 7 passes sec 19

20 2. Monte Carlo Et si on ne connaît par l’environnement ( 𝑃 𝑠𝑠′ 𝜋 , ℛ 𝑠𝑠′ 𝜋 ) On ne peut calculer 𝑉 𝜋 (𝑠) Expérimentation Politique 𝜋(𝑠) Fonction valeur-état-action 𝑄 𝜋 (𝑠,𝑎) -5 Average(Returns(s,a)) is a moving average over the episodes. -4 La valeur de -2 est pour cet état et cette action. Une autre action aurait une valeur inférieure -3 -1 -2 20

21 2. Monte Carlo On utilise toujours un ajustement itératif de la politique Average(Returns(s,a)) is a moving average over the episodes. [3] 21

22 Programmation Dynamique
2. Monte Carlo Monte Carlo Programmation Dynamique Iteration: evaluate Q using episodes, update policy episodes per iteration Complexité - 50 itérations - 100 essaies - 500 moves max sec 22

23 Programmation Dynamique
2. Monte Carlo Monte Carlo Programmation Dynamique Iteration: evaluate Q using episodes, update policy episodes per iteration Complexité - 50 itérations essais - 500 moves max - 147 sec 23

24 3. Apprentissage temporel différentiel TD-learning
Lorsque vous conduisez votre voiture Monte-Carlo: ajuste l’estimé lors de l’arrivée à la maison TD-learning: ajuste l’estimé d’apès observation (récompense) Estimé précédent There is no more iteration of evaluate Q, update policy [3] 24

25 3. Apprentissage temporel différentiel
Performance de TD-learning Complexité - 100 essais - 752 steps sec 25

26 Exemple d’apprentissage par renforcement
There is no more iteration of evaluate Q, update policy [3] 26

27 E-Puck 27

28 Webots Environnement de développement Modéliser, Programmer, et
Simuler des robots mobiles 28

29 Robot pour le suivi d’une ligne
Ligne noire sur un fond blanc Utilise la caméra VGA du robot e-puck 8 états 7 actions Apprentissage en ligne utilisant TD-learning 29

30 États discrets Analyse de la vidéo (40x1) Déterminer l’état
Convertir en Gris Convertir en Noir et Black (seuil de “moyenne*0.8”) Calculer le centre de masse Déterminer l’état Arrondir le centre de masse à l’état discret 30

31 Actions possibles Fonction valeur-état-action 𝑄 𝜋 (𝑠,𝑎) sauvegardée dans une matrice 9x7 31

32 Récompenses et autres paramètres
𝑅= 𝑙𝑒𝑓𝑡+𝑟𝑖𝑔ℎ𝑡 2∗𝑚𝑎𝑥 ∗ 1− 𝑎𝑏𝑠 𝑙𝑖𝑛𝑒−𝑐𝑒𝑛𝑡𝑒𝑟 𝑐𝑒𝑛𝑡𝑒𝑟 Autre Politique E-greedy (𝜀=0.1) Action aléatoire sélection permis les 2 voisins de l’action préférée Taux d’apprentissage 𝛼=0.1 Facteur de dévaluation 𝛾=0.8 Time step de la simulation = 64 ms Matrice Q initialisé de façon optimiste à *rand() 32

33 Demo Simulateur Webots

34 Conclusion Apprentissage par renforcement Avantages Agent
Environnement Prend des actions pour maximiser le retour R Avantages Apprend l’environnement Apprend le modèle du robot Problèmes difficilement contrôlable Problèmes de logique 34

35 Questions


Télécharger ppt "GEF447 Robotique Lecture 17 Apprentissage par renforcement"

Présentations similaires


Annonces Google