La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

GEF447 Robotique Capt Vincent Roberge Lecture 17 Apprentissage par renforcement 1.

Présentations similaires


Présentation au sujet: "GEF447 Robotique Capt Vincent Roberge Lecture 17 Apprentissage par renforcement 1."— Transcription de la présentation:

1 GEF447 Robotique Capt Vincent Roberge Lecture 17 Apprentissage par renforcement 1

2 PID Avantages Simple Ne demande pas de connaissance du modèle Configurable expérimentalement 2

3 PID Désavantages Environnement dynamique? Modèle dynamique? Problème de logique? Jeux? 3

4 Plan de cours Définition apprentissage par renforcement 3 techniques de base Programmation dynamique Monte Carlo Apprentissage temporel différentiel Application au suivi dune ligne DEMO sur simulateur WEBOTS 4

5 Apprentissage par renforcement Inspiré de la psychologie du comportementalisme Agent Environnement Prend des actions pour maximiser le retour R 5 Retour: somme des récompenses futures Apprend ou sadapte en ligne

6 Exemple simple Terrain 2D Frontière solide 4 mouvements possibles Vent vers le Nord Bût: trouver le chemin le plus court

7 3 techniques de bases 1. Programmation dynamique Connaissance complète de lenvironnement Processus itératif hors-ligne Évalue un état par rapport à létat voisin 2. Monte Carlo Aucune connaissance de lenvironnement Processus itératif en-ligne Très grand nombre dessais Évalue un état daprès le résultat de plusieurs lessais 3. Apprentissage temporel différentiel (TD-learning) Aucune connaissance de lenvironnement Processus itératif en-ligne Hybride de Programmation Dynamique et Monte Carlo Essais + états voisins 7 [3]

8 Quelque définitions

9 1. Programmation dynamique 9

10 10 État initiale

11 11 Passe 1 - Valeur V

12 12 Passe 1 - Valeur V

13 13 Passe 1 - politique

14 14 Passe 2 - Valeur V

15 15 Passe 2 - politique

16 16 Passe 3 - Valeur V

17 17 Passe 3 - politique

18 18 Passe 4 - Valeur V

19 19 Complexité - 7 passes sec

20 2. Monte Carlo … La valeur de -2 est pour cet état et cette action. Une autre action aurait une valeur inférieure

21 2. Monte Carlo On utilise toujours un ajustement itératif de la politique 21 [3]

22 2. Monte Carlo 22 Complexité - 50 itérations essaies moves max sec Programmation DynamiqueMonte Carlo

23 2. Monte Carlo 23 Complexité - 50 itérations essais moves max sec Programmation DynamiqueMonte Carlo

24 3. Apprentissage temporel différentiel TD-learning Lorsque vous conduisez votre voiture Monte-Carlo: ajuste lestimé lors de larrivée à la maison TD-learning: ajuste lestimé dapès –observation (récompense) –Estimé précédent 24 [3]

25 3. Apprentissage temporel différentiel Performance de TD-learning 25 Complexité essais steps sec

26 Exemple dapprentissage par renforcement 26 [3]

27 E-Puck 27

28 Webots Environnement de développement Modéliser, Programmer, et Simuler des robots mobiles 28

29 Robot pour le suivi dune ligne Ligne noire sur un fond blanc Utilise la caméra VGA du robot e-puck 8 états 7 actions Apprentissage en ligne utilisant TD-learning 29

30 États discrets Analyse de la vidéo (40x1) Convertir en Gris Convertir en Noir et Black (seuil de moyenne*0.8) Calculer le centre de masse Déterminer létat Arrondir le centre de masse à létat discret 30

31 Actions possibles 31

32 Récompenses et autres paramètres 32

33 Demo Simulateur Webots

34 Conclusion Apprentissage par renforcement Agent Environnement Prend des actions pour maximiser le retour R 34 Avantages Apprend lenvironnement Apprend le modèle du robot Problèmes difficilement contrôlable Problèmes de logique

35 Questions 35


Télécharger ppt "GEF447 Robotique Capt Vincent Roberge Lecture 17 Apprentissage par renforcement 1."

Présentations similaires


Annonces Google