Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parAurore Pasquier Modifié depuis plus de 11 années
1
Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet
2
2 Construire un agent autonome Calculer une stratégie/politique Exemples –marcher –conduire une voiture –jouer au backgammon Environnement perception action renforcement instantané long-terme
3
3 Représentation et organisation modulaire Organisation en modules spécialisés Organisation centralisée 24 V 50000 V Perception brute Représentation ?
4
4 S'inspirer d'un système performant autonome robuste "anytime" dynamique distribué & parallèle tolérant aux pannes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle Algorithmes connexionnistes
5
5 Objectifs Montrer que les problèmes consistant à –calculer une stratégie/politique –apprendre une représentation –organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche
6
6 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
7
7 Algorithmes connexionnistes Connectivité Activations Loi(s) d'apprentissage (A)synchronisme ? entrées sorties propagation synchrone Loi de Hebb Système dynamique généralement complexe à analyser et concevoir !
8
8 Un calcul connexionniste unités Activation t=0 M t=1 M M t=... M M M <1 Contraction Point fixe
9
9 Un calcul connexionniste Calcul du point fixe d'une contraction –Solution traditionnelle –Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89]
10
10 Propriétés du calcul du point fixe… –anytime –dynamique … avec une méthode connexionniste –massivement parallèle Difficulté : taille du réseau –nombre ditérations pour approcher le point fixe Bilan
11
11 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
12
12 Contrôle optimal états actions transition récompense T(s,a,s)=P(s|s,a) R(s) : S A On cherche une politique qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale : instantané long-terme
13
13 Illustration Actions Plan :
14
14 Illustration Récompense
15
15 Illustration Fonction de valeur optimale récompense
16
16 Illustration Politique optimale fonction de valeur optimale
17
17 Lien avec le connexionnisme V R s s' s''... T(s,,s') T(s,,s'')
18
18 Un calcul dynamique
19
19 Apprentissage par renforcement Problème de contrôle optimal dont on ne connaît pas les paramètres a priori Estimation des paramètres Le dilemme exploration/exploitation ?
20
20 Lien avec le connexionnisme Dans le réseau –Estimation de R : calculée par chaque unité –Estimation de T : loi d'apprentissage du réseau similaire à la loi de Hebb V R s s' s''... T(s,,s') T(s,,s'')
21
21 Une architecture connexionniste pour lapprentissage par renforcement : Difficulté : taille de l'espace d'états –nombre ditérations pour le point fixe –estimation de R et T Bilan SATRSA Estimation paramètresControle environnement π TR
22
22 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
23
23 Représentation Difficile à exploiter
24
24 Représentation Chemin sous-optimal
25
25 Représentation Chemin optimal
26
26 Qu'est-ce qu'une bonne représentation ? Qualité Complexité
27
27 Mesure de lerreur d'approximation Lerreur dapproximation définie par dépend de lerreur dinterpolation et est le point fixe de Calcul de la politique la plus incertaine [Munos, 99] instantané long-terme
28
28 Mesure de lerreur Erreur dinterpolation
29
29 Mesure de lerreur Erreur dapproximation
30
30 Mesure de lerreur Politique la plus incertaine
31
31 Réduction de l'erreur Qualité Complexité Spécialisation Généralisation
32
32 Réduction de lerreur On peut améliorer une approximation... …en faisant une descente de gradient : Point fixe instantané long-terme zones d'intérêt
33
33 Réduction de lerreur zone d'intérêt Spécialisation Généralisation
34
34 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation
35
35 Réduction de lerreur Nouvelle représentation, nouvelles erreurs
36
36 Réduction de lerreur Nouvelle représentation, nouvelles erreurs
37
37 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation
38
38 Expériences (1/2)
39
39 Expériences (1/2)
40
40 Expériences (2/2)
41
41 Expériences (2/2)
42
42 Une couche fonctionnelle connexionniste supplémentaire Bilan SATRSA Estimation paramètresControle environnement π TR App. représentation π TR S Optimisation du rapport complexité / qualité
43
43 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
44
44 Apprentissage de représentation M bonne représentation mauvaise représentation
45
45 Apprentissage de représentation M1M1 M2M2 M3M3 M4M4 Avoir une seule représentation peut être insuffisant !
46
46 Apprentissage de représentations M1M1 M2M2 M3M3 M4M4
47
47 Une approche modulaire M1M1 M2M2 M3M3 M4M4
48
48 Lapprentissage de représentation cest : Lauto-organisation modulaire cest : Description Problème de classification : nuées dynamiques
49
49 Expérience 6 tâches à résoudre 3 modules
50
50 Expérience 1 2 3 Module 1 Module 2 Module 3
51
51 Bilan environnement SATRSA Estimation paramètresControle TR App. représentation TR S π π π SATRSA Estimation paramètresControle TR App. représentation TR S Amélioration du rapport complexité / qualité
52
52 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
53
53 Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement Grand espace d'états ? Apprentissage de représentation Multiplicité des problèmes ? Auto-organisation modulaire Conclusions parallélisme massif optimisation du taux qualité / complexité amélioration du taux qualité / complexité
54
54 Schémas d'approximations convergents Généricité des résultats Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches Conclusions
55
55 Perspectives Extensions/améliorations des travaux de thèse –Gestion adaptative des ressources –Coopération des modules –Implantation matérielle parallèle –Approximateurs de fonctions plus puissants –Le dilemme exploration/exploitation Liens avec des travaux de sciences cognitives
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.