Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet
2 Construire un agent autonome Calculer une stratégie/politique Exemples –marcher –conduire une voiture –jouer au backgammon Environnement perception action renforcement instantané long-terme
3 Représentation et organisation modulaire Organisation en modules spécialisés Organisation centralisée 24 V V Perception brute Représentation ?
4 S'inspirer d'un système performant autonome robuste "anytime" dynamique distribué & parallèle tolérant aux pannes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle Algorithmes connexionnistes
5 Objectifs Montrer que les problèmes consistant à –calculer une stratégie/politique –apprendre une représentation –organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche
6 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
7 Algorithmes connexionnistes Connectivité Activations Loi(s) d'apprentissage (A)synchronisme ? entrées sorties propagation synchrone Loi de Hebb Système dynamique généralement complexe à analyser et concevoir !
8 Un calcul connexionniste unités Activation t=0 M t=1 M M t=... M M M <1 Contraction Point fixe
9 Un calcul connexionniste Calcul du point fixe d'une contraction –Solution traditionnelle –Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89]
10 Propriétés du calcul du point fixe… –anytime –dynamique … avec une méthode connexionniste –massivement parallèle Difficulté : taille du réseau –nombre ditérations pour approcher le point fixe Bilan
11 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
12 Contrôle optimal états actions transition récompense T(s,a,s)=P(s|s,a) R(s) : S A On cherche une politique qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale : instantané long-terme
13 Illustration Actions Plan :
14 Illustration Récompense
15 Illustration Fonction de valeur optimale récompense
16 Illustration Politique optimale fonction de valeur optimale
17 Lien avec le connexionnisme V R s s' s''... T(s,,s') T(s,,s'')
18 Un calcul dynamique
19 Apprentissage par renforcement Problème de contrôle optimal dont on ne connaît pas les paramètres a priori Estimation des paramètres Le dilemme exploration/exploitation ?
20 Lien avec le connexionnisme Dans le réseau –Estimation de R : calculée par chaque unité –Estimation de T : loi d'apprentissage du réseau similaire à la loi de Hebb V R s s' s''... T(s,,s') T(s,,s'')
21 Une architecture connexionniste pour lapprentissage par renforcement : Difficulté : taille de l'espace d'états –nombre ditérations pour le point fixe –estimation de R et T Bilan SATRSA Estimation paramètresControle environnement π TR
22 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
23 Représentation Difficile à exploiter
24 Représentation Chemin sous-optimal
25 Représentation Chemin optimal
26 Qu'est-ce qu'une bonne représentation ? Qualité Complexité
27 Mesure de lerreur d'approximation Lerreur dapproximation définie par dépend de lerreur dinterpolation et est le point fixe de Calcul de la politique la plus incertaine [Munos, 99] instantané long-terme
28 Mesure de lerreur Erreur dinterpolation
29 Mesure de lerreur Erreur dapproximation
30 Mesure de lerreur Politique la plus incertaine
31 Réduction de l'erreur Qualité Complexité Spécialisation Généralisation
32 Réduction de lerreur On peut améliorer une approximation... …en faisant une descente de gradient : Point fixe instantané long-terme zones d'intérêt
33 Réduction de lerreur zone d'intérêt Spécialisation Généralisation
34 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation
35 Réduction de lerreur Nouvelle représentation, nouvelles erreurs
36 Réduction de lerreur Nouvelle représentation, nouvelles erreurs
37 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation
38 Expériences (1/2)
39 Expériences (1/2)
40 Expériences (2/2)
41 Expériences (2/2)
42 Une couche fonctionnelle connexionniste supplémentaire Bilan SATRSA Estimation paramètresControle environnement π TR App. représentation π TR S Optimisation du rapport complexité / qualité
43 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
44 Apprentissage de représentation M bonne représentation mauvaise représentation
45 Apprentissage de représentation M1M1 M2M2 M3M3 M4M4 Avoir une seule représentation peut être insuffisant !
46 Apprentissage de représentations M1M1 M2M2 M3M3 M4M4
47 Une approche modulaire M1M1 M2M2 M3M3 M4M4
48 Lapprentissage de représentation cest : Lauto-organisation modulaire cest : Description Problème de classification : nuées dynamiques
49 Expérience 6 tâches à résoudre 3 modules
50 Expérience Module 1 Module 2 Module 3
51 Bilan environnement SATRSA Estimation paramètresControle TR App. représentation TR S π π π SATRSA Estimation paramètresControle TR App. représentation TR S Amélioration du rapport complexité / qualité
52 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives
53 Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement Grand espace d'états ? Apprentissage de représentation Multiplicité des problèmes ? Auto-organisation modulaire Conclusions parallélisme massif optimisation du taux qualité / complexité amélioration du taux qualité / complexité
54 Schémas d'approximations convergents Généricité des résultats Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches Conclusions
55 Perspectives Extensions/améliorations des travaux de thèse –Gestion adaptative des ressources –Coopération des modules –Implantation matérielle parallèle –Approximateurs de fonctions plus puissants –Le dilemme exploration/exploitation Liens avec des travaux de sciences cognitives