Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet.

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

2 Construire un agent autonome Calculer une stratégie/politique Exemples –marcher –conduire une voiture –jouer au backgammon Environnement perception action renforcement instantané long-terme

3 Représentation et organisation modulaire Organisation en modules spécialisés Organisation centralisée 24 V 50000 V Perception brute Représentation ?

4 S'inspirer d'un système performant autonome robuste "anytime" dynamique distribué & parallèle tolérant aux pannes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle Algorithmes connexionnistes

5 Objectifs Montrer que les problèmes consistant à –calculer une stratégie/politique –apprendre une représentation –organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche

6 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

7 Algorithmes connexionnistes Connectivité Activations Loi(s) d'apprentissage (A)synchronisme ? entrées sorties propagation synchrone Loi de Hebb Système dynamique généralement complexe à analyser et concevoir !

8 Un calcul connexionniste unités Activation t=0 M t=1 M M t=... M M M <1 Contraction Point fixe

9 Un calcul connexionniste Calcul du point fixe d'une contraction –Solution traditionnelle –Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89]

10 Propriétés du calcul du point fixe… –anytime –dynamique … avec une méthode connexionniste –massivement parallèle Difficulté : taille du réseau –nombre ditérations pour approcher le point fixe Bilan

12 Contrôle optimal états actions transition récompense T(s,a,s)=P(s|s,a) R(s) : S A On cherche une politique qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale : instantané long-terme

13 Illustration Actions Plan :

14 Illustration Récompense

15 Illustration Fonction de valeur optimale récompense

16 Illustration Politique optimale fonction de valeur optimale

17 Lien avec le connexionnisme V R s s' s''... T(s,,s') T(s,,s'')

18 Un calcul dynamique

19 Apprentissage par renforcement Problème de contrôle optimal dont on ne connaît pas les paramètres a priori Estimation des paramètres Le dilemme exploration/exploitation ?

20 Lien avec le connexionnisme Dans le réseau –Estimation de R : calculée par chaque unité –Estimation de T : loi d'apprentissage du réseau similaire à la loi de Hebb V R s s' s''... T(s,,s') T(s,,s'')

21 Une architecture connexionniste pour lapprentissage par renforcement : Difficulté : taille de l'espace d'états –nombre ditérations pour le point fixe –estimation de R et T Bilan SATRSA Estimation paramètresControle environnement π TR

23 Représentation Difficile à exploiter

24 Représentation Chemin sous-optimal

25 Représentation Chemin optimal

26 Qu'est-ce qu'une bonne représentation ? Qualité Complexité

27 Mesure de lerreur d'approximation Lerreur dapproximation définie par dépend de lerreur dinterpolation et est le point fixe de Calcul de la politique la plus incertaine [Munos, 99] instantané long-terme

28 Mesure de lerreur Erreur dinterpolation

29 Mesure de lerreur Erreur dapproximation

30 Mesure de lerreur Politique la plus incertaine

31 Réduction de l'erreur Qualité Complexité Spécialisation Généralisation

32 Réduction de lerreur On peut améliorer une approximation... …en faisant une descente de gradient : Point fixe instantané long-terme zones d'intérêt

33 Réduction de lerreur zone d'intérêt Spécialisation Généralisation

34 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation

35 Réduction de lerreur Nouvelle représentation, nouvelles erreurs

36 Réduction de lerreur Nouvelle représentation, nouvelles erreurs

37 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation

38 Expériences (1/2)

42 Une couche fonctionnelle connexionniste supplémentaire Bilan SATRSA Estimation paramètresControle environnement π TR App. représentation π TR S Optimisation du rapport complexité / qualité

44 Apprentissage de représentation M bonne représentation mauvaise représentation

45 Apprentissage de représentation M1M1 M2M2 M3M3 M4M4 Avoir une seule représentation peut être insuffisant !

46 Apprentissage de représentations M1M1 M2M2 M3M3 M4M4

47 Une approche modulaire M1M1 M2M2 M3M3 M4M4

48 Lapprentissage de représentation cest : Lauto-organisation modulaire cest : Description Problème de classification : nuées dynamiques

49 Expérience 6 tâches à résoudre 3 modules

50 Expérience 1 2 3 Module 1 Module 2 Module 3

51 Bilan environnement SATRSA Estimation paramètresControle TR App. représentation TR S π π π SATRSA Estimation paramètresControle TR App. représentation TR S Amélioration du rapport complexité / qualité

53 Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement Grand espace d'états ? Apprentissage de représentation Multiplicité des problèmes ? Auto-organisation modulaire Conclusions parallélisme massif optimisation du taux qualité / complexité amélioration du taux qualité / complexité

54 Schémas d'approximations convergents Généricité des résultats Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches Conclusions

55 Perspectives Extensions/améliorations des travaux de thèse –Gestion adaptative des ressources –Coopération des modules –Implantation matérielle parallèle –Approximateurs de fonctions plus puissants –Le dilemme exploration/exploitation Liens avec des travaux de sciences cognitives

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet.

Présentations similaires

Présentation au sujet: "Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet.

Présentations similaires

Présentation au sujet: "Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back