La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet.

Présentations similaires


Présentation au sujet: "Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet."— Transcription de la présentation:

1 Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

2 2 Construire un agent autonome Calculer une stratégie/politique Exemples –marcher –conduire une voiture –jouer au backgammon Environnement perception action renforcement instantané long-terme

3 3 Représentation et organisation modulaire Organisation en modules spécialisés Organisation centralisée 24 V 50000 V Perception brute Représentation ?

4 4 S'inspirer d'un système performant autonome robuste "anytime" dynamique distribué & parallèle tolérant aux pannes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle Algorithmes connexionnistes

5 5 Objectifs Montrer que les problèmes consistant à –calculer une stratégie/politique –apprendre une représentation –organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche

6 6 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

7 7 Algorithmes connexionnistes Connectivité Activations Loi(s) d'apprentissage (A)synchronisme ? entrées sorties propagation synchrone Loi de Hebb Système dynamique généralement complexe à analyser et concevoir !

8 8 Un calcul connexionniste unités Activation t=0 M t=1 M M t=... M M M <1 Contraction Point fixe

9 9 Un calcul connexionniste Calcul du point fixe d'une contraction –Solution traditionnelle –Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89]

10 10 Propriétés du calcul du point fixe… –anytime –dynamique … avec une méthode connexionniste –massivement parallèle Difficulté : taille du réseau –nombre ditérations pour approcher le point fixe Bilan

11 11 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

12 12 Contrôle optimal états actions transition récompense T(s,a,s)=P(s|s,a) R(s) : S A On cherche une politique qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale : instantané long-terme

13 13 Illustration Actions Plan :

14 14 Illustration Récompense

15 15 Illustration Fonction de valeur optimale récompense

16 16 Illustration Politique optimale fonction de valeur optimale

17 17 Lien avec le connexionnisme V R s s' s''... T(s,,s') T(s,,s'')

18 18 Un calcul dynamique

19 19 Apprentissage par renforcement Problème de contrôle optimal dont on ne connaît pas les paramètres a priori Estimation des paramètres Le dilemme exploration/exploitation ?

20 20 Lien avec le connexionnisme Dans le réseau –Estimation de R : calculée par chaque unité –Estimation de T : loi d'apprentissage du réseau similaire à la loi de Hebb V R s s' s''... T(s,,s') T(s,,s'')

21 21 Une architecture connexionniste pour lapprentissage par renforcement : Difficulté : taille de l'espace d'états –nombre ditérations pour le point fixe –estimation de R et T Bilan SATRSA Estimation paramètresControle environnement π TR

22 22 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

23 23 Représentation Difficile à exploiter

24 24 Représentation Chemin sous-optimal

25 25 Représentation Chemin optimal

26 26 Qu'est-ce qu'une bonne représentation ? Qualité Complexité

27 27 Mesure de lerreur d'approximation Lerreur dapproximation définie par dépend de lerreur dinterpolation et est le point fixe de Calcul de la politique la plus incertaine [Munos, 99] instantané long-terme

28 28 Mesure de lerreur Erreur dinterpolation

29 29 Mesure de lerreur Erreur dapproximation

30 30 Mesure de lerreur Politique la plus incertaine

31 31 Réduction de l'erreur Qualité Complexité Spécialisation Généralisation

32 32 Réduction de lerreur On peut améliorer une approximation... …en faisant une descente de gradient : Point fixe instantané long-terme zones d'intérêt

33 33 Réduction de lerreur zone d'intérêt Spécialisation Généralisation

34 34 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation

35 35 Réduction de lerreur Nouvelle représentation, nouvelles erreurs

36 36 Réduction de lerreur Nouvelle représentation, nouvelles erreurs

37 37 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation

38 38 Expériences (1/2)

39 39 Expériences (1/2)

40 40 Expériences (2/2)

41 41 Expériences (2/2)

42 42 Une couche fonctionnelle connexionniste supplémentaire Bilan SATRSA Estimation paramètresControle environnement π TR App. représentation π TR S Optimisation du rapport complexité / qualité

43 43 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

44 44 Apprentissage de représentation M bonne représentation mauvaise représentation

45 45 Apprentissage de représentation M1M1 M2M2 M3M3 M4M4 Avoir une seule représentation peut être insuffisant !

46 46 Apprentissage de représentations M1M1 M2M2 M3M3 M4M4

47 47 Une approche modulaire M1M1 M2M2 M3M3 M4M4

48 48 Lapprentissage de représentation cest : Lauto-organisation modulaire cest : Description Problème de classification : nuées dynamiques

49 49 Expérience 6 tâches à résoudre 3 modules

50 50 Expérience 1 2 3 Module 1 Module 2 Module 3

51 51 Bilan environnement SATRSA Estimation paramètresControle TR App. représentation TR S π π π SATRSA Estimation paramètresControle TR App. représentation TR S Amélioration du rapport complexité / qualité

52 52 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

53 53 Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement Grand espace d'états ? Apprentissage de représentation Multiplicité des problèmes ? Auto-organisation modulaire Conclusions parallélisme massif optimisation du taux qualité / complexité amélioration du taux qualité / complexité

54 54 Schémas d'approximations convergents Généricité des résultats Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches Conclusions

55 55 Perspectives Extensions/améliorations des travaux de thèse –Gestion adaptative des ressources –Coopération des modules –Implantation matérielle parallèle –Approximateurs de fonctions plus puissants –Le dilemme exploration/exploitation Liens avec des travaux de sciences cognitives


Télécharger ppt "Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet."

Présentations similaires


Annonces Google