Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet.

Slides:



Advertisements
Présentations similaires
Laurent CARNIS Chargé de Recherche INRETS - GARIG
Advertisements

Dans la peau d’un chercheur
Renforcer les relations et les réseaux
Model de control optimal vs model de système dynamique
Réseaux neuronaux - Architectures et algorithmes
Réseaux neuronaux - Architectures et algorithmes
Placement de Motifs Architecture Application Contraintes: - Charge
Fabrice Lauri, François Charpillet, Daniel Szer
Le Cadre Européen Commun de Référence pour les Langues
Frédéric Gava JFLA2006 Une implantation de la juxtaposition parallèle.
Karima Boudaoud, Charles McCathieNevile
1 TCHAD ATELIER PARIS21 SUR LUTILISATION DES STATISTIQUES DANS LES POLITIQUES DE LUTTE CONTRE LA PAUVRETE ET DE DEVELOPPEMENT Yaoundé 09-11/12/02 Producteurs.
10/31/02 Leïla Merghem - LIP6 Une approche Multi-Agents pour la Simulation de Réseaux de Télécommunications Leïla Merghem (LIP 6) Dominique Gaïti (LIP.
Introduction à la tolérance aux défaillances
LE MANAGEMENT DE RESSOURCES Metacomputing 12 Février Février 2003 Ki Hassan Damien Azambre Fabrice Théolière DEA DISIC.
1 Pierre LandryEfficacité des dispositifs FOAD - Toulouse janvier 2009 Journées détudes internationales Efficacité des dispositifs FOAD Toulouse,
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Henry Boccon-Gibod IA « faible » et « forte » Efficacité dune conciliation des approches.
Lévaluation des processus, un outil au service de la stratégie municipale en matière dintervention sociale … 3 illustrations bisontines.
LES RESEAUX DE NEURONES
Les jeux persistants massivement Multijoueurs : problèmes techniques Vincent Roudaut MASTER M2 ESTC/CAM
Stabilisation instantanée efficace
Yann Chevaleyre et Jean-Daniel Zucker
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Informatique parallèle hautes performances
Le 19/ 11/ Modèle de tarification planifiée pour les réseaux mobiles Mustapha OUGHDI Alexandre CAMINADA Sid LAMROUS.
Journée de Travail Groupe “Bermudes”
DEMARCHES PEDAGOGIQUES en PSE
ARM : un modèle réflexif asynchrone - J. Malenfant et S. Denier (LMO 2003, 3/02/2003) ARM : un modèle réflexif asynchrone pour les objets répartis et réactifs.
Sélection automatique d’index et de vues matérialisées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
5. Algorithme à estimation de distribution
Les Systèmes Multi-Agents pour la Gestion de Production
Analyse du positionnement compétitif de la Wallonie Séminaire SPIDER 27 janvier 2005, Bruxelles Ministère de la Région Wallonne Direction de la Politique.
I.A. Session 2009/2010 E.P.S.I. Bordeaux – C.S.I.I – 3 ème Année – Cours n°2.
Chaire UNESCO - Calcul numérique intensif
Pérennité du Secteur de la Réadaptation Physique:
Projet région Thématique prioritaire n°10 Calculs Scientifiques Logiciels Rhône-Alpes : Grille pour le Traitement dInformations Médicales (RAGTIME ?)
Vincent Thomas Christine Bourjot Vincent Chevrier
Modélisation de la lecture grâce à un modèle connexionniste
Programmation non procédurale Le projet ECOLE 2000
Jack Burga Carmona juillet 2010 Renforcer la Capacité des Réseaux en Gestion de la Performance Sociale.
Apprendre à l´école à travers des projets
LGI2P Centre de Recherche Projet PABADIS. LGI2P Centre de Recherche Groupe Heuristiques et Systèmes Complexes PABADIS : Plant Automation Based on Distributed.
8INF856 Programmation sur architectures parallèles
Mission du professeur exerçant en collège, en lycée d’ enseignement général et technologique ou en lycée professionnel. Circulaire n o du 23 mai.
Étude d’un protocole de partage de travail entre systèmes Pair à Pair
Le calcul posé à l'école élémentaire Une évolution des enjeux Un rééquilibrage des types de calcul dans les programmes 2008 S'approprier des techniques.
Sureté de fonctionnement dans les WNCS
© Stage « Plateforme de Simulation EcoTPL » Juillet/Décembre 2010 date de la soutenance : 11/01/2011 Charly HAMY Orange Business Services (Lyon)
Programmes OMD de perfectionnement du personnel d’encadrement Riitta Passi – Direction du renforcement des capacités Riitta Passi.
Introduction aux solutions Microsoft pour le HPC.
Distributed Planning Distributed Problem Solving, motivations, strategies. Distributed Planning : Centralized planning for distributed plans. Distributed.
COMPARAISON ENTRE GNUTELLA ET FREENET
Optimisation pour la Conception de Systèmes Embarqués
Nombres complexes.
GPA-779 Application des systèmes experts et des réseaux de neurones.
L’ESPACE : UNE RESSOURCE COÛTEUSE ET LIMITÉE MARIO BOUCHARD DIRECTEUR, SERVICE DES IMMEUBLES.
Centralisation d’un système de supervision réseau
Étude de systèmes de fichiers distribués Théorie et pratique Cyril Séguin Directeurs de thèse Gaël Le Mahec Alain Cournier Benjamin Depardon c.
Apprendre en autonomie Apprendre l’autonomie Groupe départemental - Maitrise de la langue
30/11/2007Architecture logicielle pour l’adaptation dynamique; Application à la réplication de données1 Architecture logicielle pour l’adaptation dynamique.
Mireille Zwiller - Janvier 2005 Le Management des organisations en Sciences et technologies de la gestion STG Horaire en première et terminale : 1 + (1)
Le calcul mental _ février 2010 ARGENTEUIL SUD
Ordonnancement en présence d’agents individualistes
Algorithmes parallèles
Protocoles de routage dynamique RIP & OSPF
CALCUL STRATÉGIQUE Calcule vite et bien ! Des calculs qui s’entendent.
LES SYSTÈMES DYNAMIQUES.
مادة : ديداكتيك الجغرافيا
Transcription de la présentation:

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

2 Construire un agent autonome Calculer une stratégie/politique Exemples –marcher –conduire une voiture –jouer au backgammon Environnement perception action renforcement instantané long-terme

3 Représentation et organisation modulaire Organisation en modules spécialisés Organisation centralisée 24 V V Perception brute Représentation ?

4 S'inspirer d'un système performant autonome robuste "anytime" dynamique distribué & parallèle tolérant aux pannes réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle Algorithmes connexionnistes

5 Objectifs Montrer que les problèmes consistant à –calculer une stratégie/politique –apprendre une représentation –organiser un système en modules admettent des solutions connexionnistes Comprendre les enjeux computationnels d'une telle approche

6 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

7 Algorithmes connexionnistes Connectivité Activations Loi(s) d'apprentissage (A)synchronisme ? entrées sorties propagation synchrone Loi de Hebb Système dynamique généralement complexe à analyser et concevoir !

8 Un calcul connexionniste unités Activation t=0 M t=1 M M t=... M M M <1 Contraction Point fixe

9 Un calcul connexionniste Calcul du point fixe d'une contraction –Solution traditionnelle –Solution connexionniste calcul distribué parallèle asynchrone M [Bertsekas & Tsitsiklis, 89]

10 Propriétés du calcul du point fixe… –anytime –dynamique … avec une méthode connexionniste –massivement parallèle Difficulté : taille du réseau –nombre ditérations pour approcher le point fixe Bilan

11 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

12 Contrôle optimal états actions transition récompense T(s,a,s)=P(s|s,a) R(s) : S A On cherche une politique qui maximise les récompenses sur le long terme On calcule la fonction de valeur optimale : instantané long-terme

13 Illustration Actions Plan :

14 Illustration Récompense

15 Illustration Fonction de valeur optimale récompense

16 Illustration Politique optimale fonction de valeur optimale

17 Lien avec le connexionnisme V R s s' s''... T(s,,s') T(s,,s'')

18 Un calcul dynamique

19 Apprentissage par renforcement Problème de contrôle optimal dont on ne connaît pas les paramètres a priori Estimation des paramètres Le dilemme exploration/exploitation ?

20 Lien avec le connexionnisme Dans le réseau –Estimation de R : calculée par chaque unité –Estimation de T : loi d'apprentissage du réseau similaire à la loi de Hebb V R s s' s''... T(s,,s') T(s,,s'')

21 Une architecture connexionniste pour lapprentissage par renforcement : Difficulté : taille de l'espace d'états –nombre ditérations pour le point fixe –estimation de R et T Bilan SATRSA Estimation paramètresControle environnement π TR

22 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

23 Représentation Difficile à exploiter

24 Représentation Chemin sous-optimal

25 Représentation Chemin optimal

26 Qu'est-ce qu'une bonne représentation ? Qualité Complexité

27 Mesure de lerreur d'approximation Lerreur dapproximation définie par dépend de lerreur dinterpolation et est le point fixe de Calcul de la politique la plus incertaine [Munos, 99] instantané long-terme

28 Mesure de lerreur Erreur dinterpolation

29 Mesure de lerreur Erreur dapproximation

30 Mesure de lerreur Politique la plus incertaine

31 Réduction de l'erreur Qualité Complexité Spécialisation Généralisation

32 Réduction de lerreur On peut améliorer une approximation... …en faisant une descente de gradient : Point fixe instantané long-terme zones d'intérêt

33 Réduction de lerreur zone d'intérêt Spécialisation Généralisation

34 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation

35 Réduction de lerreur Nouvelle représentation, nouvelles erreurs

36 Réduction de lerreur Nouvelle représentation, nouvelles erreurs

37 Réduction de lerreur Nouvelle représentation, nouvelles erreurs Spécialisation Généralisation

38 Expériences (1/2)

39 Expériences (1/2)

40 Expériences (2/2)

41 Expériences (2/2)

42 Une couche fonctionnelle connexionniste supplémentaire Bilan SATRSA Estimation paramètresControle environnement π TR App. représentation π TR S Optimisation du rapport complexité / qualité

43 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

44 Apprentissage de représentation M bonne représentation mauvaise représentation

45 Apprentissage de représentation M1M1 M2M2 M3M3 M4M4 Avoir une seule représentation peut être insuffisant !

46 Apprentissage de représentations M1M1 M2M2 M3M3 M4M4

47 Une approche modulaire M1M1 M2M2 M3M3 M4M4

48 Lapprentissage de représentation cest : Lauto-organisation modulaire cest : Description Problème de classification : nuées dynamiques

49 Expérience 6 tâches à résoudre 3 modules

50 Expérience Module 1 Module 2 Module 3

51 Bilan environnement SATRSA Estimation paramètresControle TR App. représentation TR S π π π SATRSA Estimation paramètresControle TR App. représentation TR S Amélioration du rapport complexité / qualité

52 Plan Introduction Un calcul connexionniste Contrôle optimal et apprentissage par renforcement Apprentissage de représentation Auto-organisation modulaire Conclusions et perspectives

53 Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement Grand espace d'états ? Apprentissage de représentation Multiplicité des problèmes ? Auto-organisation modulaire Conclusions parallélisme massif optimisation du taux qualité / complexité amélioration du taux qualité / complexité

54 Schémas d'approximations convergents Généricité des résultats Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches Conclusions

55 Perspectives Extensions/améliorations des travaux de thèse –Gestion adaptative des ressources –Coopération des modules –Implantation matérielle parallèle –Approximateurs de fonctions plus puissants –Le dilemme exploration/exploitation Liens avec des travaux de sciences cognitives