La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Centre de recherche LGI2P Réseaux de Neurones Formels Commande de processus Groupe Heuristiques et Systèmes complexes.

Présentations similaires


Présentation au sujet: "1 Centre de recherche LGI2P Réseaux de Neurones Formels Commande de processus Groupe Heuristiques et Systèmes complexes."— Transcription de la présentation:

1 1 Centre de recherche LGI2P Réseaux de Neurones Formels Commande de processus Groupe Heuristiques et Systèmes complexes

2 2 Centre de recherche LGI2P Plan Introduction Axes de recherche sur les RNF au LGI2P Applications à la commande de processus Perspectives

3 3 Centre de recherche LGI2P Introduction

4 4 Réseaux de neurones formels Propriétés des réseaux de neurones formels : –Approximation universelle –Apprentissage –Généralisation v : potentiel neuronal f : fonction dévaluation Neurone formel Réseau multicouche (statique) entrées sorties... entrées Cartes Auto-organisatrices Kohonen entrées sortie retards Réseau bouclé

5 5 Centre de recherche LGI2P Approximation Approximation universelle –Un réseau statique à une couche cachée à fonction d'évaluation sigmoïde peut approcher toute fonction continue avec la précision désirée (Hornik[89],Cybenko[89]). Mais : –Comment choisir les entrées ? –Combien de neurones ? –Comment calculer les coefficients synaptiques ?

6 6 Centre de recherche LGI2P Apprentissage Apprentissage C'est la phase de calcul des poids synaptiques à partir de données afin que le réseau associe convenablement entrées et sorties du réseau. Apprentissage supervisé : Le "professeur"connaît les sorties désirées et corrige le réseau en fonction des erreurs commises. Apprentissage par renforcement : Le "professeur" ne connaît pas les sorties désirées mais est capable de guider l'ajustement des poids par une forme de "critique". Apprentissage non supervisé : Pas de "professeur", le réseau s'auto-organise en fonction des données et d'une règle de modification des poids synaptiques.

7 7 Centre de recherche LGI2P Généralisation Généralisation : C'est la capacité du réseau à interpoler, c'est à dire à traiter correctement des données "proches" de celle rencontrées pendant l'apprentissage. Un réseau ne peut pas a priori extrapoler : Sa réponse à des entrées éloignées de celles présentées pendant l'apprentissage est a priori incorrecte.

8 8 Centre de recherche LGI2P Applications des RNF Approximation de fonction, Classification, Traitement du signal, Modélisation et commande de processus non linéaires, Simulation et prédiction de phénomènes : physiques, économiques...

9 9 Centre de recherche LGI2P Axes de recherche sur les RNF au LGI2P

10 10 Centre de recherche LGI2P Axes de recherche RNF Architectures Apprentissage Applications Outils - Choix dun modèle neuronal - Approches locales/globales - Apprentissage supervisé (réseaux bouclés) - Apprentissage par renforcement - Apprentissage non supervisé (voisinage obs) - Classification, prédiction, commande - Systèmes des production, environnement, services, biotechnologies - Test de cartes neuronales : ZISC - Développement de logiciels

11 11 Centre de recherche LGI2P Travaux menés en laboratoire Thèses : en cours –Séparation de source de signaux présentant des retards purs –Contribution a létude et au développement de modèles connexionnistes à apprentissage par renforcement : application à lacquisition de comportements adaptatifs –Commande par Réseaux de Neurones : Application au Contrôle dun Préhenseur Pneumatique –Approximation de variétés par réseaux auto-organisés –Apprentissage par renforcement et systèmes distribués DEA : 5 –Thèmes : Classification, Identification de processus dynamiques, Apprentissage par renforcement Travaux personnels détudiants (IR, stages…) : –Thèmes : Apprentissage par renforcement (Hexapode), apprentissage de réseaux bouclés (modélisation de systèmes karstiques, méthodes des copies), reconnaissance de formes

12 12 Centre de recherche LGI2P Projets Projets Européens (ESPRIT) –QUETA [Esprit, ] : Quality Engineering Tools for Assembly and Small Batches Manufacturing Projets Nationaux –IMRA [|99-00] : Détection dobstacles par radar ultrasonore. –SABATE[99] : classification de bouchons –QUALIFLOW [00] : Conception dun contrôleur de débit massique. Convention de collaboration –IBM (carte ZISC) [00-…] Projets d étudiants en entreprise et encadrés par le LGI2P –CVI : Maintenance conditionnelle : Diagnostic de défaut sur machine tournante –SNR : Analyse qualité sur des roulements à bille [00-02]

13 13 Centre de recherche LGI2P Applications à la commande de processus

14 14 Centre de recherche LGI2P Apprentissage supervisé de Réseaux de neurones bouclés Application à la commande en position dun actionneur pneumatique Analyse et calcul de paramètres dune chaîne logistique Metal bellows

15 15 Centre de recherche LGI2P Apprentissage supervisé de réseau bouclés : problème Problème : le gradient à litération k dépend de toutes les valeurs de gradient passées. => complexité de calcul croissante d k Fonction de coût : + - Règle dapprentissage (descente de gradient) avec s k s k-1 Fonction réalisée par le RNF : e1ke1k f e2ke2k ff 1

16 16 Centre de recherche LGI2P Méthode des copies [ESPCI] 1 : Représenter le réseau sous forme canonique (tous les retours sont externes au réseau et présentent un retard unitaire) 2 : Ouvrir les boucles et dupliquer le réseau dans le temps sur une fenêtre temporelle de longueur fixe. 3 : Ajuster les coefficients par rétropropagation sur le réseau déplié et considéré comme statique Contribution du LGI2P : adaptation de la méthode au calcul de contrôleurs récursifs en commande de processus

17 17 Centre de recherche LGI2P Méthode des copies e1ke1k e2ke2k e3ke3k sksk f 1 1 f f Id s k-1 s k-2 s k-1 1)Représentation canonique 2) Les boucles sont ouvertes et le réseau est dupliqué 3) Rétropropagation à travers la fenêtre temporelle Nt copies du réseau dans la fenêtre de Nt périodes déchantillonnage sksk s k-1 f e1ke1k e2ke2k e3ke3k f f Id s k-1 s k-2 Copy 1 f f e 1 k-Nt+1 e 2 k-Nt+1 e 3 k-Nt+1 f Id s k-Nt s k-Nt-1 Copy Nt f f e 1 k-1 e 2 k-1 e 3 k-1 f Id s k-2 s k Copy 2 Variantes selon initialisation

18 18 Centre de recherche LGI2P Commande en position dun actionneur pneumatique Méthode : 1) Etude dynamique et choix des entrées/sorties. 2) Calcul dun modèle neuronal de lactionneur. 3) Choix dune stratégie de commande et adaptation de la méthode des copies au calcul du contrôleur neuronal. Système non linéaire car : - lair est compressible, - phénomènes de turbulences dans la vanne jet-pipe. Soufflets métalliques air 300 mm

19 19 Centre de recherche LGI2P Commande par RNF Commande par RNF Représentation sous forme canonique du bloc de commande Modèle neuronal de la pince Id: fonction identité u k-1 u k-2 yckyck ykyk y k-1 y k-2 y k+1 Id 1 period delay ykyk y k-1 u k-1 ukuk Contrôleur neuronal + - y d k+1 Schéma de commande + YpYp U YpYp Pince contrôleur neuronal Y c U U n Modèle neuronal de lactionneur Y- YdYd +

20 20 Centre de recherche LGI2P Résultats u k : tension de vanne à linstant k. y k : sortie du modèle à k. y c k : position désirée Test of the neural controller y d k : trajectoire désirée p y p k : position réelle

21 21 Centre de recherche LGI2P Chaîne logistique : unité de production Chaîne logistique : unité de production If (rth-stin) >0 app = Max [appmin, Min [appmax,(rth-stin)]] else app=0 Temps de réappro. : tapp Seuil de réapprovisionnement : rth Minimum dappro : appmin Maximum dappro : appmax Niveau de stock en entrée : stin Seuil de mis en fabrication : pth Nombre de composants pour fabriquer un produit final : num Capacité de production : cmax Temps de fabrication : tfab fab = Max [0, Min [cmax,(pth-stout)]] Niveau de stock en sortie : stout Paramètres: rth, pth Processus dassemblage Unité de production ORDRES PRODUITS Ordre de fabrication: fab Stock de sortie Stocks en entrés ORDRES PRODUITS rth pth Commande dapprovisionnement: app [P. Massotte]

22 22 Centre de recherche LGI2P Modèle neuronal dune unité If rth j -stin j k >0 app j k = Max [appminj, Min [appmax j,(rth j -stin j k )]] else app j k =0 fab i k = Max [0, Min [cmax i,(pth i -stout i k )]] Modèle neuronal sous forme canonique

23 23 Centre de recherche LGI2P Ajustement des paramètres k stout k = 109 p. Ajustement des paramètres pour minimiser le niveau de stock avec stin>3 and stout>0 k stin k = 100 p.

24 24 Centre de recherche LGI2P Apprentissage par renforcement Le renforcement est déterminé par lobjectif à atteindre : définition ? Le but de lacteur est de maximiser les récompenses à venir : estimation ? Lacteur apprend par processus essai/erreur : méthode ? Il doit résoudre un dilemme exploration/exploitation: compromis ? Cas des systèmes distribués et des systèmes dynamiques : qui et quand récompenser ? Renforcement Acteur(s) ou Agent(s) Environnement a t s t r t+1 ActionSituation Schéma de principe

25 Apprentissage de la marche d un robot hexapode But de létude –Montrer que grâce aux propriétés d apprentissage, il n est pas nécessaire de construire un modèle du robot. La coordination des mouvements est guidée par les informations renvoyées par lenvironnement. R1 R2 R3 L1 L2 L3

26 Architecture du réseau Les neurones calculent la probabilité deffectuer une poussée Laction S i est binaire –1 : la patte exerce une poussée vers l arrière –0 : la patte est ramenée en position avant Les traitements sont distribués : un neurone par patte mais lapprentissage est centralisé (même renforcement pour toutes les pattes). [A. Johannet ]

27 Apprentissage centralisé A chaque itération et pour tout neurone, on calcule – = (+1).P(+1) + (-1).P(-1) ; qui représente la valeur de sortie moyenne. Selon un algorithme de pénalité/récompense : – C ij = µ r (r.S i - ).E j –si le dernier mouvement conduit à un succès (avance), le réseau est encouragé à le refaire (r = +1); –si le dernier mouvement est un échec (chute, recul …), le réseau est encouragé à léviter (r = -1). –Toutes les pattes reçoivent les mêmes pénalités/récompenses (apprentissage centralisé) -- R3 R2 R1 L3 L2 L1 proaction Marche tripode des insectes Résultat :

28 Apprentissage de systèmes distribués Chaque patte a sa propre fonction objectif, la marche devient un phénomène émergeant. Algorithme de pénalité/récompense de type Q-learning – Chaque patte choisit depuis létat s laction a qui maximise le cumul des récompenses futures Q(s,a) –En appliquant laction a chaque patte passe dun état s à un état s et reçoit le renforcement r => Q(s,a) inconnue est estimée au cours du processus essais/erreurs : A chaque nouvel essai dune action a : Q(s,a) Q(s,a) +.(r+ max b Q(s,b) - Q(s,a)) R3 R2 R1 L3 L2 L1 Résultats : * diverses marches hexapodes sont obtenues comme cycles attracteurs du système non linéaire bouclé, * il est possible de passer dune marche à une autre par choix de la vitesse de déplacement (durée du mouvement de rétraction), * lapprentissage est plus rapide si certains renforcements sont envoyés à toutes les pattes.

29 29 Centre de recherche LGI2P Approximation de variétés par réseaux de neurones auto-organisés Position des sommets (Représentants) Topologie (TDI) CHL [Martinetz94] Interpolation Modèle discretModèle linéaire Modèle non linéaire [Michael Aupetit ]

30 30 Centre de recherche LGI2P Placement des représentants Principe : Quantification Vectorielle –sans voisinage –avec voisinage + convergence + distorsion gagnant voisin 1 voisin 2 Compétition donnée Adaptation apprentissage Taille voisinage n 1 Résultat : respect densité Quel voisinage utiliser => proposition voisinage Observable

31 31 Centre de recherche LGI2P Noyaux de Voronoï Principe: –But : approximer une fonction g par f –Fonctions noyaux dont létendue dépend de la position des voisins dans la triangulation –Les paramètres de Ai et bi sont calculés par une méthode supervisée (minimisation de lécart quadratique entre f et la fonction à approximer) Représentant intervenant dans lapproximation (c.a.d appartenant à Sx) x Noyaux 0 1

32 32 Centre de recherche LGI2P Noyaux de Voronoï Induits en Approximation de Fonctions Identification dun préhenseur électropneumatique Résultat : EQM app. : 0.02, EQM test : 0.08 comparable MLP bouclé [Couturier97] 54 paramètres au lieu de 37. T = 0.1 s ukuk ykyk Ecart entre sortie observée et modèle Volts Unité y : 3mm/Volts Soufflets métalliques air 300 mm

33 33 Centre de recherche LGI2P Perspectives Architectures –architectures modulaires –approches locales Règles dapprentissage –application de la méthode des copies en apprentissage par renforcement –travaux sur les règles dapprentissage non supervisé (recrutement) Applications –biotechnologie (tri de molécules) –introduction de techniques dapprentissage dans les approches heuristiques de résolution de problèmes doptimisation combinatoire –apprentissage par renforcement dans les systèmes multi-agents

34 34 Centre de recherche LGI2P Biblographie JOHANNET A., SARDA I., Goal-directed behaviours by renforcement learning, Neuro-computing, Elsevier, pp , 1999 COUTURIER, P., JOHANNET, A. and BÉTEMPS, M. Neural Controllers: Tracking and Regulation of a Nonlinear Pneumatic Plant, International Journal of Knowledge-Based Intelligent Engineering Systems, October Vol 2, N° 4, p AUPETIT, M., Lepetz, D., Nemoz-Gaillard, M., Couturier, P., Massotte, P., Réseaux de Neurones et Traitement de Données: la Notion de Voisinage -Observable, Valgo 2001 (ISSN ), n. 1, March 2001 AUPETIT, M., COUTURIER, P., MASSOTTE, P., Induced Voronoï Kernels for Principal Manifolds Approximation, Workshop on Self-Organizing Maps (WSOM2001), Lincoln, England, June 13-15, AUPETIT, M., COUTURIER, P., MASSOTTE, P., Vector Quantization with -Observable Neighbors, Workshop on Self-Organizing Maps (WSOM2001), Lincoln, England, June 13-15, COUTURIER P., Modelling and control of mecatronics systems using recurrent neural networks, MECATRONICS'01, Actes électroniques, Besançon, France, pp , octobre 2001.


Télécharger ppt "1 Centre de recherche LGI2P Réseaux de Neurones Formels Commande de processus Groupe Heuristiques et Systèmes complexes."

Présentations similaires


Annonces Google