Réseaux de Neurones Formels Commande de processus

Slides:

Advertisements

Présentations similaires

Fabrice Lauri, François Charpillet, Daniel Szer

Advertisements

« Systèmes électroniques »

M1 MASTER GESTION Séance 3 Pilotage coûts- délais

ETUDE DU NEWS BOY PROBLEM

Classification et prédiction

Classification et prédiction

La Cyclostationnarité Aspects théoriques et application au Diagnostic

Calcul géométrique avec des données incertaines

RECONNAISSANCE DE FORMES

Calculs de complexité d'algorithmes

Métaheuristiques pour l’optimisation combinatoire

LES RESEAUX DE NEURONES

Prospection par ondes de surface

A Pyramid Approach to Subpixel Registration Based on Intensity

ASSERVISSEMENTS ET REGULATION

Systèmes Experts implémentation en Prolog

Yann SEMET Projet Fractales, INRIA Rocquencourt

Modélisation et commande hybrides d’un onduleur multiniveaux monophasé

Ordonnancement des mouvements de deux robots

Modélisation des systèmes non linéaires par des SIFs

C’est décidé, demain, j’ose changer !

Animation de solides en contact par modèle physique

Chapitre VII :Commande par retour d’état

THÈME APPLICATION OF THE ARTIFICIAL NEURAL NETWORK FOR MODELING THE THERMAL BEHAVIOR OF BUILDING IN HUMID REGION Léopold Mbaa, Pierre Meukamb, Alexis.

Sélection automatique d’index et de vues matérialisées

Le Concept. Régulation électronique LonWorks communicante pour application poutre froide.

Asservissement et régulation continue

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Concepts avancés en mathématiques et informatique appliquées

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Guy Gauthier, ing., Ph.D. Session été 2013.

Application des algorithmes génétiques

Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.

Les Systèmes Multi-Agents pour la Gestion de Production

Classification Multi Source En Intégrant La Texture

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,

Applications du perceptron multicouche

Éclairage Structuré et vision active pour le contrôle qualité de surfaces métalliques réfléchissantes Olivier Morel*, Ralph Seulin, Christophe Stolz, Patrick.

Chapitre 2 : La fonction de transfert

Thèse de Doctorat Troisième cycle de Physique présentée par Mr NZONZOLO Maître es Science Étude en simulation des effets des paramètres macroscopiques.

Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,

Cours Corporate finance Eléments de théorie du portefeuille Le Medaf

Méthode des k plus proches voisins

Modélisation d'un comportement addictif à l'aide de réseaux de neurones artificiels Modèles Constat biologique: Les comportements addictifs avec recompense.

Diagnostic des Systèmes à Evénements Discrets

Les Systèmes asservis.

Réseaux de neurones.

Les réseaux de neurones

Chapitre 7 Réseau ART.

GPA-779 Perceptron multicouche

Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.

Guy Gauthier, ing., Ph.D. Session automne 2012.

Courbes de Bézier.

Corrélation Principe fondamental d’une analyse de corrélation

Modélisation de la topologie avec le Graphe Génératif Gaussien

Ecaterina Giacomini Pacurar

Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,

Filtrage de Kalman et aperçu probabiliste

Demande stochastique stationnaire

ASI 3 Méthodes numériques pour l’ingénieur

1 Notations Asymptotiques Et Complexité Notations asymptotiques : 0 et  Complexité des algorithmes Exemples de calcul de complexité.

1. Présentation générale du système

Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical.

Régulation et Asservissement: Notions de schémas blocs

Christelle Scharff IFI 2004

Les réseaux de neurones à réservoir en traitement d’images

Institut de sciences et technologies Département d’informatique

Les réseaux de neurones à réservoir en traitement d’images

Chapitre 1 - Introduction.

Méthode des moindres carrés (1)

Transcription de la présentation:

Réseaux de Neurones Formels Commande de processus Groupe Heuristiques et Systèmes complexes

Plan Introduction Axes de recherche sur les RNF au LGI2P Applications à la commande de processus Perspectives

Introduction

Réseaux de neurones formels Propriétés des réseaux de neurones formels : Approximation universelle Apprentissage Généralisation Neurone formel v : potentiel neuronal f : fonction dévaluation Réseau multicouche (statique) entrées sorties entrées sortie retards Réseau bouclé ... entrées Cartes Auto-organisatrices Kohonen

Approximation Approximation universelle Mais : Un réseau statique à une couche cachée à fonction d'évaluation sigmoïde peut approcher toute fonction continue avec la précision désirée (Hornik[89],Cybenko[89]). Mais : Comment choisir les entrées ? Combien de neurones ? Comment calculer les coefficients synaptiques ?

Apprentissage Apprentissage C'est la phase de calcul des poids synaptiques à partir de données afin que le réseau associe convenablement entrées et sorties du réseau. Apprentissage supervisé : Le "professeur"connaît les sorties désirées et corrige le réseau en fonction des erreurs commises. Apprentissage par renforcement : Le "professeur" ne connaît pas les sorties désirées mais est capable de guider l'ajustement des poids par une forme de "critique". Apprentissage non supervisé : Pas de "professeur", le réseau s'auto-organise en fonction des données et d'une règle de modification des poids synaptiques.

Généralisation Généralisation : C'est la capacité du réseau à interpoler, c'est à dire à traiter correctement des données "proches" de celle rencontrées pendant l'apprentissage. Un réseau ne peut pas a priori extrapoler : Sa réponse à des entrées éloignées de celles présentées pendant l'apprentissage est a priori incorrecte.

Applications des RNF Approximation de fonction, Classification, Traitement du signal, Modélisation et commande de processus non linéaires, Simulation et prédiction de phénomènes : physiques, économiques ...

Axes de recherche sur les RNF au LGI2P

Axes de recherche Architectures Apprentissage RNF Applications Outils - Choix d’un modèle neuronal - Approches locales/globales - Apprentissage supervisé (réseaux bouclés) - Apprentissage par renforcement - Apprentissage non supervisé (voisinage g obs) - Classification, prédiction, commande - Systèmes des production, environnement, services, biotechnologies - Test de cartes neuronales : ZISC - Développement de logiciels

Travaux menés en laboratoire Thèses : 4 + 1 en cours Séparation de source de signaux présentant des retards purs Contribution a l’étude et au développement de modèles connexionnistes à apprentissage par renforcement : application à l’acquisition de comportements adaptatifs Commande par Réseaux de Neurones : Application au Contrôle d’un Préhenseur Pneumatique Approximation de variétés par réseaux auto-organisés Apprentissage par renforcement et systèmes distribués DEA : 5 Thèmes : Classification, Identification de processus dynamiques, Apprentissage par renforcement Travaux personnels d’étudiants (IR, stages…) : Thèmes : Apprentissage par renforcement (Hexapode), apprentissage de réseaux bouclés (modélisation de systèmes karstiques, méthodes des copies), reconnaissance de formes

Projets Projets Européens (ESPRIT) Projets Nationaux QUETA [Esprit, 1996-1999] : Quality Engineering Tools for Assembly and Small Batches Manufacturing Projets Nationaux IMRA [|99-00] : Détection d’obstacles par radar ultrasonore. SABATE[99] : classification de bouchons QUALIFLOW [00] : Conception d’un contrôleur de débit massique. Convention de collaboration IBM (carte ZISC) [00-…] Projets d ’étudiants en entreprise et encadrés par le LGI2P CVI : Maintenance conditionnelle : Diagnostic de défaut sur machine tournante SNR : Analyse qualité sur des roulements à bille [00-02]

Applications à la commande de processus

Apprentissage supervisé de Réseaux de neurones bouclés Application à la commande en position d’un actionneur pneumatique Analyse et calcul de paramètres d’une chaîne logistique Metal bellows

Apprentissage supervisé de réseau bouclés : problème d k Fonction de coût : + - s k s k-1 Fonction réalisée par le RNF : e1k S f e2k 1 Règle d’apprentissage (descente de gradient) avec Problème : le gradient à l’itération k dépend de toutes les valeurs de gradient passées. => complexité de calcul croissante

Méthode des ‘copies’ [ESPCI] 1 : Représenter le réseau sous forme canonique (tous les retours sont externes au réseau et présentent un retard unitaire) 2 : Ouvrir les boucles et dupliquer le réseau dans le temps sur une fenêtre temporelle de longueur fixe. 3 : Ajuster les coefficients par rétropropagation sur le réseau déplié et considéré comme statique Contribution du LGI2P : adaptation de la méthode au calcul de contrôleurs récursifs en commande de processus

Nt copies du réseau dans la fenêtre de Nt périodes d’échantillonnage Méthode des copies e1k e2k e3k sk S f 1 Id sk-1 sk-2 1)Représentation canonique 2) Les boucles sont ouvertes et le réseau est dupliqué 3) Rétropropagation à travers la fenêtre temporelle Variantes selon initialisation f S e1k-Nt+1 e2k-Nt+1 e3k-Nt+1 Id sk-Nt sk-Nt-1 Copy Nt f S e1k-1 e2k-1 e3k-1 Id sk-2 sk-3 . Copy 2 sk sk-1 S f e1k e2k e3k Id sk-2 Copy 1 Nt copies du réseau dans la fenêtre de Nt périodes d’échantillonnage

Commande en position d’un actionneur pneumatique Méthode : 1) Etude dynamique et choix des entrées/sorties. 2) Calcul d’un modèle neuronal de l’actionneur. 3) Choix d’une stratégie de commande et adaptation de la méthode des copies au calcul du contrôleur neuronal. Soufflets métalliques air 300 mm Système non linéaire car : - l’air est compressible, - phénomènes de turbulences dans la vanne ‘jet-pipe’.

Représentation sous forme canonique du bloc de commande Commande par RNF Représentation sous forme canonique du bloc de commande Modèle neuronal de la pince Id: fonction identité uk-1 uk-2 yck yk yk-1 yk-2 yk+1 Id 1 period delay uk Contrôleur neuronal + - yd k+1 U n Modèle neuronal de l’actionneur Y - Yd + Schéma de commande + Yp U Pince contrôleur neuronal Y c

Test of the neural controller Résultats Neural controller: ext. inputs: y k ,y k-1 k-2, y c state variables: u , u k-2 output: u 6 neurons in the hidden layer sampling period D : 0.1 s u Reference model output is y d 2 nd order system z=0,7; w0=2rd/s Learning algorithm applied to the global network SD: Nc=5,Nt=5 p Test of the neural controller uk: tension de vanne à l’instant k.D ydk: trajectoire désirée yk: sortie du modèle à k.D ypk: position réelle yck: position désirée

Chaîne logistique : unité de production [P. Massotte] Processus d’assemblage Unité de production ORDRES PRODUITS Ordre de fabrication: fab Stock de sortie Stocks en entrés rth pth Commande d’approvisionnement: app Seuil de mis en fabrication : pth Nombre de composants pour fabriquer un produit final : num Capacité de production : cmax Temps de fabrication : tfab fab = Max[0, Min[cmax,(pth-stout)]] Niveau de stock en sortie : stout If (rth-stin) >0 app =Max[appmin, Min[appmax,(rth-stin)]] else app=0 Temps de réappro. : tapp Seuil de réapprovisionnement : rth Minimum d’appro : appmin Maximum d’appro : appmax Niveau de stock en entrée : stin Paramètres: rth, pth

Modèle neuronal d’une unité delay appi k-1 fabi k 1 appj k-1 stinj k stout i k appj k-tapp - numij S rthj pthi stin k-1 -1 stout k-1 fabi k-1 fabi k-tfab stouti k fab i k stin k one block per part j app j k fabik = Max[0, Min[cmaxi,(pthi-stoutik)]] Modèle neuronal sous forme canonique If rthj-stinjk >0 appjk =Max[appminj, Min[appmaxj,(rthj-stinjk)]] else appjk =0

Ajustement des paramètres Ajustement des paramètres pour minimiser le niveau de stock avec stin>3 and stout>0 Sk stin k = 100 p. Sk stout k = 109 p.

Apprentissage par renforcement Acteur(s) ou Agent(s) Environnement a t s t r t+1 Action Situation Schéma de principe Le renforcement est déterminé par l’objectif à atteindre : définition ? Le but de l’acteur est de maximiser les récompenses à venir : estimation ? L’acteur apprend par processus essai/erreur : méthode ? Il doit résoudre un dilemme exploration/exploitation: compromis ? Cas des systèmes distribués et des systèmes dynamiques : qui et quand récompenser ?

Apprentissage de la marche d ’un robot hexapode But de l’étude Montrer que grâce aux propriétés d ’apprentissage, il n ’est pas nécessaire de construire un modèle du robot. La coordination des mouvements est guidée par les informations renvoyées par l’environnement.

Architecture du réseau [A. Johannet ] Les neurones calculent la probabilité d’effectuer une poussée L’action Si est binaire 1 : la patte exerce une poussée vers l ’arrière 0 : la patte est ramenée en position avant Les traitements sont distribués : un neurone par patte mais l’apprentissage est centralisé (même renforcement pour toutes les pattes).

Apprentissage centralisé A chaque itération et pour tout neurone, on calcule <Si> = (+1).P(+1) + (-1).P(-1) ; <Si> qui représente la valeur de sortie moyenne. Selon un algorithme de pénalité/récompense : DCij = µ r (r.Si - <Si>).Ej si le dernier mouvement conduit à un succès (avance), le réseau est encouragé à le refaire (r = +1); si le dernier mouvement est un échec (chute, recul …), le réseau est encouragé à l’éviter (r = -1). Toutes les pattes reçoivent les mêmes pénalités/récompenses (apprentissage centralisé) -- R3R2R1L3L2L1 proaction Marche tripode des insectes Résultat :

Apprentissage de systèmes distribués Chaque patte a sa propre fonction objectif, la marche devient un phénomène ‘ émergeant ’. Algorithme de pénalité/récompense de type Q-learning Chaque patte choisit depuis l’état s l’action a qui maximise le cumul des récompenses futures Q(s,a) En appliquant l’action a chaque patte passe d’un état s à un état s’ et reçoit le renforcement r => Q(s,a) inconnue est estimée au cours du processus essais/erreurs : A chaque nouvel essai d’une action a : Q(s,a)  Q(s,a) + a.(r+ maxbQ(s’,b) - Q(s,a)) R3R2R1L3L2L1 Résultats : * diverses marches hexapodes sont obtenues comme cycles attracteurs du système non linéaire bouclé, * il est possible de passer d’une marche à une autre par choix de la vitesse de déplacement (durée du mouvement de rétraction), * l’apprentissage est plus rapide si certains renforcements sont envoyés à toutes les pattes.

Approximation de variétés par réseaux de neurones auto-organisés [Michael Aupetit 98-2001] Modèle discret Modèle linéaire Modèle non linéaire Position des sommets (Représentants) Topologie (TDI) CHL [Martinetz94] Interpolation

Placement des représentants Principe : Quantification Vectorielle sans voisinage avec voisinage + convergence + distorsion gagnant voisin 1 voisin 2 Compétition donnée Adaptation apprentissage Taille voisinage n 1 Résultat : respect densité Quel voisinage utiliser => proposition voisinage g Observable

Noyaux de Voronoï j Principe: x Noyaux But : approximer une fonction g par f Fonctions noyaux j dont l’étendue dépend de la position des voisins dans la triangulation Les paramètres de Ai et bi sont calculés par une méthode supervisée (minimisation de l’écart quadratique entre f et la fonction à approximer) Représentant intervenant dans l’approximation (c.a.d appartenant à Sx) x Noyaux j 1

Noyaux de Voronoï Induits en Approximation de Fonctions Identification d’un préhenseur électropneumatique Résultat : EQM app. : 0.02, EQM test : 0.08 comparable MLP bouclé [Couturier97] 54 paramètres au lieu de 37. Volts uk yk 4 -4 Soufflets métalliques air 300 mm T = 0.1 s Unité y : 3mm/Volts Volts Ecart entre sortie observée et modèle 1 -1

Perspectives Architectures Règles d’apprentissage Applications architectures modulaires approches locales Règles d’apprentissage application de la méthode des copies en apprentissage par renforcement travaux sur les règles d’apprentissage non supervisé (recrutement) Applications biotechnologie (tri de molécules) introduction de techniques d’apprentissage dans les approches heuristiques de résolution de problèmes d’optimisation combinatoire apprentissage par renforcement dans les systèmes multi-agents

Biblographie JOHANNET A., SARDA I., Goal-directed behaviours by renforcement learning , Neuro-computing, Elsevier, pp 107-125, 1999 COUTURIER, P. , JOHANNET, A. and BÉTEMPS, M. Neural Controllers: Tracking and Regulation of a Nonlinear Pneumatic Plant, International Journal of Knowledge-Based Intelligent Engineering Systems, October 1998. Vol 2, N° 4, p233-246. AUPETIT, M. , Lepetz, D. , Nemoz-Gaillard, M. , Couturier, P. , Massotte, P. , Réseaux de Neurones et Traitement de Données: la Notion de Voisinage g-Observable, Valgo 2001 (ISSN 1625-9661), n. 1, March 2001 AUPETIT, M. , COUTURIER, P., MASSOTTE, P. , Induced Voronoï Kernels for Principal Manifolds Approximation , Workshop on Self-Organizing Maps (WSOM2001), Lincoln, England, June 13-15, 2001. AUPETIT, M. , COUTURIER, P., MASSOTTE, P. , Vector Quantization with g-Observable Neighbors , Workshop on Self-Organizing Maps (WSOM2001), Lincoln, England, June 13-15, 2001. COUTURIER P., Modelling and control of mecatronics systems using recurrent neural networks, MECATRONICS'01, Actes électroniques, Besançon, France, pp 219-224, octobre 2001.