La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau AgroParisTech d'après les.

Présentations similaires


Présentation au sujet: "1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau AgroParisTech d'après les."— Transcription de la présentation:

1 1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau AgroParisTech d'après les transparents d'Antoine Cornuéjols

2 2 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

3 3 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

4 4 L. Orseau Les réseaux connexionnistes Introduction : Pourquoi les réseaux de neurones ? Inspiration biologique Le cerveau naturel : un modèle très séduisant –Robuste et tolérant aux fautes –Flexible. Facilement adaptable –Saccommode dinformations incomplètes, incertaines, vagues, bruitées... –Massivement parallèle –Capable dapprentissage Neurones – neurones dans le cerveau humain – 10 4 connexions (synapses + axones) / neurone –Potentiel daction / période réfractaire / neuro-transmetteurs –Signaux excitateurs / inhibiteurs

5 5 L. Orseau Les réseaux connexionnistes Introduction : Pourquoi les réseaux de neurones ? Les attraits pratiques Calculs parallélisables Implantables directement sur circuits dédiés Robustes et tolérants aux fautes (calculs et représentations distribués) Algorithmes simples Demploi très général Les défauts Opacité des raisonnements et des résultats dapprentissage

6 6 L. Orseau Les réseaux connexionnistes Historique ( très rapide) Prémisses –Mc Culloch & Pitts (1943) : 1er modèle de neurone formel. Rapport neurone et calcul logique : base de lintelligence artificielle. –Règle de Hebb (1949) : apprentissage par renforcement du couplage synaptique Premières réalisations –ADALINE (Widrow-Hoff, 1960) –PERCEPTRON (Rosenblatt, ) –Analyse de Minsky & Papert (1969) Nouveaux modèles –Kohonen (apprentissage compétitif),... –Hopfield (1982) (réseau bouclé) –Perceptron Multi-Couches (1985) Analyse et développements –Théorie du contrôle, de la généralisation (Vapnik),...

7 7 L. Orseau Les réseaux connexionnistes Le perceptron Rosenblatt ( )

8 8 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

9 9 L. Orseau Les réseaux connexionnistes Discrimination linéaire : le Perceptron [Rosenblatt, 1957,1962]

10 10 L. Orseau Les réseaux connexionnistes Discrimination linéaire : le Perceptron

11 11 L. Orseau Les réseaux connexionnistes Discrimination linéaire : le Perceptron

12 12 L. Orseau Les réseaux connexionnistes Discrimination linéaire : le Perceptron Discrimination contre tous les autres

13 13 L. Orseau Les réseaux connexionnistes Discrimination linéaire : le Perceptron Discrimination entre deux classes

14 14 L. Orseau Les réseaux connexionnistes Le perceptron : critère de performance Critère doptimisation (fonction derreur) : Nb total derreurs de classification : NON Critère du Perceptron : Car nous voulons pour toutes les formes dapprentissage : Proportionnel à la distance à la surface de décision (pour toutes les formes mal classées) Fonction continue et linéaire par morceaux

15 15 L. Orseau Les réseaux connexionnistes Apprentissage direct : méthode de la pseudo-inverse La solution directe (méthode de la pseudo-inverse) requiert La connaissance de toutes les paires (x i,y i ) Une inversion de matrice (souvent mal-configurée) (seulement pour un réseau linéaire et une fonction derreur quadratique) Nécessité dune méthode itérative sans inversion de matrice à Descente de gradient

16 16 L. Orseau Les réseaux connexionnistes Le perceptron : algorithme Méthode dexploration de H Recherche par gradient –Minimisation de la fonction derreur –Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à chaque connexion quelque chose de proportionnel à l'entrée et à la sortie. –Apprentissage seulement si erreur de classification Algorithme : si la forme est correctement classée : ne rien faire sinon : boucler sur les formes dapprentissage jusquà critère darrêt Convergence ?

17 17 L. Orseau Les réseaux connexionnistes Le perceptron : convergence et capacité mémoire Questions : Quest-ce qui est apprenable ? –Résultat de [Minsky & Papert,68] : séparatrices linéaires Garantie de convergence ? –Théorème de convergence du Perceptron [Rosenblatt,62] Fiabilité de lapprentissage et nombre dexemples –Combien faut-il dexemples dapprentissage pour avoir une certaine garantie sur ce qui est appris ?

18 18 L. Orseau Les réseaux connexionnistes Capacité expressive : Séparations linéaires

19 19 L. Orseau Les réseaux connexionnistes Capacité expressive : Séparations linéaires

20 20 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

21 21 L. Orseau Les réseaux connexionnistes Les réseaux de neurones : Types de réseaux Interconnecté à boucles (e.g. réseau de Hopfield) Fonctionnement en reconnaissance Apprentissage ?

22 22 L. Orseau Les réseaux connexionnistes Modèles de base : le Perceptron Multi-Couches Topologie typique

23 23 L. Orseau Les réseaux connexionnistes Le Perceptron Multi-Couches : propagation Pour chaque neurone : poids w jk : poids de la connexion de la cellule j à la cellule k activation a k : activation de la cellule k fonction dactivation g : fonction dactivation g(a) = g(a)(1-g(a))

24 24 L. Orseau Les réseaux connexionnistes Le Perceptron Multi-Couches : exemple du XOR

25 25 L. Orseau Les réseaux connexionnistes Exemple de réseau (simulateur JavaNNS)

26 26 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

27 27 L. Orseau Les réseaux connexionnistes Le PMC : lapprentissage Trouver des poids permettant au réseau de réaliser une relation entrée-sortie spécifiée par des exemples de cette relation (Toujours le problème de la généralisation) Apprentissage : Minimiser la fonction de coût E(w,{x l,u l }) en fonction du paramètre w Utiliser pour ceci une méthode de descente de gradient (algorithme de rétro-propagation de gradient) Principe inductif : On fait alors lhypothèse que ce qui marche sur les exemples (minimisation du risque empirique), marche sur des données non vues (minimisation du risque réel)

28 28 L. Orseau Les réseaux connexionnistes Lapprentissage : descente de gradient Apprentissage = recherche dans lespace multidimensionnel des paramètres (poids synaptiques) en vue de minimiser la fonction de coût Quasi totalité des règles dapprentissage pour les RNs = méthode de descente de gradient Solution optimale w* tq. :

29 29 L. Orseau Les réseaux connexionnistes Le Perceptron Multi-Couches : apprentissage Objectif : Algorithme (rétro-propagation de gradient) : descente de gradient Algorithme itératif : Cas hors-ligne (gradient total) : où : Cas en-ligne (gradient stochastique) :

30 30 L. Orseau Les réseaux connexionnistes Le Perceptron Multi-Couches : apprentissage 1. Présentation dun exemple parmi lensemble dapprentissage Séquentielle, aléatoire, en fonction dun critère donné 2. Calcul de létat du réseau 3. Calcul de lerreur = fct(sortie - sortie désirée) (e.g. = (y l - u l ) 2 ) 4. Calcul des gradients Par lalgorithme de rétro-propagation de gradient 5. Modification des poids synaptiques 6. Critère darrêt Sur lerreur. Nombre de présentation dexemples, Retour en 1

31 31 L. Orseau Les réseaux connexionnistes PMC : La rétro-propagation de gradient Le problème : Détermination des responsabilités (credit assignment problem) Quelle connexion est responsable, et de combien, de lerreur E ? Principe : Calculer lerreur sur une connexion en fonction de lerreur sur la couche suivante Deux étapes : 1. Evaluation des dérivées de lerreur par rapport aux poids 2. Utilisation de ces dérivées pour calculer la modification de chaque poids

32 32 L. Orseau Les réseaux connexionnistes 1. Evaluation de lerreur E j (ou E) due à chaque connexion : Idée : calculer lerreur sur la connexion w ji en fonction de lerreur après la cellule j Pour les cellules de la couche de sortie : Pour les cellules dune couche cachée : PMC : La rétro-propagation de gradient

33 33 L. Orseau Les réseaux connexionnistes PMC : La rétro-propagation de gradient a i : activation de la cellule i z i : sortie de la cellule i i : erreur attachée à la cellule i w ij j i k y k Cellule de sortie Cellule cachée k a k a j j w jk z j z i

34 34 L. Orseau Les réseaux connexionnistes PMC : La rétro-propagation de gradient 2. Modification des poids On suppose gradient à pas (constant ou non ): (t) Si apprentissage stochastique (après présentation de chaque exemple) Si apprentissage total (après présentation de lensemble des exemples)

35 35 L. Orseau Les réseaux connexionnistes Le PMC : passes avant et arrière (résumé) x ys(x)ys(x) w is k neurones sur la couche cachée

36 36 L. Orseau Les réseaux connexionnistes Le PMC : passes avant et arrière (résumé) x ys(x)ys(x) w is... x 1 x 2 x 3 x d w 1 w 2 w 3 w d y i (x) x 0 w 0 Biais... y (x) 1

37 37 L. Orseau Les réseaux connexionnistes PMC : La rétro-propagation de gradient Efficacité en apprentissage En O(w) pour chaque passe dapprentissage, w = nb de poids Il faut typiquement plusieurs centaines de passes (voir plus loin) Il faut typiquement recommencer plusieurs dizaines de fois un apprentissage en partant avec différentes initialisations des poids Efficacité en reconnaissance Possibilité de temps réel

38 38 L. Orseau Les réseaux connexionnistes Applications : la discrimination 1 neurone de sortie {0,1} [0,1] –Erreur quadratique Probabilité [0,1] –Critère entropique Exemple : Mines cylindriques / roches ( )

39 39 L. Orseau Les réseaux connexionnistes Applications : la discrimination multiclasse c-1 problèmes de discrimination 1 neurone de sortie {0,1, …, c} [0,1] n ( c) neurones de sortie 1 neurone / classe Code correcteur derreur Exemple : Reconnaissance de caractères manuscrits Reconnaissance de locuteurs x y(x)

40 40 L. Orseau Les réseaux connexionnistes Applications : optimisation multi-objectif cf [Tom Mitchell] prédire à la fois la classe et la couleur plutôt que la classe seulement.

41 41 L. Orseau Les réseaux connexionnistes Rôle de la couche cachée

42 42 L. Orseau Les réseaux connexionnistes Rôle de la couche cachée

43 43 L. Orseau Les réseaux connexionnistes Rôle de la couche cachée

44 44 L. Orseau Les réseaux connexionnistes PMC : Les applications Automatique : identification et contrôle de processus (e.g. Commande de robot) Traitement du signal (filtrage, compression de données, traitement de la parole (Identification du locuteur,...) Traitement dimages, reconnaissance des formes (reconnaissance de lécriture manuscrite, Lecture automatique des codes postaux (Zip codes, USA),...) Prédiction (consommations deau, délectricité, météorologie, bourse,...) Diagnostic (industrie, médecine, science,...)

45 45 L. Orseau Les réseaux connexionnistes Application aux codes postaux (Zip codes) [Le Cun et al., 1989,...] (ATT Bell Labs : très forte équipe) exemples de chiffres manuscrits Segmentés et redimensionnés sur matrice 16 x 16 Technique des poids partagés (weight sharing) Technique du optimal brain damage 99% de reconnaissance correcte (sur lensemble dapprentissage) 9% de rejet (pour reconnaissance humaine)

46 46 L. Orseau Les réseaux connexionnistes La base de données

47 47 L. Orseau Les réseaux connexionnistes Application aux codes postaux (Zip codes)

48 48 L. Orseau Les réseaux connexionnistes Les erreurs commises

49 49 L. Orseau Les réseaux connexionnistes La régression

50 50 L. Orseau Les réseaux connexionnistes Un échec : QSAR Quantitative Structure Activity Relations Prédire certaines propriétés de molécules (par exemple activité biologique) à partir de descriptions : - chimiques - géométriques - éléctriques

51 51 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

52 52 L. Orseau Les réseaux connexionnistes PMC : Mise en pratique (1) Problèmes techniques : comment améliorer la performance de lalgorithme Le PMC en tant que méthode doptimisation : variantes Ajout dun moment Méthodes du 2° ordre Hessien Gradients conjugués Heuristiques Apprentissage séquentiel vs en mode batch Choix de la fonction dactivation Normalisation des entrées Initialisation des poids Les gains dapprentissage

53 53 L. Orseau Les réseaux connexionnistes PMC : La rétro-propagation de gradient (variantes) Ajout dun moment

54 54 L. Orseau Les réseaux connexionnistes Convergence Réglage du pas dapprentissage :

55 55 L. Orseau Les réseaux connexionnistes PMC : Problèmes de convergence Minimums locaux. Ravins. etc. Ajout dun terme de moment (inertie) Conditionnement des variables Bruiter les données dapprentissage Algorithme stochastique (vs. total) Un pas de gradient variable (dans le temps et pour chaque cellule) Utilisation de la dérivée seconde (Hessien). Gradient conjugué.

56 56 L. Orseau Les réseaux connexionnistes PMC : Problèmes de convergence (gradients variables) Gain adaptatif si le gradient ne change pas de signe, sinon Gain beaucoup plus faible en stochastique quen gradient total Gain propre à chaque couche (e.g. 1 / (# entrées cellule) 1/2 ) Algorithmes plus complexes Gradients conjugués –Idée : Essayer de minimiser indépendamment sur chaque axe, en utilisant un moment sur la direction de recherche Méthodes de second ordre (Hessien) Diminuent le nombre de pas mais augmentent le temps calcul.

57 57 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

58 58 L. Orseau Les réseaux connexionnistes Le sur-apprentissage

59 59 L. Orseau Les réseaux connexionnistes Le problème de la sélection de modèle

60 60 L. Orseau Les réseaux connexionnistes Contrôle de H : régularisation Principe : limiter lexpressivité de H Nouveau risque empirique : Exemples de régularisateurs utilisés : –Contrôle de larchitecture du RN –Contrôle des paramètres Soft-weight sharing Weight decay Réseaux à convolution –Exemples bruités Terme de pénalisation

61 61 L. Orseau Les réseaux connexionnistes Contrôle par limite de lexploration effective de H Règle de larrêt prématuré Weight decay

62 62 L. Orseau Les réseaux connexionnistes Généralisation : optimiser la structure dun réseau Par croissance progressive Cascade correlation [Fahlman,1990] Par élagage Optimal brain damage [Le Cun,1990] Optimal brain surgeon [Hassibi,1993]

63 63 L. Orseau Les réseaux connexionnistes Introduction de connaissances a priori Invariances Exemples obtenus par transformation Translation / rotation / dilatation Fonction de coût incorporant des dérivées (e.g. spatiales)

64 64 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

65 65 L. Orseau Les réseaux connexionnistes ANN Application Areas Classification Clustering Associative memory Control Function approximation

66 66 L. Orseau Les réseaux connexionnistes Applications for ANN Classifiers Pattern recognition Industrial inspection Fault diagnosis Image recognition Target recognition Speech recognition Natural language processing Character recognition Handwriting recognition Automatic text-to-speech conversion

67 67 L. Orseau Les réseaux connexionnistes Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000 Neural Network Approaches ALVINN - Autonomous Land Vehicle In a Neural Network ALVINN

68 68 L. Orseau Les réseaux connexionnistes Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© Developed in Performs driving with Neural Networks. - An intelligent VLSI image sensor for road following. - Learns to filter out image details not relevant to driving. Hidden layer Output units Input units ALVINN

69 69 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

70 70 L. Orseau Les réseaux connexionnistes PMC à fonctions radiales (RBF) Définition Couche cachée de cellules à fonction dactivation radiale (e.g. gaussienne) –Idée : paver lespace des entrées avec ces champs récepteurs Couche de sortie : combinaison linéaire sur la couche cachée Propriétés Approximateur universel ([Hartman et al.,90],...) Mais non parcimonieux (explosion combinatoire avec la taille des entrées) Réservé aux problèmes de faible dimensionalité Liens étroits avec les systèmes dinférence floue et les réseaux neuro-flous

71 71 L. Orseau Les réseaux connexionnistes PMC à fonctions radiales (RBF) : apprentissage Paramètres à régler : Nb de cellules cachées Position des centres des champs récepteurs Diamètre des champs récepteurs Poids vers la couche de sortie (moyenne pondérée) Méthodes Adaptation de la rétro-propagation (possible) Détermination de chaque type de paramètres par une méthode propre (souvent plus efficace) –Centres déterminés par méthodes de clustering (k-means,...) –Diamètres déterminés par optimisation des taux de recouvrement (PPV,...) –Poids par technique doptimisation linéaire (calcul de pseudo-inverse,...)

72 72 L. Orseau Les réseaux connexionnistes Les réseaux récurrents Tâches Reconnaissance de séquence E.g. reconnaître le mot correspondant à un signal vocal Reproduction de séquence E.g. poursuivre la séquence quand une séquence initiale a été fournie (ex: prévision de consommation délectricité) Association temporelle Production dune séquence en réponse à la reconnaissance dune autre séquence. Time Delay Neural Networks (TDNNs) Duplication des couches (artifice : pas vraiment récurrents) Réseaux récurrents

73 73 L. Orseau Les réseaux connexionnistes Recurrent ANN Architectures Feedback connections Dynamic memory: y(t+1)=f(x(τ),y(τ),s(τ)) τ (t,t-1,...) Models : Jordan/Elman ANNs Hopfield Adaptive Resonance Theory (ART)

74 74 L. Orseau Les réseaux connexionnistes Les réseaux récurrents

75 75 L. Orseau Les réseaux connexionnistes Les réseaux récurrents Problèmes Notoirement difficiles à contrôler –Dynamique chaotique Mémoire du passé limitée Paramètres supplémentaires –Apprentissage mal compris

76 76 L. Orseau Les réseaux connexionnistes Une idée intrigante : le « reservoir computing » Idée : Utiliser un réseau récurrent sans lentraîner explicitement Mais entraîner une seule couche de sortie Permet de rendre compte du temps Séries temporelles

77 77 L. Orseau Les réseaux connexionnistes Une idée intrigante : le « reservoir computing » Semble prometteur : Demande encore beaucoup de recherches Voir aussi –Liquid State Machines –Echo State Machines –Backpropagation-Decorrelation

78 78 L. Orseau Les réseaux connexionnistes Plan 1. Introduction 2. Le perceptron 3. Le perceptron multi-couches (PMC) 4. Apprentissage dans les PMC 5. Aspects calculatoires 6. Aspects méthodologiques de lapprentissage 7. Applications 8. Développements et perspectives 9. Conclusions

79 79 L. Orseau Les réseaux connexionnistes Conclusions Limites Apprentissage lent et difficile Opacité –Réseaux appris très difficile à interpréter –Difficile dutiliser de la connaissance a priori Apprentissage incrémental de nouveaux concepts difficile : « catastrophic forgetting » Avantages Famille de modèles souple : sadapte à une grande variété de problèmes

80 80 L. Orseau Les réseaux connexionnistes Sources documentaires Ouvrages / articles Dreyfus et. al (2001) : Réseaux de neurones. Méthodologie et applications. Eyrolles, Bishop C. (06) : Neural networks for pattern recognition. Clarendon Press - Oxford, Haykin (98) : Neural Networks. Prentice Hall, Hertz, Krogh & Palmer (91) : Introduction to the theory of neural computation. Addison Wesley, Thiria, Gascuel, Lechevallier & Canu (97) : Statistiques et méthodes neuronales. Dunod, Vapnik (95) : The nature of statistical learning. Springer Verlag, Sites web (point dentrée pour de nombreux sites)


Télécharger ppt "1 L. Orseau Les réseaux connexionnistes Les réseaux connexionnistes EFREI 2010 Laurent Orseau AgroParisTech d'après les."

Présentations similaires


Annonces Google