Plan Les réseaux de neurones Le réseau RBF RBF et Mushroom Historique

Slides:



Advertisements
Présentations similaires
Lundi 21 mars 2011 Un réseau social pour Entreprise Jean-Luc Walter Patrick de Dieuleveult.
Advertisements

Un réseau de neurones artificiels montrant la persévérance et la distractibilité dans le wisconsin card sorting test.
FORMATION DE FAISCEAU.
Chap. 4 Recherche en Table
Approche graphique du nombre dérivé
Karima Boudaoud, Charles McCathieNevile
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Classification et prédiction
Calcul géométrique avec des données incertaines
RECONNAISSANCE DE FORMES
Introduction générale aux réseaux de neurones artificiels
Réseaux de Neurones Artificiels
LES RESEAUX DE NEURONES
1. Les caractéristiques de dispersion. 11. Utilité.
Le codage de l ’information
A Pyramid Approach to Subpixel Registration Based on Intensity
ASSERVISSEMENTS ET REGULATION
THÈME APPLICATION OF THE ARTIFICIAL NEURAL NETWORK FOR MODELING THE THERMAL BEHAVIOR OF BUILDING IN HUMID REGION Léopold Mbaa, Pierre Meukamb, Alexis.
Mise en œuvre et commande d’un moteur piézo-électrique
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Classification automatique de documents
Concepts avancés en mathématiques et informatique appliquées
Introduction à l’Intelligence Artificielle
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Un neurone élémentaire
Réseaux de neurones artificiels « la rétropropagation du gradient »
GPA-779 Application des réseaux de neurones et des systèmes experts Cours #3 - 1 Plan 2- Domaines dapplication ClassificationRegroupement ApproximationPrédiction.
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Applications du perceptron multicouche
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 2 : Les applications fonctionnelles.
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Modélisation d'un comportement addictif à l'aide de réseaux de neurones artificiels Modèles Constat biologique: Les comportements addictifs avec recompense.
Méthodes Connexionnistes Apprentissage Fusion d’informations
RECONNAISSANCE DE FORMES
Plan d’expérience dynamique pour la maximisation
Enseignement d’électronique de Première Année IUT de Chateauroux
Réseaux de neurones.
Chap. 8: 7.Le monopole discriminant
Quizz rdf Dess IE. La RDF globale: 1.Quand il y a 2 classes seulement 2.Quand on fait un apprentissage 3.Quand les formes sont représentées par des vecteurs.
Les réseaux de neurones
Mémoires associatives
Chapitre 7 Réseau ART.
GPA-779 Perceptron multicouche
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
Résumé Domaine des réseaux de neurones.
Courbes de Bézier.
Modélisation de la lecture grâce à un modèle connexionniste
Systèmes d’informations : Définition, Composantes, Rôles et Approches.
Les réseaux de neurones compétitifs
Les réseaux de neurones
DEA Perception et Traitement de l’Information
1 Modèle pédagogique d’un système d’apprentissage (SA)
1 Notations Asymptotiques Et Complexité Notations asymptotiques : 0 et  Complexité des algorithmes Exemples de calcul de complexité.
Modèle neuromimètique de l’apprentissage par renforcement Les aspects temporels (réponse retardée) peuvent être facilement intégrés au niveau cortical.
Electrostatique- Chap.2 CHAPITRE 2 CHAMP ELECTROSTATIQUE Objectif :
Rappels de statistiques descriptives
RESEAUX DE NEURONES.
Christelle Scharff IFI 2004
Les réseaux de neurones à réservoir en traitement d’images
Intelligence Artificielle
Institut de sciences et technologies Département d’informatique
Réseaux de neurones à base radiale
Karima Tabari1, Mounir Boukadoum1, Sylvain Chartier2,3, Hakim Lounis1
Les réseaux de neurones à réservoir en traitement d’images
Mémoires associatives Le modèle BSB/Eidos Mounir Boukadoum.
Le chaos pourquoi ? Permet de modéliser un type de mouvement récent qui n’est ni uniforme, ni accéléré. Des dynamiques chaotiques ont été mises en évidence.
GPA-779 Application des systèmes experts et des réseaux de neurones.
Le réseau de neurones artificiel
Perceptron multicouche
Transcription de la présentation:

Plan Les réseaux de neurones Le réseau RBF RBF et Mushroom Historique Définitions Réseaux « usuels » Le réseau RBF Introduction Paramètres RBF et Mushroom Algorithme Résultats Optimisations

Les réseaux de neurones

Les réseaux de neurones Historique (1) 1940 : Alan TURING : Machine de Turing 1943 : Warren McCULLOCH & Walter PITTS (neurobiologistes US) : Modèle de neurone. 1948 : von Neuman : Les réseaux d’automates 1949 : Donald HEBB : Hypothèse de l'efficacité synaptique, notion de mémoire associative, premières règles d'apprentissage. 1960 : Franck ROSENBLATT et Bernard WIDROW créent le Perceptron et Adaline. 3 3

Les réseaux de neurones Historique (2) 1969 : Marvin MINSKY et Seymour PAPERT : Analyse théorique des capacités de calcul des réseaux à base de perceptrons. Mise en évidence de fortes limitations. Stagnation des recherches sur les réseaux neuromimétiques : Report des efforts sur l'Intelligence Artificielle. Années 1980 : Stephen GROSSBERG et Teuvo KOHONEN : Découvrent de nouvelles voies : auto-organisation des réseaux et processus d'adaptation. Renaissance du Connexionnisme. 4

Les réseaux de neurones Historique (3) John HOPFIELD : Analogies avec la Mécanique Statistique. Comportement de systèmes constitués d'un grand nombre d'éléments simples interagissant fortement. Application des nombreux résultats de la physique théorique au connexionisme. Machine de BOLTZMANN et Perceptron Multi-Couches (PMC) : Mécanismes d'apprentissage performants. Evolution des ordinateurs : simulation de modèles complexes. On est donc passé d’un point de vue biologique à un point de vue mathématique et informatique. 5

Les réseaux de neurones Définitions (1) Neurone : Sorte d’automate qui se compose d’entrées, d’une sortie et d’une fonction des entrées vers la sortie. x1 W1 y=f(W1X1 + … + WnXn) f Wn xn Fonction d’activation Poids d’une connexion Connexion 6 6

Les réseaux de neurones Définitions (2) Réseau de neurones : Interconnexion d’éléments simples (neurones) Graphe orienté (connexions) Echange d’information via ces connexions Calcul distribué et coopératif … ENTREE SORTIE 7

Les réseaux de neurones Définitions (3) Réseau de neurones (suite) : C’est le renforcement ou l’affaiblissement de certaine connexion qui adapte la ‘ structure ’ du réseau pour donner des réponses différentes. Chaque neurone est paramétrable et, afin d’obtenir un réseau intéressant, on modifie ces paramètres pour adapter les calculs qu’ils effectuent. Tout ceci crée une caractéristique des réseau de neurone : l’apprentissage (et l’oubli). 8

Les réseaux de neurones Définitions (4) Apprentissage supervisé : Mode d'apprentissage le plus courant. Consiste à évaluer les poids synaptiques (poids des connexions) qui minimisent l’erreur globale sur une ‘ Base d’apprentissage ’. Cette ‘ Base d’apprentissage ’ est une série d’entrée au réseau desquelles on connaît les sorties associées. Exemples : Perceptron, Adaline 9

Les réseaux de neurones Définitions (5) Apprentissage non-supervisé : Mode d’apprentissage moins intuitif. Correspond au cas où il n’est pas possible d’avoir une ‘ Base d’apprentissage ’. Dans ce cas, on présente les entrées au réseau et on le laisse évoluer librement jusqu’à ce qu’il se stabilise. Exemples : Cartes de Kohonen 10

Les réseaux de neurones Les réseaux « usuels » (1) Les premiers modèles de neurones étaient caractérisés par une fonction d'activation à seuil simple (binaire : 0=inactif, 1=actif). Le déclenchement de l'activité intervient si la somme des excitations dépasse un certain seuil propre au neurone. Fonction seuil : f(x) = 1, si x > SEUIL. f(x) = 0, sinon. 11 11

Les réseaux de neurones Les réseaux « usuels » (2) Le modèle binaire a été rapidement perfectionné, mais l'effet de seuil reste souvent recherché. Un neurone est d'autant plus actif qu'il est excité (fonction monotone croissante) et un neurone ne peut être actif au-delà d'une certaine valeur (fonction bornée). Fonction linéaire bornée : f(x) = -1 ou 1, au-delà des bornes. f(x) = A*x, sinon. 12

Les réseaux de neurones Les réseaux « usuels » (3) Lorsque la fonction d'activation est dérivable, il est possible d'utiliser des algorithmes d'apprentissage performants, basés sur la recherche d'un minimum de la fonction d'erreur, notamment la "rétro- propagation du gradient" pour les PMC. Une fonction est Sigmoïde lorsqu'elle est monotone croissante, dérivable et bornée. Ce type de fonction combine l'avantage de l'effet de seuil et de la dérivabilité. Les fonctions sigmoïdes sont donc très utilisées. 13

Les réseaux de neurones Les réseaux « usuels » (4) Fonction sigmoïde exponentielle : f(x) = 1 / (1+EXP(-x)) Dérivée : f'(x) = f(x)*(1-f(x)) Fonction sigmoïde tangentielle : f(x) = TANH(x) Dérivée : f'(x) = 1-F(x)² 14

Le réseau RBF

Le réseau RBF Introduction (1) Modèle proposé par : Powell (1985) Broomhead et Lowe (1988) Moody et Darken (1989) Pooggio et Girosi (1990) RBF ? → Radial Basis Function 16 16

Le réseau RBF Introduction (2) Le réseau RBF est un réseau de neurones supervisé. Il s’agit d’une ‘ spécialisation ’ d’un PMC. Un RBF est constitué uniquement de 3 couches : La couche d’entrée : elle retransmet les inputs sans distorsion. La couche RBF : couche cachée qui contient les neurones RBF. La couche de sortie : simple couche qui contient une fonction linéaire. Chaque couche est ‘ fully connected ’ à la suivante. 17

Le réseau RBF Introduction (3) ENTREE SORTIE … ENTREE SORTIE n N Chaque neurone RBF contient une gaussienne qui est centrée sur un points de l’espace d’entrée. Pour une entrée donnée, la sortie du neurone RBF est la hauteur de la gaussienne en ce point. La fonction gaussienne permet aux neurones de ne répondre qu’à une petite région de l’espace d’entrée, région sur laquelle la gaussienne est centrée. 18

Le réseau RBF Introduction (4) Fonction gaussienne : f(x) = EXP(x² / (2* Beta²)) 19

Le réseau RBF Introduction (5) W1 W2 W3 ENTREE … SORTIE = … WN n N La sortie du réseau est simplement une combinaison linéaire des sorties des neurones RBF multipliés par le poids de leur connexion respective. 20

Le réseau RBF Paramètres (1) Il y a 4 paramètres principaux à régler dans un réseau RBF : Le nombre de neurones RBF (nombre de neurones dans l’unique couche cachée). La position des centres des gaussiennes de chacun des neurones. La largeur de ces gaussiennes. Le poids des connexions entre les neurones RBF et le(s) neurone(s) de sortie. Tout modification d’un de ces paramètres entraîne directement un changement du comportement du réseau. 21 21

Le réseau RBF Paramètres (2) Le nombre de neurones RBF (N) et la position des gaussiennes sont deux paramètres intimement liés. Deux optiques s’offrent à nous : soit I n’est pas trop grand et alors N=I ; soit I est trop grand et on choisi N<<I (avec I, le nombre d’élément dans la base d’apprentissage). 22

Le réseau RBF Paramètres (3) Nombre et position avec N=I : Dans ce cas-ci (le plus simple), le nombre de neurones RBF est égal au nombre d’exemples soumis au réseau. Chacune des gaussiennes est alors centrée sur un des exemples. 23

Le réseau RBF Paramètres (4) Nombre et position avec N<<I : Dans ce cas-ci, le nombre de neurones RBF devient un véritable paramètre. Il n’existe pas de méthode pour le déterminer. Il s’agit donc de trouver le nombre de ‘ centroïdes ’ adéquat lié au problème donné. Un fois le nombre de centroïdes choisi, il faut déterminer leur position. Pour ce faire, il existe aussi plusieurs techniques ... 24

Le réseau RBF Paramètres (5) Choix de la position des centroïdes avec N<<I : Une première méthode consiste à choisir aléatoirement les centroïdes parmi les exemples soumis au réseau. Cette approche n’est pas mauvaise puisque, statistiquement, les centroïdes seront représentatifs de la distribution des exemples. Mais cette technique n’est pas optimale non plus car il est possible de choisir des centroïdes très mal placés. 25

Le réseau RBF Paramètres (6) Choix de la position des centroïdes avec N<<I : Une autre solution, permettant d’obtenir les meilleurs résultats, est de sélectionner les centroïdes via une quantification vectorielle (Learning Vector Quantization : LVQ). Cette solution permettra de d’obtenir la meilleure répartition des centroïdes possible. Beaucoup proposent aussi d’appliquer une carte auto- organisatrice de Kohonen afin de choisir les centres. 26

Le réseau RBF Paramètres (7) Une fois tous les centres Cj choisis, il faut déterminer la largeur (ß) des gaussiennes. Une règle empirique consiste à prendre : ß = avec M = nombre de centroïdes et d = max ||ci - cj||, 1≤ i,j ≤ M si on choisit un ß égal pour toutes les gaussiennes. Mais rien n’impose de prendre la même valeur de ß pour chaque centroïde. Dans ce cas, un autre règle nous dit : ßj = ||xi - cj|| 27

Le réseau RBF Paramètres (8) Une fois le nombre et la position des centroïdes et la largeur des gaussiennes fixés, les poids de chacune des connexions (RBF-output) peut être calculé par l’équation matricielle suivante : avec f(x) = EXP(x² / (2* ß²)) , la gaussienne. la matrice colonne Y, les output attendus M, le nombre de centroïdes N, le nombre d’exemples dans la base d’apprentissage 28

Le réseau RBF Paramètres (9) Enfin, un fois l’apprentissage effectué, la partie test peut commencer. Elle se résume aussi en une équation matricielle : avec f(x) = EXP(x² / (2* ß ²)) , la gaussienne. la matrice colonne W, les poids des connexions (RBF-output) M, le nombre de centroïdes ti, le ième élément de la ‘ base de test ’ 29

RBF et Mushroom

RBF et Mushroom Paramètres (1) Nombre et position des centroïdes : Dans un premier temps → cas le plus simple : N = I Mais double matrice[][] = new double[6500][6500] … Java = <out of memory> !!! Rappel : 8124 champignions, 80 % d’apprentissage (6500) et 20 % de test (1624). Donc, mauvaise idée. 31

RBF et Mushroom Paramètres (2) Nombre et position des centroïdes : Deuxième approche → N<<I Choix aléatoire dans la ‘ base d ’apprentissage ’ ou LVQ ? Premièrement avec le choix aléatoire car plus facile à implémenter et temps de calcul plus rapide. Grande boucle avec choix aléatoire des centroïdes (de 10 à 200). Et double matrice[][] = new double[6500][200] … Java = OK ! (ouf) 32

RBF et Mushroom Paramètres (3) Largeur des gaussiennes : Dans un premier temps, tous les gaussiennes ont la même largeur, cas le plus simple. ß = Les poids des connexions n’ont donc plus qu’à être calculés par l’équation matricielle vue avant. 33

RBF et Mushroom Algorithme (1) (Code en Annexe1) 1. Choix des centroïde Reprendre les informations du fichier texte. Déterminer les cordonnées des centroïdes (choix aléatoire (entre 10 et 200) dans la ‘ base d’apprentissage ’). 2. Définir la largeur des gaussiennes maximum des distances entre les centroïdes / racine carrée du nombre de centroïdes. 3. Création de la matrice phy Création de la matrice des distances (6500 * le nombre de centroïdes). Appliquer la gaussienne à chaque éléments de cette matrice de distance. 34

RBF et Mushroom Algorithme (2) 4. Résolution de l'équation matricielle pour obtenir les poids Résolution du système [Matrice_Phy][poids_inconnus]=[output_apprentissage] (cf. JNL). Récupérer la matrice des poids (nombre de centroïdes(de 10 à 200)*1). 5. Test Pour chaque exemple de test : Calcul de la matrice des distances entre l’exemple et les centroïdes (1* le nombre de centroides). Appliquer la gaussienne à cette matrice. Résolution du système [Matrice_Phy][poids_connus]=X (cf. JNL). Appliquer une fonction qui détermine si l’output (X) est 1 ou 0. Comparer cet output (X) avec l'output attendu Calculer le taux d'erreur globale. 35

RBF et Mushroom Résultats L’algorithme est arrivé à un maximum de bonne classification de 94,5 % avec un nombre de centroïdes de 140. Soit +/- 1/50 de la ‘ base d ’apprentissage ’. Rem : essai avec plus de centroïdes (500) et différents ß, mais pas de meilleurs résultats … bien au contraire. 36

RBF et Mushroom Optimisations Deux optimisations permettraient certainement d’obtenir encore de meilleurs résultats : Définir un ß différents pour chaque gaussienne. Celui-ci serait approprié à chacune d’entre elles. Ne plus choisir aléatoirement les centroïdes mais les fixés grâce à un LVQ (code en Annexe2). 37

Bibliographie http://www.web-datamining.net/publications/dossiers/neural/histor.asp http://eric.univ-lyon2.fr/~oteytaud/CONNEX/connex.html http://home.alex.tuxfamily.org/neuro/neurones.html http://www.scico.u-bordeaux2.fr/~corsini/Pedagogie/ANN/main/node9.html http://www.cogs.susx.ac.uk/users/jianfeng/RBF.ppt Cette présentation, mes codes et le package JNL sont disponibles sous forme électronique sur ma page Web : http://info.fundp.ac.be/~hvanpete 38