Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
plan c’est quoi ? différents types d’apprentissage supervisé les réseaux de neurones le perceptron réseaux plus complexes quelques résultats de la théorie de l’apprentissage bayesien non supervisé par renforcement mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
classifieur élémentaire : le perceptron d’inspiration biologique : « neurone » élémentaire surface discriminante linéaire : stabilité d’un exemple : distance à la surface discriminante avec signe – si mal classé x1 x2 xN xi w1 wN s=sgn(w.x) input : output : w g mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
commentaire 1 inspiration biologique : McCullock et Pitts (1943) des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques Rosenblatt (1962) une unité binaire peut apprendre à reconnaître des formes : perceptron Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires Hopfield (1982) un réseau d’unités binaires interconnectées avec des poids Jik données par la règle de Hebb, modèlise une mémoire associative mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
algorithme du perceptron on initialise les poids du perceptron on parcourt les exemples si la sortie donnée par le perceptron est incorrecte, on modifie les poids jusqu’à convergence convergence assurée seulement si les exemples sont linéairement séparables si les exemples sont linéairement séparables : infinité de solutions entrée · sortie mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
commentaire 2 règle de Hebb – modèle de Hopfield : algorithme du perceptron : i k Jik wi i état du neurone de sortie état du neurone d’entrée mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
exemples non séparables linéairement problème : l’algorithme du perceptron ne converge pas les autres algorithmes convergent mais souvent vers des solutions « non intéressantes » (trop d’exemples mal classés) deux solutions : « classiques » : réseaux en couches « moderne » : Support Vector Machines mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
solution classique : perceptron multicouche
perceptrons binaires « cachés » réseau en couches avec unités binaires permet de représenter des surfaces discriminantes plus complexes méthode constructive : on rajoutte des perceptrons cachés un à un : plusieurs heuristiques x1 x2 + - x1 x2 xN xi w1 w2 w3 couche cachée représentations internes mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
apprentissage d’une fonction réelle LM = { (xm, ym) }1≤m≤M, xm=(xm1, xm2, …, xmN) ; ym e R neurones cachés à valeurs réelles peut apprendre toute fonction continue des entrées à condition que le nombre de neurones cachés soit suffisant apprentissage : "error backpropagation" minimisation de l’écart quadratique : problèmes : beaucoup de minima locaux : qualité de la solution ? nombre de neurones cachés : par tâtonnement x1 x2 xN xi w1 w2 w3 couche cachée s=tanh(w.x) mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
solution « moderne » Machines à Vecteurs Support (SVM)
perceptron de marge maximale marge : distance à la surface discriminante de l’exemple le plus proche g 2k mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
Support Vector Machines (SVM) application de l'espace des entrées x vers un espace F de plus grande dimension (feature space) Support Vector Machine = perceptron de marge maximale dans le feature space F algorithmes efficaces exemple: mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
théorie de l’apprentissage question fondamentale : est-ce que minimiser le nombre d’erreurs garantit qu’on minimise la probabilité de mal classer de nouvelles données ? eg : erreur de généralisation (de prédiction) -> probabilité de faire une erreur de classification sur des entrées autres que les exemples réponse : oui, à condition que le nombre d’exemples M soit supérieur à la capacité du réseau capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples proportionnelle au nombre de paramètres à déterminer perceptron ≈ 2N où N est le nombre de poids = dimension des entrées mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
erreur de prédiction eg tâches de classification réalisables et non réalisables : pour un perceptron : réalisable -> séparable linéairement comment varie eg en fonction du nombre d’exemples ? tâche réalisable : le meilleur algorithme : Bayes (b ≈ 0.5) eg 0.5 0.2 0.1 0.3 0.4 a 2 4 6 coeff qui dépend de l’algorithme mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
inférence bayesienne
règle de Bayes p(a) a p(a) p(b) p(a|b) p(b|a) p(a,b) p(b) b probabilités p(a) a p(a) p(b) p(a|b) p(b|a) p(a,b) p(b) b mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
inférence bayesienne inférence = apprentissage cadre probabiliste : modifier les hypothèses en fonction des données (exemples) cadre probabiliste : on se donne un modèle des données perceptron le problème est linéairement séparable probabilité a priori des paramètres du modèle en absence de toute autre information : equiprobabilité tous les poids w ont la même probabilité LM = { (xm,tm) }1≤m≤M on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
inférence des poids d’un perceptron formule de Bayes : a priori : modèle des données paramétré par les poids w p0(w) p(w) mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
probabilité des poids a posteriori probabilité a posteriori cte > 0 hyperplans compatibles avec LM a priori : p0(w) p0(w) p(w|LM) probabilité a posteriori = 0 mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
classifieur bayesien optimal comment classer la nouvelle entrée ? on classe comme la moyenne pondérée des poids (pondérée par la probabilité a posteriori) dans notre cas : poids équiprobables règle de la majorité perceptron optimal p0(w) p(w|LM) p(w) mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
inférence bayesienne : résumé hypothèse a priori vraisemblance des données paramètres a posteriori (compatibles avec LM) mars 2004 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II
fin deuxième cours