La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Présentations similaires


Présentation au sujet: "Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble"— Transcription de la présentation:

1 Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

2 plan c’est quoi ? différents types d’apprentissage
supervisé les réseaux de neurones le perceptron réseaux plus complexes quelques résultats de la théorie de l’apprentissage bayesien non supervisé par renforcement mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

3 classifieur élémentaire : le perceptron
d’inspiration biologique : « neurone  » élémentaire surface discriminante linéaire : stabilité d’un exemple : distance à la surface discriminante avec signe – si mal classé x1 x2 xN xi w1 wN s=sgn(w.x) input : output : w g mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

4 commentaire 1 inspiration biologique : McCullock et Pitts (1943)
des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques Rosenblatt (1962) une unité binaire peut apprendre à reconnaître des formes : perceptron Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires Hopfield (1982) un réseau d’unités binaires interconnectées avec des poids Jik données par la règle de Hebb, modèlise une mémoire associative mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

5 algorithme du perceptron
on initialise les poids du perceptron on parcourt les exemples si la sortie donnée par le perceptron est incorrecte, on modifie les poids jusqu’à convergence convergence assurée seulement si les exemples sont linéairement séparables si les exemples sont linéairement séparables : infinité de solutions entrée · sortie mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

6 commentaire 2 règle de Hebb – modèle de Hopfield :
algorithme du perceptron : i k Jik wi i état du neurone de sortie état du neurone d’entrée mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

7 exemples non séparables linéairement
problème : l’algorithme du perceptron ne converge pas les autres algorithmes convergent mais souvent vers des solutions « non intéressantes » (trop d’exemples mal classés) deux solutions : « classiques » : réseaux en couches « moderne » : Support Vector Machines mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

8 solution classique : perceptron multicouche

9 perceptrons binaires « cachés »
réseau en couches avec unités binaires permet de représenter des surfaces discriminantes plus complexes méthode constructive : on rajoutte des perceptrons cachés un à un : plusieurs heuristiques x1 x2 + - x1 x2 xN xi w1 w2 w3 couche cachée représentations internes mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

10 apprentissage d’une fonction réelle
LM = { (xm, ym) }1≤m≤M, xm=(xm1, xm2, …, xmN) ; ym e R neurones cachés à valeurs réelles peut apprendre toute fonction continue des entrées à condition que le nombre de neurones cachés soit suffisant apprentissage : "error backpropagation"  minimisation de l’écart quadratique : problèmes : beaucoup de minima locaux : qualité de la solution ? nombre de neurones cachés : par tâtonnement x1 x2 xN xi w1 w2 w3 couche cachée s=tanh(w.x) mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

11 solution « moderne » Machines à Vecteurs Support (SVM)

12 perceptron de marge maximale
marge : distance à la surface discriminante de l’exemple le plus proche g 2k mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

13 Support Vector Machines (SVM)
application de l'espace des entrées x vers un espace F de plus grande dimension (feature space) Support Vector Machine = perceptron de marge maximale dans le feature space F algorithmes efficaces exemple: mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

14 théorie de l’apprentissage
question fondamentale : est-ce que minimiser le nombre d’erreurs garantit qu’on minimise la probabilité de mal classer de nouvelles données ? eg : erreur de généralisation (de prédiction) -> probabilité de faire une erreur de classification sur des entrées autres que les exemples réponse : oui, à condition que le nombre d’exemples M soit supérieur à la capacité du réseau capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples proportionnelle au nombre de paramètres à déterminer perceptron ≈ 2N où N est le nombre de poids = dimension des entrées mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

15 erreur de prédiction eg
tâches de classification réalisables et non réalisables : pour un perceptron : réalisable -> séparable linéairement comment varie eg en fonction du nombre d’exemples ? tâche réalisable : le meilleur algorithme : Bayes (b ≈ 0.5) eg 0.5 0.2 0.1 0.3 0.4 a 2 4 6 coeff qui dépend de l’algorithme mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

16 inférence bayesienne

17 règle de Bayes p(a) a p(a) p(b) p(a|b) p(b|a) p(a,b) p(b) b
probabilités p(a) a p(a) p(b) p(a|b) p(b|a) p(a,b) p(b) b mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

18 inférence bayesienne inférence = apprentissage cadre probabiliste :
modifier les hypothèses en fonction des données (exemples) cadre probabiliste : on se donne un modèle des données perceptron  le problème est linéairement séparable probabilité a priori des paramètres du modèle en absence de toute autre information : equiprobabilité  tous les poids w ont la même probabilité LM = { (xm,tm) }1≤m≤M on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

19 inférence des poids d’un perceptron
formule de Bayes : a priori : modèle des données paramétré par les poids w p0(w) p(w) mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

20 probabilité des poids a posteriori
probabilité a posteriori cte > 0 hyperplans compatibles avec LM a priori : p0(w) p0(w) p(w|LM) probabilité a posteriori = 0 mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

21 classifieur bayesien optimal
comment classer la nouvelle entrée ? on classe comme la moyenne pondérée des poids (pondérée par la probabilité a posteriori) dans notre cas : poids équiprobables  règle de la majorité perceptron optimal p0(w) p(w|LM) p(w) mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

22 inférence bayesienne : résumé
hypothèse a priori vraisemblance des données paramètres a posteriori (compatibles avec LM) mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

23 fin deuxième cours


Télécharger ppt "Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble"

Présentations similaires


Annonces Google