Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Name: Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Uploaded: 2017-10-06T20:06:23+00:00
Duration: PTM12S36
Channel: Felicien Bouvier
Description: Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

plan c’est quoi ? différents types d’apprentissage
supervisé les réseaux de neurones le perceptron réseaux plus complexes quelques résultats de la théorie de l’apprentissage bayesien non supervisé par renforcement mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

classifieur élémentaire : le perceptron
d’inspiration biologique : « neurone » élémentaire surface discriminante linéaire : stabilité d’un exemple : distance à la surface discriminante avec signe – si mal classé x1 x2 xN xi w1 wN s=sgn(w.x) input : output : w g mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

commentaire 1 inspiration biologique : McCullock et Pitts (1943)
des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques Rosenblatt (1962) une unité binaire peut apprendre à reconnaître des formes : perceptron Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires Hopfield (1982) un réseau d’unités binaires interconnectées avec des poids Jik données par la règle de Hebb, modèlise une mémoire associative mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

algorithme du perceptron
on initialise les poids du perceptron on parcourt les exemples si la sortie donnée par le perceptron est incorrecte, on modifie les poids jusqu’à convergence convergence assurée seulement si les exemples sont linéairement séparables si les exemples sont linéairement séparables : infinité de solutions entrée · sortie mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

commentaire 2 règle de Hebb – modèle de Hopfield :
algorithme du perceptron : i k Jik wi i état du neurone de sortie état du neurone d’entrée mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

exemples non séparables linéairement
problème : l’algorithme du perceptron ne converge pas les autres algorithmes convergent mais souvent vers des solutions « non intéressantes » (trop d’exemples mal classés) deux solutions : « classiques » : réseaux en couches « moderne » : Support Vector Machines mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

solution classique : perceptron multicouche

perceptrons binaires « cachés »
réseau en couches avec unités binaires permet de représenter des surfaces discriminantes plus complexes méthode constructive : on rajoutte des perceptrons cachés un à un : plusieurs heuristiques x1 x2 + - x1 x2 xN xi w1 w2 w3 couche cachée représentations internes mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

apprentissage d’une fonction réelle
LM = { (xm, ym) }1≤m≤M, xm=(xm1, xm2, …, xmN) ; ym e R neurones cachés à valeurs réelles peut apprendre toute fonction continue des entrées à condition que le nombre de neurones cachés soit suffisant apprentissage : "error backpropagation" minimisation de l’écart quadratique : problèmes : beaucoup de minima locaux : qualité de la solution ? nombre de neurones cachés : par tâtonnement x1 x2 xN xi w1 w2 w3 couche cachée s=tanh(w.x) mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

solution « moderne » Machines à Vecteurs Support (SVM)

perceptron de marge maximale
marge : distance à la surface discriminante de l’exemple le plus proche g 2k mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

Support Vector Machines (SVM)
application de l'espace des entrées x vers un espace F de plus grande dimension (feature space) Support Vector Machine = perceptron de marge maximale dans le feature space F algorithmes efficaces exemple: mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

théorie de l’apprentissage
question fondamentale : est-ce que minimiser le nombre d’erreurs garantit qu’on minimise la probabilité de mal classer de nouvelles données ? eg : erreur de généralisation (de prédiction) -> probabilité de faire une erreur de classification sur des entrées autres que les exemples réponse : oui, à condition que le nombre d’exemples M soit supérieur à la capacité du réseau capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples proportionnelle au nombre de paramètres à déterminer perceptron ≈ 2N où N est le nombre de poids = dimension des entrées mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

erreur de prédiction eg
tâches de classification réalisables et non réalisables : pour un perceptron : réalisable -> séparable linéairement comment varie eg en fonction du nombre d’exemples ? tâche réalisable : le meilleur algorithme : Bayes (b ≈ 0.5) eg 0.5 0.2 0.1 0.3 0.4 a 2 4 6 coeff qui dépend de l’algorithme mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

inférence bayesienne

règle de Bayes p(a) a p(a) p(b) p(a|b) p(b|a) p(a,b) p(b) b
probabilités  p(a) a p(a) p(b) p(a|b) p(b|a) p(a,b) p(b) b mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

inférence bayesienne inférence = apprentissage cadre probabiliste :
modifier les hypothèses en fonction des données (exemples) cadre probabiliste : on se donne un modèle des données perceptron  le problème est linéairement séparable probabilité a priori des paramètres du modèle en absence de toute autre information : equiprobabilité  tous les poids w ont la même probabilité LM = { (xm,tm) }1≤m≤M on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

inférence des poids d’un perceptron
formule de Bayes : a priori : modèle des données paramétré par les poids w p0(w) p(w) mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

probabilité des poids a posteriori
probabilité a posteriori cte > 0 hyperplans compatibles avec LM a priori : p0(w) p0(w) p(w|LM) probabilité a posteriori = 0 mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

classifieur bayesien optimal
comment classer la nouvelle entrée ? on classe comme la moyenne pondérée des poids (pondérée par la probabilité a posteriori) dans notre cas : poids équiprobables  règle de la majorité perceptron optimal p0(w) p(w|LM) p(w) mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

inférence bayesienne : résumé
hypothèse a priori vraisemblance des données paramètres a posteriori (compatibles avec LM) mars 2004 - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

fin deuxième cours

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Présentations similaires

Présentation au sujet: "Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

Présentations similaires

Présentation au sujet: "Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back