Réseaux de neurones artificiels « le neurone formel » S. Canu, laboratoire PSI, INSA de Rouen équipe « systèmes d’information pour l’environnement » asi.insa-rouen.fr/~scanu
Le neurone biologique
Le neurone formel
Le neurone formel
Phydsiologie
Discrimination Linéaire + + + + + + + + + Codage {-1,1}, fonction de décision de type « heaviside »
Géométrie : illustration dans R2 °
Estimation... et rêve
Cas gaussien multidimensionnel Le Discriminateur de Bayes est linéaire... x = -3:0.1:3; y = x; [Xt,Yt]=meshgrid(x,y); theta = pi/3; sig=[1 cos(theta);cos(theta) 2]; sig2=sig*sig; sigmoinsun=inv(sig2); n=length(x); d = []; for i =1:length(x) for j =1:length(y) d1(i,j) = ([y(j) ;x(i)])'*sigmoinsun*([y(j) ;x(i)]); d2(i,j) = ([y(j) ;x(i)]-[2 ;.5])'*sigmoinsun*([y(j) ;x(i)]-[2 ;.5]); end; f1 = exp(-d1); f2 = exp(-d2); figure(1) [c h]=contourf(x,y,f1-f2); clabel(c,h); title({'aa','ss'});
Moindres carrés X = [x1 ; x2]; X = [X ones(length(X),1)]; yi = [ones(length(x1),1) ; -ones(length(x2),1)]; W = (X'*X)\(X'*yi); west = W(1:2); best = W(3);
Résistance aux « outliers »
Moindre carrés « stochastiques » ADALINE (Widrow Hoff 1960) Algorithme itératif de gradient
Algorithme de gradient : illustration dans le plan w1,w2 Lignes d ’iso-coût : J(W) = constante Minimum du coût w2 + Direction du gradient J’(W) Le gradient est orthogonal aux lignes d ’iso coût : argument à la « Taylor » w1
3 solutions LE NEURONE FORMEL
Algorithme itératif Stabilisation du coût (erreur relative) nbitemax = 50; k=0; while ((cout > 0) & (k<nbitemax)) K=K+1; ind = randperm(length(X)); for i=1:length(X) Dir = (sign(X(ind(i),:)*W)-yi(ind(i)))*X(ind(i),:); W = W - pas*Dir'; end cout = sum(abs(sign(X*W)-yi)); disp([k cout]); Stabilisation du coût (erreur relative) Randomisation (ok si n grand) Évaluation du coût : n opérations
ADALINE, Ça marche...
ADALINE des fois ça ne marche pas… Solution au sens des moindres carrés
Le Perceptron, des fois ça ne marche pas... ...Quand les exemples ne sont pas linéairement séparables
Règle du perceptron (Rosenblatt 1958) codage
Règle du perceptron (Rosenblatt 1958) Pas de fonction coût minimisée preuve de convergence (dans le cas linéairement séparable)
Règle du perceptron (Rosenblatt 1958)
Convergence des algorithmes de gradient
Performances des algorithmes linéaires Théorème (Vapnik & Chervonenkis, 1974)
Performances des algorithmes linéaires Théorème (Vapnik & Chervonenkis, 1974) borne Probabilité d’erreur précision risque empirique Asymptotiquement « jouable » Malédiction de la dimensionnalité
Conclusion Neurone formel = Modèle linéraire Estimation des paramètres directe rapide - n3 itérative lent - apprentissage au coup par coup OCR : n=106