DEA Perception et Traitement de l’Information Reconnaissance des formes discrimination linéaire S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF
des caractéristiques) Buts de la RdF D : Algorithme de Reconnaissance des Formes Une forme x (vecteur forme des caractéristiques) C’est la forme « y=D(x) » Nous voulons un algorithme de RdF performant
RdF et apprentissage 2 1 Les problèmes Ensemble d’apprentissage (échantillon) 3 A priori sur la nature de la solution 2 A : Algorithme d’apprentissage D : Algorithme de Reconnaissance des Formes Une forme x (vecteur forme des caractéristiques) C’est la forme « y=D(x) »
RdF et apprentissage 2 D(x) =signe(w’x+b) 1 Les problèmes Ensemble d’apprentissage (échantillon) 3 A priori sur la nature de la solution 2 A : Algorithme d’apprentissage D(x) =signe(w’x+b) D : Algorithme de Reconnaissance des Formes Une forme x (vecteur forme des caractéristiques) C’est la forme « y=D(x) »
Discrimination linéaire + + + + + + + + +
Discrimination Linéaire + + + + + + + + + Codage {-1,1}, fonction de décision de type « heaviside »
Codage et géomètrie w’x : produit scalaire
Géométrie : illustration dans R2 °
Quand le discriminateur linéaire est il optimal ? Quand on le sait à priori… quand les 2 classes sont gaussiènnes (même matrice de variance covariance, couts 0-1) quand on a peu d’exemples par rapport à d (rapport n/d) ...et que l’on n’a pas de modèle on peut l’utiliser pour « représenter » les données (cf ACP) Avantages : il est simple on connaît des bornes de l’erreur
MAP : cas gaussien
Cas gaussien 1d Règle de décision X<1/2+s2log(P1/P2) on obsetrve la suite suivante 0.8133 1.0000 0.7258 0 0.4117 1.0000 2.1832 0 0.8636 1.0000 1.1139 1.0000 1.0668 0 0.0593 0 0.9044 1.0000 -0.8323 0 n=10 s = round(rand(n,1)) x = s+randn(n,1) Exemple : communication binaire synchrone la source 1 émet des 0 et la source 2 des 1, le canal est bruité par un bruit blanc, on observe
Erreur de décision
Cas gaussien multidimensionnel Le Discriminateur de Bayes est linéaire... x = -3:0.1:3; y = x; [Xt,Yt]=meshgrid(x,y); theta = pi/3; sig=[1 cos(theta);cos(theta) 2]; sig2=sig*sig; sigmoinsun=inv(sig2); n=length(x); d = []; for i =1:length(x) for j =1:length(y) d1(i,j) = ([y(j) ;x(i)])'*sigmoinsun*([y(j) ;x(i)]); d2(i,j) = ([y(j) ;x(i)]-[2 ;.5])'*sigmoinsun*([y(j) ;x(i)]-[2 ;.5]); end; f1 = exp(-d1); f2 = exp(-d2); figure(1) [c h]=contourf(x,y,f1-f2); clabel(c,h); title({'aa','ss'});
Cas Gaussien (même variance) ...
Mise en œuvre pratique
Estimation... et rêve
Discrimination Linéaire wx+ b=0 + + + + + + + + +
Discrimination Linéaire wx+ b=0 + + + + + + + + +
Discrimination Linéaire wx+ b=0 + + + + + + + + +
Discrimination Linéaire wx+ b=0 + + + + + + + + +
Discrimination Linéaire Marge wx+ b=0 Marge +
Marge d’un classifieur Définition frontière marge point influent : « proche » de la frontière, point influent pour une règle D : si l’étiquette change, la frontière change « significativement » (un des points point non influent