La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Classification : objectifs

Présentations similaires


Présentation au sujet: "Classification : objectifs"— Transcription de la présentation:

1 Classification : objectifs
Mettre en évidence les similarités/ dissimilarités entre les ‘objets’ (e.g. pixels) Obtenir une représentation simplifiée (mais pertinente) des données originales Mettre sous un même label les objets ou pixels similaires  Définitions préalables Passer de l’espace des caractéristiques à celui des classes → règle : supervisée / non supervisée, paramétrique / non paramétrique, probabiliste / syntaxique / autre, avec rejet / sans rejet Espace des caractéristiques d (sS, ysd) Espace de décision = ensemble des classes W (sS, xsW), W = {wi, i[1,c] } Règle de décision ( = d(ys) ) Critère de performance

2 Ex. de classification non paramétrique
 Possibilité de modélisation de loi complexes, de forme non nécessairement paramétrique (ex. en 2D disque et couronne) Classification k-ppv (plus proches voisins) On dispose d’un ensemble (de ‘référence’) d’objets déjà labelisés Pour chaque objet y à classifier, on estime ses k ppv selon la métrique de l’espace des caractéristiques, et on lui affecte le label majoritaire parmi ses k ppv Possibilité d’introduire un rejet (soit en distance, soit en ambiguïté) Très sensible à l’ensemble de référence Exemples : Euclidienne, Mahanolobis… 1-ppv 3-ppv 5-ppv k-ppv (/24)

3 Connaissance des caractéristiques des classes
Cas supervisé Connaissance a priori des caractéristiques des classes Apprentissage à partir d’objets déjà étiquetés (cas de données ‘complètes’) Cas non supervisé Définition d’un critère, ex. : - minimisation de la probabilité d’erreur - minimisation de l’inertie intra-classe  maximisation de l’inertie inter-classes Définition d’un algorithme d’optimisation

4 Equivalence minimisation de la dispersion intra-classe / maximisation de la dispersion inter-classes

5 Application : seuil automatique d’Otsu
Algorithme Calcul de l’histogramme de l’image Initialisations: m1=min(I), |C1|=0, m2=<I>, |C2|=N, s=0, Dmax=0 Pour chaque bin j de l’histogramme centré autour de xj et ayant nj pixels m1= (|C1|m1+nj.xj)/(|C1|+nj) ; |C1|  |C1|+nj ; m2= (|C2|m2-nj.xj)/(|C2|-nj) ; |C2|  |C2|-nj si |C1||C2|(m1- m2)2>Dmax, alors Dmax= |C1||C2|(m1- m2)2 et s=xj

6 Seuil automatique d’Otsu : exemples
130 136 33

7 Algorithme des c-moyennes (cas non sup.)
Initialisation (itération t=0) : choix des centres initiaux (e.g. aléatoirement, répartis, échantillonnés) Répéter jusqu’à vérification du critère d’arrêt : t++ Pour chaque pixel, labelisation par la plus proche classe Nombre de changements : Mise à jour des centres par minimisation de l’erreur quadratique : Estimation du critère d’arrêt (e.g. test sur nb_ch(t) ) Exemple : (s=30) Remarques : Nombre de classes a priori  Dépendance à l’initialisation c=3 c=4 c=5 c=2

8 Variantes K-moyennes ISODATA Nuées dynamiques
Regroupement ou division de classes  nouveaux paramètres : qN=nbre min objets par classe, qS seuil de division (division de la classe i si : maxj[1,d]sij > qS et nbre objets de la classe > 2qN+1 et Iintra(i) > Iintra), qC seuil de regroupement (regroupement des classes i et j si : dist(mi, mj)qC), nbre max itérations Nuées dynamiques Remplacement de la mesure de ‘distance’ par une mesure de ‘dissemblance’ dis(ys,wi)  minimiser classe i représentée par son ‘noyau’, e.g. centre ( K-moyennes), plusieurs ‘échantillons’ de référence zl l[1,p] (dis(.,.) = moyenne des distances de l’objet aux  zl)

9 Probabilités et mesure de l’information
Probabilités fréquencistes / subjectivistes Physique stat. : répétition de phénomènes dans des ‘longues’ séquences  probabilité = passage à la limite d’une fréquence Modèle de connaissance a priori : degré de confiance relatif à un état de connaissance  probabilité = traduction numérique d’un état de connaissance Remarque : Quantité d’information et probabilités I = -log2(pi)  I ≥ 0, information d’autant plus importante que évènement inattendu (de faible probabilité)

10 Théorie bayésienne de la décision
La théorie de la décision bayésienne repose sur la minimisation du ‘risque’ Soit Ct(x,x’) le coût associé à la décision de x’ alors que la réalisation de X était x La performance de l’estimateur x’ est mesurée par le risque de Bayes E[Ct(x,x’)] = P(x’/x,y)=P(x’/y) car décision selon y seul Coût marginal (conditionnel à y) à minimiser Or x’P(x’/y)=1 et x’, P(x’/y)≥0, La règle qui minimise le coût moyen est donc celle telle que P(x’/y)=1 si et seulement si xP(x/y)Ct(x,x’) minimale

11 Exemple Détection d’un véhicule dangereux (V)
Décider V si et seulement si  Cas où a>b, on va décider plus facilement V que V en raison du coût plus fort d’une décision erronée en faveur de V que de V

12 Critère du MAP Maximum A Posteriori : Ct(x,x’) = 0, si x’ = x
Lien avec le MV :

13 Cas d’un mélange de lois normales
Exemples

14 Estimation de seuils (cas supervisé)
Image = ensemble d’échantillons suivant une loi de distribution de paramètres déterminés par la classe ex. : distribution gaussienne Cas 1D (monocanal), si seuil de séparation des classes wi et wi+1, probabilité d’erreur associée : Maximum de vraisemblance :

15 Maximum de vraisemblance (suite) :
Maximum A Posteriori :

16 Estimation de seuils : exemple
mu_k 50 150 var_k 625 MV Delta' 3,91E+09 s_i 100 mu_k 50 110 var_k 625 2500 P_k 10 24 MV Delta' 7,39E+09 s_i 75,84448 MAP Delta' 6,27E+09 s_i 72,24777

17 Lien c-moyennes / théorie bayésienne
Maximum de vraisemblance sur des lois de paramètres qi (e.g. qi=(mi,Si)) inconnus : Cas d’échantillons indépendants : max. de la logvraisemblance d’où : (*) or : d’où (*)  Cas gaussien, Si connus, mi inconnus  résolution itérative c-moyennes : Si=Id i[1,c] et P(wi | ys,q) = 1 si wi = xs, = 0 sinon en effet : en effet : d’où :

18 Classification SVM (Séparateurs à Vastes Marges) (Vapnik, 1995)
Exemple de classification à base d’apprentissage Hyp. :  1 classifieur linéaire dans un espace approprié  utilisation de fonctions à noyau pour projetter les données dans cet espace Exemple simplissime (cas binaire & linéairement séparable) Supervisé / Semi-supervisé Hyperplan séparateur Critère d’optimalité  maximisation de la marge Vecteurs de support distance entre hyperplan et ens. des échantillons Marge Ensemble d’apprentissage {(y1,x1), (y2,x2), …, {(yN,xN)}  équation de l’hyperplan

19 Cas séparable : il ‘suffit’ de maximiser la marge
Ex. de noyaux : polynômial, sigmoïde, gaussien, laplacien. Cas non séparable  projection dans 1 espace de dimension supérieure :

20 Calcul de l’hyperplan (cas linéaire, 2 classes)
xi{-1,1} Éq. de l’hyperplan séparateur : h(y) = wTy + w0 = 0 Cas séparable linéairement : Problème sous sa forme ‘primale’ marge = On choisit que min(wTy + w0 ) = 1 (i.e. pour les vecteurs de support)  minimiser sous contrainte  minimiser lagrangien : {(y1,x1), (y2,x2), …, {(yN,xN)} échantillons d’apprentissage Pour un hyperplan d’éq. wTy + w0 = 0, la distance d’un point M est Maximiser 1/||w|| (i.e. la marge) 

21 Calcul de l’hyperplan (cas linéaire, 2 classes)
|wTy + w0|1 Problème sous sa forme ‘duale’ en annulant les dérivées partielles du lagrangien / w0 et w : À injecter dans l’eq. du lagrangien Soluble par programmation quadratique  Ne fait intervenir que les vecteurs de support

22 Nécessaire de connaître uniquement le produit scalaire
SVM Cas non linéaire Transformation non linéaire f Nécessaire de connaître uniquement le produit scalaire Fonction à noyau Exemples de noyaux polynômial gaussien

23 Utilisation des SVM pour la classif. d’image
Principalement cas de données de grande dimension  Niveau pixel caractéristiques multi-échelles caractéristiques spectrales  Niveau objet caractéristiques de forme caractéristiques de texture  Niveau image caractéristiques en termes de pixels d’intérêt À comparer avec k-ppv, & réseaux de neurones. En entrée de la classif. : 1 image des données + 1 segmentation  labelisat° des segments Classification de l’image, e.g. en terme de type de scène Difficulté principale : choix des caractéristiques en entrée, du noyau de la stratégie pour passer en multi-classes (1 contre 1, 1 contre tous)  SVM  boite ‘noire’ efficace mais interprétation a posteriori limitée

24 Classification : exercices (I)
Soit l’image à deux canaux suivante : Soit les pixels de référence suivants : label 1 : valeurs (1,03;2,19) (0,94;1,83) (0,59;2,04) label 2 : valeurs (2,08;0,89) (2,23;1,16) (1,96;1,14) Effectuer la classification au k-ppv. Commentez l’introduction d’un nouveau pixel de référence de label 1 et de valeurs (1,32;1,56) 2,48 1,68 2,24 2,55 2,36 1,64 2,20 1,42 1,96 2,43 1,95 1,61 2,23 1,55 2,50 1,57 1,65 1,92 2,34 1,41 2,45 1,50 2,28 2,53 2,11 2,08 2,27 1,63 1,32 0,80 1,20 0,59 0,94 1,36 1,59 1,03 1,14 1,26 1,04 0,83 1,10 1,09 0,64 1,52 0,40 0,55 1,30 1,33 0,95 0,50 1,13 0,70 0,76 1,16 0,56 1,60 1,06 1,33 0,67 0,55 1,32 0,80 1,42 1,44 1,23 0,51 0,95 0,81 1,04 1,03 1,16 0,43 0,45 1,35 0,91 1,21 1,55 1,53 0,60 1,18 0,83 0,89 0,58 1,14 1,47 1,06 1,56 1,52 1,78 2,04 1,79 2,50 1,72 1,83 2,19 2,14 1,76 2,49 1,46 1,41 1,80 2,31 1,68 2,54 1,62 2,44 2,41 2,40 2,56 2,48 2,35 2,28 1,95 1,51 2,24 2,53 1,50

25 Exercices (I) : correction

26 Classification : exercices (II)
Sur l’image à deux canaux précédente : Déterminer les seuils de décision pour chacun des canaux si l’on suppose 2 classes gaussiennes de caractéristiques respectives : canal 1 : (m1,s1)=(2.0,0.38), (m2,s2)=(1.0,0.34) canal 2 : (m1,s1)=(1.0,0.36), (m2,s2)=(2.0,0.39) Effectuer la classification par seuillage. Effectuer la classification c-means pour c=2. Comparer avec les résultats précédents. Comparer avec la classification c-means pour c=3.

27 Exercices (II) : correction

28


Télécharger ppt "Classification : objectifs"

Présentations similaires


Annonces Google