Classification : objectifs

Slides:



Advertisements
Présentations similaires
Traitement d’images : concepts fondamentaux
Advertisements

Traitement d’images : concepts avancés
Traitement d’images : concepts fondamentaux
Apprentissage spectral
Gestion de portefeuille
Gestion de portefeuille
Classification et prédiction
Classification et prédiction
Efficient Simplification of Point-Sampled Surfaces
Apprentissage supervisé à partir de séquences
Introduction au cours “Modèles stochastiques en traitement d’image”
Champs de Markov en Vision par Ordinateur
Champs de Markov en Vision par Ordinateur
Champs de Markov en Vision par Ordinateur
RECONNAISSANCE DE FORMES
Inférence statistique
Les TESTS STATISTIQUES
Les K plus proches voisins
Les TESTS STATISTIQUES
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
3. Analyse et estimation du mouvement dans la vidéo
Maria-João Rendas CNRS – I3S Novembre 2006
Modélisation des systèmes non linéaires par des SIFs
Traitements d'images et Vision par ordinateur
DEA instrumentation et commande
Concepts avancés en mathématiques et informatique appliquées
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
RECONNAISSANCE DE FORMES
Classification Multi Source En Intégrant La Texture
Décodage des informations
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Groupe 1: Classes de même intervalle
DEA Perception et Traitement de l’Information
Construction de modèles visuels
RECONNAISSANCE DE FORMES
DEA Perception et Traitement de l’Information
Traitement d’images : concepts fondamentaux
Les réseaux de neurones
RECONNAISSANCE DE FORMES
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Interprétation automatique
Serrure biométrique Reconnaissance dempreintes digitales Raphaël FROMONT – Pascal GRIMAUD – Nicolas MUNOZ Tuteur : M. Patrick ISOARDI.
La régression multiple
Filtrage de Kalman et aperçu probabiliste
Apprentissage par arbre de décision
Modélisation géométrique de base
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Classification automatique de textes
Introduction à la reconnaissance:
Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.
Programmation linéaire en nombres entiers
S. Canu, laboratoire PSI, INSA de Rouen
Les réseaux de neurones à réservoir en traitement d’images
Réseaux de neurones à base radiale
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
SVM machine à vecteurs de support ou séparateur à vaste marge
Méthode des moindres carrés (1)
Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
Rappel de statistiques
Post-optimisation, analyse de sensibilité et paramétrage
Partie II : Segmentation
Segmentation (2 ième partie) Références: Sonka et al: sections 6.2.6, 10.2 (10.6) Autres: chap Forsyth chap. 4 Ballard & Brown (pour GHT) Dernière.
Exemple et critique d’un système de vision simple Patrick Hébert (dernière révision septembre 2008) Référence complémentaire: Shapiro et Stockman: chap.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
MECANIQUE DES MILLIEUX CONTINUS ET THERMODYDAMIQUE SIMULATIONS.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Qu’apprend-on dans ce chapitre
Transcription de la présentation:

Classification : objectifs Mettre en évidence les similarités/ dissimilarités entre les ‘objets’ (e.g. pixels) Obtenir une représentation simplifiée (mais pertinente) des données originales Mettre sous un même label les objets ou pixels similaires  Définitions préalables Passer de l’espace des caractéristiques à celui des classes → règle : supervisée / non supervisée, paramétrique / non paramétrique, probabiliste / syntaxique / autre, avec rejet / sans rejet Espace des caractéristiques d (sS, ysd) Espace de décision = ensemble des classes W (sS, xsW), W = {wi, i[1,c] } Règle de décision ( = d(ys) ) Critère de performance

Ex. de classification non paramétrique  Possibilité de modélisation de loi complexes, de forme non nécessairement paramétrique (ex. en 2D disque et couronne) Classification k-ppv (plus proches voisins) On dispose d’un ensemble (de ‘référence’) d’objets déjà labelisés Pour chaque objet y à classifier, on estime ses k ppv selon la métrique de l’espace des caractéristiques, et on lui affecte le label majoritaire parmi ses k ppv Possibilité d’introduire un rejet (soit en distance, soit en ambiguïté) Très sensible à l’ensemble de référence Exemples : Euclidienne, Mahanolobis… 1-ppv 3-ppv 5-ppv k-ppv (/24)

Connaissance des caractéristiques des classes Cas supervisé Connaissance a priori des caractéristiques des classes Apprentissage à partir d’objets déjà étiquetés (cas de données ‘complètes’) Cas non supervisé Définition d’un critère, ex. : - minimisation de la probabilité d’erreur - minimisation de l’inertie intra-classe  maximisation de l’inertie inter-classes Définition d’un algorithme d’optimisation

Equivalence minimisation de la dispersion intra-classe / maximisation de la dispersion inter-classes

Application : seuil automatique d’Otsu Algorithme Calcul de l’histogramme de l’image Initialisations: m1=min(I), |C1|=0, m2=<I>, |C2|=N, s=0, Dmax=0 Pour chaque bin j de l’histogramme centré autour de xj et ayant nj pixels m1= (|C1|m1+nj.xj)/(|C1|+nj) ; |C1|  |C1|+nj ; m2= (|C2|m2-nj.xj)/(|C2|-nj) ; |C2|  |C2|-nj si |C1||C2|(m1- m2)2>Dmax, alors Dmax= |C1||C2|(m1- m2)2 et s=xj

Seuil automatique d’Otsu : exemples 130 136 33

Algorithme des c-moyennes (cas non sup.) Initialisation (itération t=0) : choix des centres initiaux (e.g. aléatoirement, répartis, échantillonnés) Répéter jusqu’à vérification du critère d’arrêt : t++ Pour chaque pixel, labelisation par la plus proche classe Nombre de changements : Mise à jour des centres par minimisation de l’erreur quadratique : Estimation du critère d’arrêt (e.g. test sur nb_ch(t) ) Exemple : (s=30) Remarques : Nombre de classes a priori  Dépendance à l’initialisation c=3 c=4 c=5 c=2

Variantes K-moyennes ISODATA Nuées dynamiques Regroupement ou division de classes  nouveaux paramètres : qN=nbre min objets par classe, qS seuil de division (division de la classe i si : maxj[1,d]sij > qS et nbre objets de la classe > 2qN+1 et Iintra(i) > Iintra), qC seuil de regroupement (regroupement des classes i et j si : dist(mi, mj)qC), nbre max itérations Nuées dynamiques Remplacement de la mesure de ‘distance’ par une mesure de ‘dissemblance’ dis(ys,wi)  minimiser classe i représentée par son ‘noyau’, e.g. centre ( K-moyennes), plusieurs ‘échantillons’ de référence zl l[1,p] (dis(.,.) = moyenne des distances de l’objet aux  zl)

Probabilités et mesure de l’information Probabilités fréquencistes / subjectivistes Physique stat. : répétition de phénomènes dans des ‘longues’ séquences  probabilité = passage à la limite d’une fréquence ≠ Modèle de connaissance a priori : degré de confiance relatif à un état de connaissance  probabilité = traduction numérique d’un état de connaissance Remarque : Quantité d’information et probabilités I = -log2(pi)  I ≥ 0, information d’autant plus importante que évènement inattendu (de faible probabilité)

Théorie bayésienne de la décision La théorie de la décision bayésienne repose sur la minimisation du ‘risque’ Soit Ct(x,x’) le coût associé à la décision de x’ alors que la réalisation de X était x La performance de l’estimateur x’ est mesurée par le risque de Bayes E[Ct(x,x’)] = P(x’/x,y)=P(x’/y) car décision selon y seul Coût marginal (conditionnel à y) à minimiser Or x’P(x’/y)=1 et x’, P(x’/y)≥0, La règle qui minimise le coût moyen est donc celle telle que P(x’/y)=1 si et seulement si xP(x/y)Ct(x,x’) minimale

Exemple Détection d’un véhicule dangereux (V) Décider V si et seulement si  Cas où a>b, on va décider plus facilement V que V en raison du coût plus fort d’une décision erronée en faveur de V que de V

Critère du MAP Maximum A Posteriori : Ct(x,x’) = 0, si x’ = x Lien avec le MV :

Cas d’un mélange de lois normales Exemples

Estimation de seuils (cas supervisé) Image = ensemble d’échantillons suivant une loi de distribution de paramètres déterminés par la classe ex. : distribution gaussienne Cas 1D (monocanal), si seuil de séparation des classes wi et wi+1, probabilité d’erreur associée : Maximum de vraisemblance :

Maximum de vraisemblance (suite) : Maximum A Posteriori : 

Estimation de seuils : exemple mu_k 50 150 var_k 625 MV Delta' 3,91E+09 s_i 100 mu_k 50 110 var_k 625 2500 P_k 10 24 MV Delta' 7,39E+09 s_i 75,84448 MAP Delta' 6,27E+09 s_i 72,24777

Lien c-moyennes / théorie bayésienne Maximum de vraisemblance sur des lois de paramètres qi (e.g. qi=(mi,Si)) inconnus : Cas d’échantillons indépendants : max. de la logvraisemblance d’où : (*) or : d’où (*)  Cas gaussien, Si connus, mi inconnus  résolution itérative c-moyennes : Si=Id i[1,c] et P(wi | ys,q) = 1 si wi = xs, = 0 sinon en effet : en effet : d’où :

Classification SVM (Séparateurs à Vastes Marges) (Vapnik, 1995) Exemple de classification à base d’apprentissage Hyp. :  1 classifieur linéaire dans un espace approprié  utilisation de fonctions à noyau pour projetter les données dans cet espace Exemple simplissime (cas binaire & linéairement séparable) Supervisé / Semi-supervisé Hyperplan séparateur Critère d’optimalité  maximisation de la marge Vecteurs de support distance entre hyperplan et ens. des échantillons Marge Ensemble d’apprentissage {(y1,x1), (y2,x2), …, {(yN,xN)}  équation de l’hyperplan

Cas séparable : il ‘suffit’ de maximiser la marge Ex. de noyaux : polynômial, sigmoïde, gaussien, laplacien. Cas non séparable  projection dans 1 espace de dimension supérieure :

Calcul de l’hyperplan (cas linéaire, 2 classes) xi{-1,1} Éq. de l’hyperplan séparateur : h(y) = wTy + w0 = 0 Cas séparable linéairement : Problème sous sa forme ‘primale’ marge = On choisit que min(wTy + w0 ) = 1 (i.e. pour les vecteurs de support)  minimiser sous contrainte  minimiser lagrangien : {(y1,x1), (y2,x2), …, {(yN,xN)} échantillons d’apprentissage Pour un hyperplan d’éq. wTy + w0 = 0, la distance d’un point M est Maximiser 1/||w|| (i.e. la marge) 

Calcul de l’hyperplan (cas linéaire, 2 classes) |wTy + w0|1 Problème sous sa forme ‘duale’ en annulant les dérivées partielles du lagrangien / w0 et w : À injecter dans l’eq. du lagrangien Soluble par programmation quadratique  Ne fait intervenir que les vecteurs de support

Nécessaire de connaître uniquement le produit scalaire SVM Cas non linéaire Transformation non linéaire f Nécessaire de connaître uniquement le produit scalaire Fonction à noyau Exemples de noyaux polynômial gaussien

Utilisation des SVM pour la classif. d’image Principalement cas de données de grande dimension  Niveau pixel caractéristiques multi-échelles caractéristiques spectrales  Niveau objet caractéristiques de forme caractéristiques de texture  Niveau image caractéristiques en termes de pixels d’intérêt À comparer avec k-ppv, & réseaux de neurones. En entrée de la classif. : 1 image des données + 1 segmentation  labelisat° des segments Classification de l’image, e.g. en terme de type de scène Difficulté principale : choix des caractéristiques en entrée, du noyau de la stratégie pour passer en multi-classes (1 contre 1, 1 contre tous)  SVM  boite ‘noire’ efficace mais interprétation a posteriori limitée

Classification : exercices (I) Soit l’image à deux canaux suivante : Soit les pixels de référence suivants : label 1 : valeurs (1,03;2,19) (0,94;1,83) (0,59;2,04) label 2 : valeurs (2,08;0,89) (2,23;1,16) (1,96;1,14) Effectuer la classification au k-ppv. Commentez l’introduction d’un nouveau pixel de référence de label 1 et de valeurs (1,32;1,56) 2,48 1,68 2,24 2,55 2,36 1,64 2,20 1,42 1,96 2,43 1,95 1,61 2,23 1,55 2,50 1,57 1,65 1,92 2,34 1,41 2,45 1,50 2,28 2,53 2,11 2,08 2,27 1,63 1,32 0,80 1,20 0,59 0,94 1,36 1,59 1,03 1,14 1,26 1,04 0,83 1,10 1,09 0,64 1,52 0,40 0,55 1,30 1,33 0,95 0,50 1,13 0,70 0,76 1,16 0,56 1,60 1,06 1,33 0,67 0,55 1,32 0,80 1,42 1,44 1,23 0,51 0,95 0,81 1,04 1,03 1,16 0,43 0,45 1,35 0,91 1,21 1,55 1,53 0,60 1,18 0,83 0,89 0,58 1,14 1,47 1,06 1,56 1,52 1,78 2,04 1,79 2,50 1,72 1,83 2,19 2,14 1,76 2,49 1,46 1,41 1,80 2,31 1,68 2,54 1,62 2,44 2,41 2,40 2,56 2,48 2,35 2,28 1,95 1,51 2,24 2,53 1,50

Exercices (I) : correction

Classification : exercices (II) Sur l’image à deux canaux précédente : Déterminer les seuils de décision pour chacun des canaux si l’on suppose 2 classes gaussiennes de caractéristiques respectives : canal 1 : (m1,s1)=(2.0,0.38), (m2,s2)=(1.0,0.34) canal 2 : (m1,s1)=(1.0,0.36), (m2,s2)=(2.0,0.39) Effectuer la classification par seuillage. Effectuer la classification c-means pour c=2. Comparer avec les résultats précédents. Comparer avec la classification c-means pour c=3.

Exercices (II) : correction