CHAPTER 10: Discrimination Linéaire
Classification basée sur Vraisemblance vs Discriminant Base de vraisemblance: Suppose un modèle pour p(x|Ci) et utilise la règle Bayes pour calculer P(Ci|x) gi(x) = log P(Ci|x) Base discriminant: Suppose un modèle pour gi(x|Φi); pas d’estimation de densité Estimation des frontières suffit; il n’est pas nécessaire d’estimer avec précision les densités à l’intérieures des frontières. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Discriminant linéaire Avantages: Simple: O(d) espace/calcul Extraction de connaissance: Somme pondérées des attributs; pondération positive/négative, grandeurs (credit scoring) Optimale quand p(x|Ci) sont Gaussiennes avec une matrice de partagées; utile quand classes sont (presque) linéairement séparables Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Modèle Linéaire généralisé Discriminant quadratique : Ordre supérieur (produit) termes: Transformation de x vers z utilisant des fonctions à base non linéaire et utilise un discriminant linéaire dans l’espace z Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Deux Classes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Geometry Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classes Multiples Classes sont linéairement séparables Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Séparation par paire Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Des Discriminants aux Posteriors Quand p (x | Ci ) ~ N ( μi , ∑) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Fonction Sigmoid (Logistic) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Descente du Gradient E(w|X) est l’erreur avec paramètres w sur l’échantillon X w*=arg minw E(w | X) Gradient Descente du gradient-: Commencer par une valeur aléatoire de w et mettre à jour w itérativement dans la direction négative du gradient Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Descente du Gradient η E (wt) E (wt+1) wt wt+1 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Logistic Discrimination Deux classes: Suppose que le rapport du logarithme de vraisemblance est linéaire Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Apprentissage : Deux Classes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Apprentissage: Descente du gradient Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
100 1000 10 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
K>2 Classes softmax Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Exemple Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Généralisation du Modèle Linéaire Quadratique: Somme de fonctions de base : où φ(x) sont les fonctions de base Noyaux dans SVM Unités cachées dans les réseaux de neurones Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Hyperplan de Séparation Optimale (Cortes and Vapnik, 1995; Vapnik, 1995) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Marge Distance du discriminant aux plus proches instances des deux bords Distance de x à l’hyperplan est Nous imposons Pour une solution unique, fixer ρ||w||=1 et maximiser la marge Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
La plupart αt sont 0 et seulement un petit nombre possède αt >0; ils représentent les vecteurs de support Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Soft Margin Hyperplane Non linéairement séparable Soft erreur Nouveau primal est Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Machines à noyau Prétraitement de l’entrée x par les fonctions de base z = φ(x) g(z)=wTz g(x)=wT φ(x) La solution SVM Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Fonctions noyau Polynomiaux de degrée q: Radial-basis functions: Sigmoidal functions: (Cherkassky and Mulier, 1998) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)