SYS828: Systèmes biométriques

SYS828: Systèmes biométriques
CONTENU DU COURS SYS828: Systèmes biométriques Éric Granger

CONTENU DU COURS B. Algorithmes d’apprentissage: B.1 Introduction aux algorithmes d’apprentissage B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs B.3 Apprentissage supervisé pour la classification de vecteurs B.4 Apprentissage supervisé pour la classification de séquences SYS828: Systèmes biométriques Éric Granger

Sommaire – Section B.3 B.3 Apprentissage supervisé pour la catégorisation de vecteurs réseaux de neurones ARTMAP réseaux de neurones à fonctions de base radiale (RBF) réseaux de neurones probabilistes (PNN) machines à vecteurs de support (SVM) SYS828: Systèmes biométriques Éric Granger

Fondements – modèle ART SYS828: Systèmes biométriques
B.3(1) Réseaux ARTMAP Fondements – modèle ART Taxonomie des réseaux ARTMAP: SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Modèle ARTMAP: famille de RNA classificateurs capables d’apprentissage rapide, en-ligne, supervisé, non-supervisé et incrémental SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Structure simplifiée d’un réseau ARTMAP: SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode entraînement: Initialisation des poids: fixer tous les poids Wab = 0 Encodage d’un patron d’entrée: remise à la base du ρ Choix de catégorie Critère de vigilance Prédiction d’une classe: le code de réponse désirée t est transmise à Fab fonction de prédiction: le patron y active la couche Fab via les poids Wab SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode entraînement: Prédiction d’une classe: (suite) prédiction: actif pour le neurone K correspondant à la prédiction (yKab = 1 et ykab = 0 pour k ≠ K) si la prédiction K correspond à la réponse désirée, on procède à l’apprentissage (étape 6), sinon on effectue un ‘match tracking’ SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode entraînement: ‘match tracking’: augmente ρ du fuzzy ART juste assez pour induire une recherche pour soit: trouver un autre neurone commis de F2 qui prédit la classe désirée (étape 3) créer un neurone non-commis de F2 pour apprendre la classe désirée (étape 6) SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode entraînement: 6. Apprentissage: mise à jour du prototype de J: le vecteur prototype wJ du neurone J est adapté selon: création d’un nouveau lien associatif: si J vient d’être commis, on fixe wJKab = 1, où k = K est la réponse désiré Retour à l’étape 2 pour prendre une autre entrée SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode test: Afin de prédire la classe liée à chaque patron d’entrée: Encodage d’un patron d’entrée Choix de catégorie Prédiction d’une classe (sans tests) SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD Entraînement sur patrons de classes connues: patrons étiquette de classe A a a class #1 b b B class #2 C c C class #3 Test sur patrons de classes connues et inconnues: patrons prédiction du classificateur A class #1 C class #3 D classe inconnue! SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD ARTMAP-FD: une extension de fuzzy ARTMAP qui permet de détecter des patrons qui appartiennent à de classes inconnues pour chaque entrée a en mode test, on calcul la mesure de familiarité: Si patron déclaré connu (prédit une classe K) Si patron déclaré inconnu (aucune prédiction) SYS828: Systèmes biométriques Éric Granger

B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD Mesure simple du degré d’appartenance d’un patron à un hyper rectangle (catégorie): φ(A) = 1 à l’intérieur, et φ(A) < 1 à l’extérieur X 1 a SYS828: Systèmes biométriques Éric Granger

Sommaire – Section B.3 B.3 Apprentissage supervisé pour la classification de vecteurs réseaux de neurones ARTMAP réseaux de neurones à fonctions de base radiale (RBF) réseaux de neurones probabilistes (PNN) machines à vecteurs de support (SVM) SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Qu’est ce qu’un réseau RBF? fonctions à bases radiales – un domaine de recherche actif an analyse numérique depuis environ 1980 solution au problème d’interpolation multi variable approximation de fonctions dans des espaces multidimensionnels réseau RBF – un réseau de neurone pour la classification et la régression (Broomhead et Low, 1988) un réseau de neurones non-récurrent (‘feed forward’) à apprentissage supervisé conception inspirée de méthodes d’interpolation qui exploitent les RBF SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Méthodes d’interpolation: Apprentissage: trouver une surface multidimensionnelle qui correspond le mieux avec les données d’entraînement Généralisation: utiliser cette surface pour interpoler les données de test SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Structure générale d’un réseau de neurones RBF: couche cachée: transformation non linéaire x → φ(x) chaque neurone constitue une fonction cachée φ(x) (i.e., RBF) pour la transformation non linéaire des patrons d’entrée x le nombre de neurones est généralement bien plus grand que le nombre de nœuds d’entrée couche de sortie: transformation linéaire φ(x) → y combinaison linéaire des fonctions φ(x) pour produire une sortie SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) Un problème de classification qui est transposé de façon non linéaire dans un espace de haute dimensionnalité a une plus grande probabilité d’être séparable qu’en basse dimensionnalité Séparabilité – problème à 2 classes: transpose x dans l’espace image de haute dimensionnalité avec des fonctions cachées φ(x) non-linéaires à valeur réelle: le problème est ‘φ – séparable’ s’il existe un vecteur de paramètres w à m1 dimensions tel que: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) Exemple 2D – cas des fonctions cachées φ polynomiales: classe de transformations obtenue à partir d’une combinaison linéaire des produits des coordonnées de x = (x1, x2) variété d’ordre r : SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) Exemple – cas des fonctions cachées Gaussiennes: problème XOR (linéairement non séparable) SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Interpolation Problème: étant donnée N patrons différents et les N réponses désirées correspondantes , trouvez une fonction qui satisfait: La technique RBF consiste à utiliser une fonction de la forme: x1 x2 d SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Interpolation Théorème de Micchelli (1986): Si est un ensemble de patrons distincts, alors la matrice N-par-N d’interpolation est non singulière (i.e., une solution existe). Théorème de Light (1971): Si est un ensemble de patrons distincts, une matrice d’interpolation avec éléments de la forme est positive et définie. SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Interpolation RBF communes qui respectent le théorème de Light: fonctions multi quadratiques: fonctions multi quadratiques inverse: fonctions Gaussiennes: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Interpolation Exemple en 1-D: données d’entraînement {(xi ,yi)} = {(-1, 1), (0, 2), (1, 1)} avec RBF multi quadratique: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Interpolation Selon les théorèmes de Michelli et Light, on peut résoudre: mais, en pratique, on veut résoudre quand Φ est arbitrairement proche d’une matrice singulière solutions: théorie de régularisation (solution exacte) réseau RBF généralisé (estimation) SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Régularisation Problème avec l’interpolation stricte: généralisation sur de nouvelles données → sur apprentissage L’apprentissage peut être perçu comme un problème de reconstruction d’hyper surfaces: problèmes directes vs inverses Problèmes inverses sont soit bien ou mal posés: un problème est bien posé ssi il respecte 3 conditions: existe: il exister un y(x) pour chaque x unique: y(x1) = y(x2) ssi x1 = x2 continue: si dist(x1,x2) < δ(ε) implique dist(y(x1),y(x2)) < ε SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Régularisation Problèmes inverses mal posés: pas assez d’information dans TRAIN pour décrire un y(x) de façon unique (viole #2) bruit/imprécisions dans TRAIN ajoute trop d’incertitude dans y(x): discontinuités (viole #3) Solution possible: inclure de l’information a priori sur la transformation entrée-sortie y(x) mais, le processus générateur de TRAIN doit être lisse et exhiber de la redondance SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Régularisation Idée de base de la régularisation: stabiliser la solution avec une fonctionnelle non négative qui intègre de l’information a priori sur la forme de la solution. information a priori contient des contraintes de lissage sur y(x) hypothèse sur la famille de fonctions qui décrit le phénomène qu’on cherche à approximer... SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Régularisation Théorie de régularisation de Tikhonov: terme d’erreur standard – distance entre y(xi) et di terme de régularisation (stabilisateur) – dépend des propriétés géométriques de y(xi) où P est un opérateur différentielle linéaire qui intègre l’information a priori sur la forme de la solution y(x) fonction de coût totale à minimiser: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Régularisation paramètre de régularisation λ : nombre positif réel qui indique si TRAIN est suffisant pour spécifier y(x) si λ→ 0 , problème non-contrainte: y(x) est déterminée entièrement par TRAIN si λ→ ∞, les contraintes de lissage imposées a priori par P sont suffisant pour spécifier y(x): TRAIN est non fiable en pratique , alors les deux informations contribuent à la solution SYS828: Systèmes biométriques Éric Granger

Réseau de régularisation SYS828: Systèmes biométriques
B.3(2) Réseaux RBF Réseau de régularisation Une solution au problème de régularisation: [Poggio et Girosi, 1990] somme pondérée de fonctions de Green, G(x;xi), centrées sur les xi de TRAIN: l’approche par régularisation est équivalent à l’expansion de y(x) en termes d’un ensemble de fonctions de Green, spécifiée par la forme de P le nombre de fonctions de Green est égal à |TRAIN| SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseau de régularisation Détermination de coefficients wi: est évaluées pour chaque patron de TRAIN, alors: si on pose: et en éliminant y, alors: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseau de régularisation Les fonctions G(x;xi), centrées à xi, sont spécifiées par la forme de P si P est invariant aux rotations et aux translations, alors G(x;xi) dépend seulement de la norme Euclidienne du vecteur différence, alors: sous ces conditions, G(x;xi) doit être une RBF, et la solution de régularisation doit prendre la forme: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseau de régularisation Exemple: fonctions Gaussiennes multi variables correspondent à un opérateur différentiel P qui est invariants aux rotations et aux translations: la solution au problème de régularisation prend la forme: qui consiste d’une superposition linéaire de Gaussiennes avec centres xi et avec dispersions σi SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseau de régularisation Réseau RBF de régularisation: la sortie est la somme pondérée des sorties de la couche cachée Input Layer Hidden layer of N Green’s functions Output SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseau de régularisation Propriétés d’un réseau RBF de régularisation: [Poggio et Girosi, 1990] approximateurs universels: ils peuvent approximer n’importe quelle fonction continue arbitrairement bien avec un nombre suffisant de neurones cachées: étant donnée une fonction non linéaire inconnue f, il existe toujours un choix de coefficients w qui approxime f mieux que tout autre choix possible; ses solutions sont optimales: il minimise la fonction de coût ε(y). complexité de calculs: la correspondance des neurones cachées avec N patrons donne un réseau très coûteux calcul des poids w est O(N3) car on doit inverser une matrice N-par-N difficile à réaliser en pratique pour de grands N... SYS828: Systèmes biométriques Éric Granger

Réseaux RBF généralisés SYS828: Systèmes biométriques
B.3(2) Réseaux RBF Réseaux RBF généralisés Un approximation de la solution régularisée: solution sous optimale dans l’espace à dimension M < N, qui est alors moins coûteuse on peut dériver un approximation avec la méthode de Galerkin’s [Poggio and Girosi, 1990]: car: où les centre ti et les poids wi sont à déterminer. SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseaux RBF généralisés Architecture générale: Input Layer Hidden layer of of radial functions Output layer SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseaux RBF généralisés Détermination des poids wi: Un nouvelle fonction de coût: la minimisation de cette fonction de coût en fonction du vecteur de poids donne: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseaux RBF généralisés il a été démontré que lorsque le paramètre λ → 0, le vecteur w converge vers une solution pseudo-inverse pour M ≤ N [Broomhead et Lowe, 1988]: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Réseaux RBF généralisés Comparaison entre réseaux RBF régularisés (exact) et généralisés (estimation): le nombre de neurones de la couche cachée: régularisation: N généralisés: M ≤ N (selon la complexité du problème) les paramètres inconnus: régularisation: poids de la couche de sortie généralisés: les poids de la couche de sortie et la position des centres SYS828: Systèmes biométriques Éric Granger

Stratégies d’apprentissage SYS828: Systèmes biométriques
B.3(2) Réseaux RBF Stratégies d’apprentissage Structure générale d’un réseau RBF classificateur: couche cachée: transformation non linéaire x → φ (x) couche de sortie: transformation linéaire φ(x) → y (combinaison linéaire des fonctions cachées) SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Stratégies d’apprentissage L’activation des neurones: couche cachée: (j = 1, .., M) (dans le cas de RBF de forme Gaussienne) couche de sortie: (par classe k) superposition linéaire de RBF capables d’approximation universelle Apprentissage: optimiser les centre μi , les dispersions σj et les poids wkj SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Stratégies d’apprentissage Le processus d’apprentissage du réseau RBF généralisé comprend deux phases d’optimisation: les neurones cachées – évoluent lentement selon une stratégie d’optimisation non linéaire les poids de sortie – s’ajustent rapidement selon une stratégie d’optimisation linéaire SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Stratégies d’apprentissage Plusieurs différentes stratégies d’apprentissage selon la façon dont les centres sont déterminés Principales stratégies en littérature: centres fixes, sélectionnés de façon aléatoire centres obtenus par apprentissage non-supervisé centres obtenus par apprentissage supervisé SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF 1. centres fixes sélectionnés de façon aléatoire
Approche LMS – résoudre des équations linéaires pour dériver les poids wi de la couche de sortie: méthode pseudo-inverse: où G+ est la matrice pseudo-inverse de la matrice Calcul de G+ par décomposition en valeur singulière si G est une matrice réelle N-by-M, il existe deux matrices orthogonales et telle que alors, la matrice avec matrice N-by-N SYS828: Systèmes biométriques Éric Granger

Exemple: problème XOR (linéairement non séparable) , Fixed input = +1 b(bias) Input node Gaussian Function Linear output neuron SYS828: Systèmes biométriques Éric Granger

Input-Output Transformation Computed for XOR Problem Data Point,j Input Pattern, Desired Output, (1,1) (0,1) (0,0) (1,0) SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF centres fixes sélectionnés de façon aléatoire
Problème avec la méthode à centres fixés: justifiée seulement si TRAIN est distribué d’une façon représentative pour le problème peut nécessiter plusieurs neurones cachées, et un grand TRAIN pour obtenir des performances adéquates SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF 2. centres obtenus par apprentissage non-supervisé Apprentissage hybride: couche cachée: apprentissage non-supervisé de type auto-organisateur pour estimer les centres des RBFs e.g., catégorisation k-means ou GMM couche de sortie: apprentissage supervisé pour estimer les poids linéaires e.g., algorithme LMS, règle delta (à base d’erreurs) SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF 2. centres obtenus par apprentissage non-supervisé
Exemple: apprentissage séquentielle k-means (en-ligne): Initialisation – choisir aléatoirement les centres Échantillonnage – prendre un patron x de TRAIN Calcul de proximité – déterminer J, l’index du centre qui est le plus proche de x Ajuster les centres – retourner à l’étape 2 SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF 3. centres sélectionnés par apprentissage supervisé
Tous les paramètres libres sont ajustés par un processus d’apprentissage supervisé à base d’erreur (e.g., l’algo. LMS) Exploite des la descente de gradient, avec la fonction de coût: Détermine tous les paramètres qui minimisent E. SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF 3. centres sélectionnés par apprentissage supervisé
poids linéaires: position des centres: dispersion des centres: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Remarques:
3. centres sélectionnés par apprentissage supervisé Remarques: il est possible de se fait prendre dans un minimum local dans l’espace des paramètres, surtout pour et on utilise différents paramètres de taux d’apprentissage pour chacune des équations précédentes la procédure par descente de gradient dans le réseaux RBF n’implique pas la rétro-propagation d’erreurs. SYS828: Systèmes biométriques Éric Granger

réseaux RBF pour la classification SYS828: Systèmes biométriques
B.3(2) Réseaux RBF réseaux RBF pour la classification Problème de classification à k classes: sachant tous les statistiques sous-jacentes d’un problème de classification, la règle de décision de la probabilité a posteriori maximum (MAP) est optimale: selon le théorème de Bayes, on calcule la probabilité a posteriori comme: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF réseaux RBF pour la classification Transposition dans le réseau RBF: si plusieurs RBF (j = 1, 2, ..., M) sont utilisées pour représenter les classes, on peut remplacer dans l`équation de probabilité a posteriori: les probabilités conditionnelles: la probabilité non-conditionnelle: SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF réseaux RBF pour la classification Transposition dans le réseau RBF: couche cachée: l’activation φj est interprétée comme la probabilité à posteriori de la présence du RBF j sachant x: poids de la couche de sortie: interprété comme la probabilité à posteriori d’appartenance à une classe étant donnée les RBFs SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF réseaux RBF pour la classification Remarques: le réseau RBF classificateur est une réalisation parallèle du test d’hypothèse Bayesien chaque sorties du réseaux RBF est interprétée comme une probabilité a posteriori la distribution de chaque classe est modélisée comme un mélange de Gaussiennes: permet d’accommoder classes multimodales, ou non-Gaussiennes des RBFs Gaussiennes permettent de régulariser s’adapte bien à la détection de nouveauté, détection d’ambiguïté, etc. SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Comparaison MLP vs RBF Neurones de la couche cachée: MLP: calculent une fonction non-linéaire du produit scalaire entre entrée et poids activation dépend de la somme pondérée avec entrées, et d’une fonction d’activation monotonique donc, l’activation est constante sur surfaces d’hyperplans RBF: calculent une fonction non-linéaire de la distance entre entrée et centres activation dépend de la distance radiale entre entrée et centroïde, et une fonction d’activation locale donc, l’activation est constante sur hyper ellipses SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Comparaison MLP vs RBF Séparation des classes: MLP: les neurones cachés forment des hyperplans dans l’espace d’entrée discriminatif – bornes de décision explicites RBF: les neurones cachées représentent des RFB locales génératif – bornes des décision implicites SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Comparaison MLP vs RBF Représentation des connaissances dans l’espace des neurones cachées p/r à l’espace d’entrée: MLP: distribuée plusieurs neurones cachés vont s’activer pour contribuer à la sortie car optimisation globale de tous les poids donne une approximation globale RBF: locale très peu de neurones cachés vont s’activer pour contribuer à la sortie une approximation locale SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Comparaison MLP vs RBF Architecture neuronique: MLP: peut avoir plusieurs couches cachées et des patrons complexes d’interconnexions tous les neurones partagent le même modèle neuronique couches cachées et de sorties non-linéaires RBF: simple, consistant généralement d’une couche cachée la couche cachée est différente de la couche de sortie couche cachée non-linéaires et couche de sortie linéaires SYS828: Systèmes biométriques Éric Granger

B.3(2) Réseaux RBF Comparaison MLP vs RBF Processus d’apprentissage de paramètres: MLP: tous les paramètres sont appris en même temps, via un processus supervisé global problème d’optimisation complexe qui peut converger lentement, et trouver des minimums locaux RBF: les paramètres sont appris en deux étapes centres et dispersions sont apprises par apprentissage non-supervisé (choix sans effectuer une optimisation complexe...) les poids w sont apprises par apprentissage supervisé rapide (solution à un problème linéaire) SYS828: Systèmes biométriques Éric Granger

B.3(3) Réseaux PNN Classificateur neuronique ‘feedforward’ (Specht, 1988) Structure: réseau à 3 couches couche d’entrée: unités de distribution des caractéristiques couche cachée: noyaux Gaussiennes sphériques centrés sur chaque patron de TRAIN couche de sommation: sommation des neurones cachés par classe Réalisation parallèle d’une technique d’estimation de PDFs non-paramétrique (~ fenêtres de Parsen) SYS828: Systèmes biométriques Éric Granger

B.3(3) Réseaux PNN SYS828: Systèmes biométriques Éric Granger

B.3(3) Réseaux PNN Avantages: apprentissage rapide (entrainement en une passe) converge asymptotiquement vers la borne de décision optimale quand |TRAIN| augmente peut donner des résultats comparables au MLP-BP Inconvénients: ressources: un neurone caché est requis pour chaque patron de TRAIN alors, on limite aux problèmes avec petites bases SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM ‘Support Vector Machines’: (Vapnik, 1992) reconnu comme un des meilleurs classificateurs statistiques classificateur binaire à 2 classes plusieurs applications pratiques: détection de visage, reconnaissance de caractères, etc. un sujet de recherche intensif depuis ̴̴ 2001 Variantes pertinentes: SVM linéaires (LSVM) – approche discriminative SVM non-linéaires (méthode à noyau) – approche hybride discriminative-générative SYS828: Systèmes biométriques Éric Granger

(a) SVM linéaires – cas séparable SYS828: Systèmes biométriques
B.3(4) SVM (a) SVM linéaires – cas séparable LSVM – un classificateur linéaire à 2 classes (dichotomie): y SYS828: Systèmes biométriques Éric Granger

SVM linéaires – cas séparable SYS828: Systèmes biométriques
B.3(4) SVM SVM linéaires – cas séparable Problème de conception: soit l’ensemble de données pour l’apprentissage: notre objectif est de trouver un hyperplan: qui sépare les données des deux classes SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Approche SVM: déterminer l’hyperplan séparateur qui maximise marge M entre patrons des deux classes La marge de l’hyperplan, M = d+ + d– , avec d+ ≡ la distance la plus courte entre cet hyperplan et le patron positif (classe +1) le plus proche d– ≡ la distance la plus courte entre cet hyperplan et le patron négatif (classe -1) le plus proche SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Exemple: un cas de données linéairement séparables SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Maximisation de marges – une justification de l’idée est liée au principe du MDL: MDL ≡ ‘Minimum Description Length’ la meilleure description de données (en termes de Egen ) est celle qui permet de stocker le plus petit nombre de bits SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable si les patrons TRAIN et TEST sont pigés d’une même distribution inconnue et, si tous les patrons TEST sont à une distance maximum de Δ par rapport à un patron TRAIN (de la même classe): .: preuve: une marge de 2Δ est suffisant pour correctement classifier tous les patrons TEST SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable si tous les patrons sont à une distance d’au moins Δ du plan séparateur, et l’ensemble des patrons est borné par une sphère: .: une petite perturbation dans la définition du plan séparateur est tolérable .: maximiser la marge permet de choisir un hyperplan qui est encodé avec le minimum de bits SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Calcul de la marge M: on peut définir les contraintes d’optimisation suivantes: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Calcul de la marge M (suite) on peut démontrer que d+ = d– = 1 / ||w|| , où ||w|| est la norme Euclidienne de w la marge de l’hyperplan devient donc: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Problème d’optimisation sous contraintes: Apprentissage → recherche dans l’hyperplan (w et b) avec la marge maximum, permettant de classifier tous les patrons dans Dn le problème consiste alors à minimiser la fonction de coût: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite) pour résoudre un problème d’optimisation avec coût L(w) et paramètre w, on peut fixer mais, lorsqu’il y a des contraintes ci ≥ 0, on utilise les multiplicateurs Lagrangiens, et on vérifie notre solution avec les conditions Karush-Kuhn-Tucker (KKT) SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite) Lagrangien – fonction de cout formé en soustrayant un terme pour chaque contrainte ci ≥ 0, pondéré par un multiplicateur Lagrangien positif: on peut alors résoudre le problème dual – maximiser L(w,α) en fonction de α sujet au contraintes: le problème général consiste donc à trouver la solution: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite) on introduit un multiplicateur Lagrangien αi (i = 1, 2, ..., n), pour chaque contrainte d’inégalité: L(w,b,α) doit être (1) minimisé p/r aux variables primaires (w et b), tout en (2) maximisant p/r aux variables duales (αi ) aux extremums, nous avons: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Résolution: min L(w,b,α) par rapport aux variables primaires afin de produire des contraintes pour la substitution SYS828: Systèmes biométriques Éric Granger

SVM linéaires – cas séparable SYS828: Systèmes biométriques
B.3(4) SVM SVM linéaires – cas séparable Substitution: on combine ces contraintes dans L(w,b,α) SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable La formulation duale – on cherche à maximiser: on peut résoudre avec des techniques d’optimisation classiques en programmation quadratique (basées sur, e.g., l’ascente de gradient avec contraintes) SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas séparable Cette solution fait en sorte que les conditions KKT suivantes sont satisfaites: après avoir trouvé w via l’entrainement, on peut s’en servir pour estimer b SYS828: Systèmes biométriques Éric Granger

(a) SVM linéaires – cas non-séparable SYS828: Systèmes biométriques
B.3(4) SVM (a) SVM linéaires – cas non-séparable Problème − l’optimisation n’a pas de solution si les 2 classes ne sont pas linéairement séparables: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas non-séparable Solution – marge molle (‘soft margin’) pour modéliser le chevauchement ou le bruit: ξi ≡ distance entre patron erroné xi et la droite définie par les SV de sa classe contraintes pour l’optimisation: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas non-séparable Solution – marge molle pour modéliser le chevauchement ou le bruit: on repose les contraintes p/r à une marge dur on cherche alors à minimiser le critère d’optimisation quadratique suivant: sujet aux contraintes: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas non-séparable La formulation duale – on cherche à maximiser: on obtient w et b selon: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (a) SVM linéaires – cas non-séparable Fonction de décision: Vecteurs de support: patrons d’entrainement xi de Dn (i = 1, 2, …, n) avec αi ≠ 0 SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Solution: projeter les patrons dans un espace de plus grande dimensionnalité avec une transformation non-linéaire cet espace devrait séparer les deux classes plus facilement étant donné une fonction , travailler avec une l’espace image du patron φ(xi) au lieu de celle du patron xi SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Avec un SVM, on doit calculer les produits φ(xi)φ(xj) pour passer à l’espace image cependant, ce calcul peut être très coûteux dans un espace de grande dimensionnalité Fonction noyaux: on utilise plutôt une fonction noyau k(xi, xj), qui représente un produit dans un espace image SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Fonction noyaux communs: Polynomial: Gaussien ou ‘Radial Basis Function’ (RBF): SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires La formulation duale – on cherche à maximiser sujet aux contraintes: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires La formulation duale: on détermine les variables primaires w et b avec: pour: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Mode opérationnel: fonction de décision: SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Avec cette solution, les conditions KKT suivants sont satisfaits avec : rem: αi = 0 pour tous patrons de Dn qui ne sont pas des vecteurs de support SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Synthèse des propriétés: objectif: conçu pour maximiser la marge dans l’espace des partons méthode Lagrangienne: permet de formuler l’apprentissage comme un problème d’optimisation quadratique (sous contraintes) populations non linéairement séparables: utilise une marge molle et/ou une fonction noyau relations non-linéaires: projeter les patrons dans une espace de haute dimensionnalité fonctions noyaux: permettent de simplifier le calcul SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Considérations pratiques: pour optimiser la capacité du modèle: le choix du noyau est le paramètre le plus important noyau polynomial: si on augmente le degré du polynôme, on augmente la capacité noyau Gaussien: si on augmente la variance, on diminue la capacité SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Considérations pratiques: optimiser C: représente le compromis entre la marge et le taux d’erreurs données non-bruitées: le choix de C a généralement peu d’impact données bruitées: le choix de C est critique les petites valeurs donnent habituellement de meilleurs résultats SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Problèmes à N classes: apprentissage: approche un contre tous utilise un ensemble de SVM (un par classe) SVMj apprend classe j vs les reste, j = 1, 2, ..., N opérations: choisir la classe (SVMj) dont la prédiction tombe le plus loin dans la région positive SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Apprentissage: (complexité du problème de PQ) Mémoire – taux de croissance O(n2) est requise pour stocker la matrice de noyaux Comment gérer des Dn avec n = 100,000 patrons? Approches proposées: ‘Chunking’: à chaque itération, résoudre le problème de PQ utilisant tous les αi non-nuls de l’itération précédente + le M pires patrons (violations de conditions KKT) Décomposition: résoudre une série de problèmes PQ plus petites, où chacun ajoute un patrons qui viole les conditions KKT SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO) Objectif: résoudre le problème d’optimisation le plus petit à chaque itération Processus itératif: choisir 2 αi pour l’optimisation conjoint, avec au moins un des deux qui viole les conditions KKT trouver la valeur optimal pour ces 2 αi et faire une mise-à-jour du modèle SVM SYS828: Systèmes biométriques Éric Granger

B.3(4) SVM (b) SVM non-linéaires Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO) ce processus itératif converge toujours vers un optimum SYS828: Systèmes biométriques Éric Granger

SYS828: Systèmes biométriques

Présentations similaires

Présentation au sujet: "SYS828: Systèmes biométriques"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

SYS828: Systèmes biométriques

Présentations similaires

Présentation au sujet: "SYS828: Systèmes biométriques"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back