La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS.

Présentations similaires


Présentation au sujet: "SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS."— Transcription de la présentation:

1 SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS

2 SYS828: Systèmes biométriques Éric Granger B3-2 CONTENU DU COURS B. Algorithmes dapprentissage: B.1 Introduction aux algorithmes dapprentissage B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs B.3 Apprentissage supervisé pour la classification de vecteurs B.4 Apprentissage supervisé pour la classification de séquences

3 SYS828: Systèmes biométriques Éric Granger B3-3 Sommaire – Section B.3 B.3 Apprentissage supervisé pour la catégorisation de vecteurs 1.réseaux de neurones ARTMAP 2.réseaux de neurones à fonctions de base radiale (RBF) 3.réseaux de neurones probabilistes (PNN) 4.machines à vecteurs de support (SVM)

4 SYS828: Systèmes biométriques Éric Granger B3-4 B.3(1) Réseaux ARTMAP Fondements – modèle ART Taxonomie des réseaux ARTMAP:

5 SYS828: Systèmes biométriques Éric Granger B3-5 B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Modèle ARTMAP: famille de RNA classificateurs capables dapprentissage rapide, en-ligne, supervisé, non-supervisé et incrémental

6 SYS828: Systèmes biométriques Éric Granger B3-6 B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Structure simplifiée dun réseau ARTMAP:

7 SYS828: Systèmes biométriques Éric Granger B3-7 B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode entraînement: 1.Initialisation des poids: fixer tous les poids W ab = 0 2.Encodage dun patron dentrée: remise à la base du ρ 3.Choix de catégorie 4.Critère de vigilance 5.Prédiction dune classe: le code de réponse désirée t est transmise à F ab fonction de prédiction: le patron y active la couche F ab via les poids W ab

8 SYS828: Systèmes biométriques Éric Granger B3-8 B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode entraînement: 5.Prédiction dune classe: (suite) prédiction: actif pour le neurone K correspondant à la prédiction (y K ab = 1 et y k ab = 0 pour k K) si la prédiction K correspond à la réponse désirée, on procède à lapprentissage (étape 6), sinon on effectue un match tracking

9 SYS828: Systèmes biométriques Éric Granger B3-9 B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode entraînement: match tracking: augmente ρ du fuzzy ART juste assez pour induire une recherche pour soit: trouver un autre neurone commis de F2 qui prédit la classe désirée (étape 3) créer un neurone non-commis de F2 pour apprendre la classe désirée (étape 6)

10 SYS828: Systèmes biométriques Éric Granger B3-10 B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode entraînement: 6. Apprentissage: mise à jour du prototype de J: le vecteur prototype w J du neurone J est adapté selon: création dun nouveau lien associatif: si J vient dêtre commis, on fixe w JK ab = 1, où k = K est la réponse désiré Retour à létape 2 pour prendre une autre entrée

11 SYS828: Systèmes biométriques Éric Granger B3-11 B.3(1) Réseaux ARTMAP Réseau fuzzy ARTMAP Description algorithmique – mode test: Afin de prédire la classe liée à chaque patron dentrée: 1. 2.Encodage dun patron dentrée 3.Choix de catégorie 4. 5.Prédiction dune classe (sans tests) 6.

12 SYS828: Systèmes biométriques Éric Granger B3-12 B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD Entraînement sur patrons de classes connues: patrons étiquette de classe A a a class #1 b b B class #2 C c C class #3 Test sur patrons de classes connues et inconnues: patrons prédiction du classificateur A class #1 C class #3 D classe inconnue!

13 SYS828: Systèmes biométriques Éric Granger B3-13 B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD ARTMAP-FD: une extension de fuzzy ARTMAP qui permet de détecter des patrons qui appartiennent à de classes inconnues pour chaque entrée a en mode test, on calcul la mesure de familiarité: Si patron déclaré connu (prédit une classe K) Si patron déclaré inconnu (aucune prédiction)

14 SYS828: Systèmes biométriques Éric Granger B3-14 B.3(1) Réseaux ARTMAP Réseau ARTMAP-FD Mesure simple du degré dappartenance dun patron à un hyper rectangle (catégorie): φ(A) = 1 à lintérieur, et φ(A) < 1 à lextérieur X X X X X X 1 0 a

15 SYS828: Systèmes biométriques Éric Granger B3-15 Sommaire – Section B.3 B.3 Apprentissage supervisé pour la classification de vecteurs 1.réseaux de neurones ARTMAP 2.réseaux de neurones à fonctions de base radiale (RBF) 3.réseaux de neurones probabilistes (PNN) 4.machines à vecteurs de support (SVM)

16 SYS828: Systèmes biométriques Éric Granger B3-16 B.3(2) Réseaux RBF Quest ce quun réseau RBF? fonctions à bases radiales – un domaine de recherche actif an analyse numérique depuis environ 1980 – solution au problème dinterpolation multi variable – approximation de fonctions dans des espaces multidimensionnels réseau RBF – un réseau de neurone pour la classification et la régression (Broomhead et Low, 1988) un réseau de neurones non-récurrent (feed forward) à apprentissage supervisé conception inspirée de méthodes dinterpolation qui exploitent les RBF

17 SYS828: Systèmes biométriques Éric Granger B3-17 B.3(2) Réseaux RBF Méthodes dinterpolation: Apprentissage: trouver une surface multidimensionnelle qui correspond le mieux avec les données dentraînement Généralisation: utiliser cette surface pour interpoler les données de test

18 SYS828: Systèmes biométriques Éric Granger B3-18 B.3(2) Réseaux RBF Structure générale dun réseau de neurones RBF: couche cachée: transformation non linéaire x φ(x) chaque neurone constitue une fonction cachée φ(x) (i.e., RBF) pour la transformation non linéaire des patrons dentrée x le nombre de neurones est généralement bien plus grand que le nombre de nœuds dentrée couche de sortie: transformation linéaire φ(x) y combinaison linéaire des fonctions φ(x) pour produire une sortie

19 SYS828: Systèmes biométriques Éric Granger B3-19 B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) Un problème de classification qui est transposé de façon non linéaire dans un espace de haute dimensionnalité a une plus grande probabilité dêtre séparable quen basse dimensionnalité Séparabilité – problème à 2 classes: transpose x dans lespace image de haute dimensionnalité avec des fonctions cachées φ(x) non-linéaires à valeur réelle: le problème est φ – séparable sil existe un vecteur de paramètres w à m 1 dimensions tel que:

20 SYS828: Systèmes biométriques Éric Granger B3-20 B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) Exemple 2D – cas des fonctions cachées φ polynomiales: classe de transformations obtenue à partir dune combinaison linéaire des produits des coordonnées de x = (x 1, x 2 ) variété dordre r :

21 SYS828: Systèmes biométriques Éric Granger B3-21 B.3(2) Réseaux RBF Théorème sur la séparabilité de patrons (Cover, 1965) Exemple – cas des fonctions cachées Gaussiennes: problème XOR (linéairement non séparable)

22 SYS828: Systèmes biométriques Éric Granger B3-22 B.3(2) Réseaux RBF Interpolation Problème: étant donnée N patrons différents et les N réponses désirées correspondantes, trouvez une fonction qui satisfait: La technique RBF consiste à utiliser une fonction de la forme: x1 x2 d

23 SYS828: Systèmes biométriques Éric Granger B3-23 B.3(2) Réseaux RBF Interpolation Théorème de Micchelli (1986): Si est un ensemble de patrons distincts, alors la matrice N-par-N dinterpolation est non singulière (i.e., une solution existe). Théorème de Light (1971): Si est un ensemble de patrons distincts, une matrice dinterpolation avec éléments de la forme est positive et définie.

24 SYS828: Systèmes biométriques Éric Granger B3-24 B.3(2) Réseaux RBF Interpolation RBF communes qui respectent le théorème de Light: fonctions multi quadratiques: fonctions multi quadratiques inverse: fonctions Gaussiennes:

25 SYS828: Systèmes biométriques Éric Granger B3-25 B.3(2) Réseaux RBF Interpolation Exemple en 1-D: données dentraînement {(x i,y i )} = {(-1, 1), (0, 2), (1, 1)} avec RBF multi quadratique:

26 SYS828: Systèmes biométriques Éric Granger B3-26 B.3(2) Réseaux RBF Interpolation Selon les théorèmes de Michelli et Light, on peut résoudre: mais, en pratique, on veut résoudre quand Φ est arbitrairement proche dune matrice singulière solutions: théorie de régularisation (solution exacte) réseau RBF généralisé (estimation)

27 SYS828: Systèmes biométriques Éric Granger B3-27 B.3(2) Réseaux RBF Régularisation Problème avec linterpolation stricte: généralisation sur de nouvelles données sur apprentissage Lapprentissage peut être perçu comme un problème de reconstruction dhyper surfaces: problèmes directes vs inverses Problèmes inverses sont soit bien ou mal posés: un problème est bien posé ssi il respecte 3 conditions: 1. existe: il exister un y(x) pour chaque x 2. unique: y(x 1 ) = y(x 2 ) ssi x 1 = x 2 3. continue: si dist(x 1,x 2 ) < δ(ε) implique dist(y(x 1 ),y(x 2 )) < ε

28 SYS828: Systèmes biométriques Éric Granger B3-28 B.3(2) Réseaux RBF Régularisation Problèmes inverses mal posés: pas assez dinformation dans TRAIN pour décrire un y(x) de façon unique (viole #2) bruit/imprécisions dans TRAIN ajoute trop dincertitude dans y(x): discontinuités (viole #3) Solution possible: inclure de linformation a priori sur la transformation entrée-sortie y(x) mais, le processus générateur de TRAIN doit être lisse et exhiber de la redondance

29 SYS828: Systèmes biométriques Éric Granger B3-29 B.3(2) Réseaux RBF Régularisation Idée de base de la régularisation: stabiliser la solution avec une fonctionnelle non négative qui intègre de linformation a priori sur la forme de la solution. information a priori contient des contraintes de lissage sur y(x) hypothèse sur la famille de fonctions qui décrit le phénomène quon cherche à approximer...

30 SYS828: Systèmes biométriques Éric Granger B3-30 B.3(2) Réseaux RBF Régularisation Théorie de régularisation de Tikhonov: terme derreur standard – distance entre y(x i ) et d i terme de régularisation (stabilisateur) – dépend des propriétés géométriques de y(x i ) où P est un opérateur différentielle linéaire qui intègre linformation a priori sur la forme de la solution y(x) fonction de coût totale à minimiser:

31 SYS828: Systèmes biométriques Éric Granger B3-31 B.3(2) Réseaux RBF Régularisation paramètre de régularisation λ : nombre positif réel qui indique si TRAIN est suffisant pour spécifier y(x) si λ 0, problème non-contrainte: y(x) est déterminée entièrement par TRAIN si λ, les contraintes de lissage imposées a priori par P sont suffisant pour spécifier y(x): TRAIN est non fiable en pratique, alors les deux informations contribuent à la solution

32 SYS828: Systèmes biométriques Éric Granger B3-32 B.3(2) Réseaux RBF Réseau de régularisation Une solution au problème de régularisation: [Poggio et Girosi, 1990] somme pondérée de fonctions de Green, G(x;x i ), centrées sur les x i de TRAIN: lapproche par régularisation est équivalent à lexpansion de y(x) en termes dun ensemble de fonctions de Green, spécifiée par la forme de P le nombre de fonctions de Green est égal à |TRAIN|

33 SYS828: Systèmes biométriques Éric Granger B3-33 B.3(2) Réseaux RBF Réseau de régularisation Détermination de coefficients w i : est évaluées pour chaque patron de TRAIN, alors: si on pose: et en éliminant y, alors:

34 SYS828: Systèmes biométriques Éric Granger B3-34 B.3(2) Réseaux RBF Réseau de régularisation Les fonctions G(x;x i ), centrées à x i, sont spécifiées par la forme de P si P est invariant aux rotations et aux translations, alors G(x;x i ) dépend seulement de la norme Euclidienne du vecteur différence, alors: sous ces conditions, G(x;x i ) doit être une RBF, et la solution de régularisation doit prendre la forme:

35 SYS828: Systèmes biométriques Éric Granger B3-35 B.3(2) Réseaux RBF Réseau de régularisation Exemple: fonctions Gaussiennes multi variables correspondent à un opérateur différentiel P qui est invariants aux rotations et aux translations: la solution au problème de régularisation prend la forme: qui consiste dune superposition linéaire de Gaussiennes avec centres x i et avec dispersions σ i

36 SYS828: Systèmes biométriques Éric Granger B3-36 B.3(2) Réseaux RBF Réseau de régularisation Réseau RBF de régularisation: la sortie est la somme pondérée des sorties de la couche cachée Input Layer Hidden layer of N Greens functions Output layer

37 SYS828: Systèmes biométriques Éric Granger B3-37 B.3(2) Réseaux RBF Réseau de régularisation Propriétés dun réseau RBF de régularisation: [Poggio et Girosi, 1990] approximateurs universels: ils peuvent approximer nimporte quelle fonction continue arbitrairement bien avec un nombre suffisant de neurones cachées: –étant donnée une fonction non linéaire inconnue f, il existe toujours un choix de coefficients w qui approxime f mieux que tout autre choix possible; –ses solutions sont optimales: il minimise la fonction de coût ε(y). complexité de calculs: la correspondance des neurones cachées avec N patrons donne un réseau très coûteux calcul des poids w est O(N 3 ) car on doit inverser une matrice N-par-N difficile à réaliser en pratique pour de grands N...

38 SYS828: Systèmes biométriques Éric Granger B3-38 B.3(2) Réseaux RBF Réseaux RBF généralisés Un approximation de la solution régularisée: solution sous optimale dans lespace à dimension M < N, qui est alors moins coûteuse on peut dériver un approximation avec la méthode de Galerkins [Poggio and Girosi, 1990]: car: où les centre t i et les poids w i sont à déterminer.

39 SYS828: Systèmes biométriques Éric Granger B3-39 B.3(2) Réseaux RBF Réseaux RBF généralisés Architecture générale : Input Layer Hidden layer of of radial functions Output layer

40 SYS828: Systèmes biométriques Éric Granger B3-40 B.3(2) Réseaux RBF Réseaux RBF généralisés Détermination des poids w i : Un nouvelle fonction de coût: la minimisation de cette fonction de coût en fonction du vecteur de poids donne:

41 SYS828: Systèmes biométriques Éric Granger B3-41 B.3(2) Réseaux RBF Réseaux RBF généralisés il a été démontré que lorsque le paramètre λ 0, le vecteur w converge vers une solution pseudo- inverse pour M N [Broomhead et Lowe, 1988]:

42 SYS828: Systèmes biométriques Éric Granger B3-42 B.3(2) Réseaux RBF Réseaux RBF généralisés Comparaison entre réseaux RBF régularisés (exact) et généralisés (estimation): le nombre de neurones de la couche cachée: régularisation: N généralisés: M N (selon la complexité du problème) les paramètres inconnus: régularisation: poids de la couche de sortie généralisés: les poids de la couche de sortie et la position des centres

43 SYS828: Systèmes biométriques Éric Granger B3-43 B.3(2) Réseaux RBF Stratégies dapprentissage Structure générale dun réseau RBF classificateur: couche cachée: transformation non linéaire x φ (x) couche de sortie: transformation linéaire φ(x) y (combinaison linéaire des fonctions cachées)

44 SYS828: Systèmes biométriques Éric Granger B3-44 B.3(2) Réseaux RBF Stratégies dapprentissage Lactivation des neurones: couche cachée: (j = 1,.., M) (dans le cas de RBF de forme Gaussienne) couche de sortie: (par classe k) superposition linéaire de RBF capables dapproximation universelle Apprentissage: optimiser les centre μ i, les dispersions σ j et les poids w kj

45 SYS828: Systèmes biométriques Éric Granger B3-45 B.3(2) Réseaux RBF Stratégies dapprentissage Le processus dapprentissage du réseau RBF généralisé comprend deux phases doptimisation: 1.les neurones cachées – évoluent lentement selon une stratégie doptimisation non linéaire 2.les poids de sortie – sajustent rapidement selon une stratégie doptimisation linéaire

46 SYS828: Systèmes biométriques Éric Granger B3-46 B.3(2) Réseaux RBF Stratégies dapprentissage Plusieurs différentes stratégies dapprentissage selon la façon dont les centres sont déterminés Principales stratégies en littérature: 1.centres fixes, sélectionnés de façon aléatoire 2.centres obtenus par apprentissage non-supervisé 3.centres obtenus par apprentissage supervisé

47 SYS828: Systèmes biométriques Éric Granger B3-47 B.3(2) Réseaux RBF

48 SYS828: Systèmes biométriques Éric Granger B3-48 B.3(2) Réseaux RBF 1. centres fixes sélectionnés de façon aléatoire Approche LMS – résoudre des équations linéaires pour dériver les poids w i de la couche de sortie: méthode pseudo-inverse: où G + est la matrice pseudo-inverse de la matrice Calcul de G + par décomposition en valeur singulière si G est une matrice réelle N-by-M, il existe deux matrices orthogonales et telle que alors, la matrice avec matrice N-by-N

49 SYS828: Systèmes biométriques Éric Granger B3-49 B.3(2) Réseaux RBF, Fixed input = +1 b(bias) Input node Gaussian Function Linear output neuron 1. centres fixes sélectionnés de façon aléatoire Exemple: problème XOR (linéairement non séparable)

50 SYS828: Systèmes biométriques Éric Granger B3-50 B.3(2) Réseaux RBF Input-Output Transformation Computed for XOR Problem Data Point,j Input Pattern, Desired Output, 1 (1,1) 0 2 (0,1) 1 3 (0,0) 0 4 (1,0) 1 1. centres fixes sélectionnés de façon aléatoire

51 SYS828: Systèmes biométriques Éric Granger B3-51 B.3(2) Réseaux RBF 1.centres fixes sélectionnés de façon aléatoire Problème avec la méthode à centres fixés: justifiée seulement si TRAIN est distribué dune façon représentative pour le problème peut nécessiter plusieurs neurones cachées, et un grand TRAIN pour obtenir des performances adéquates

52 SYS828: Systèmes biométriques Éric Granger B3-52 B.3(2) Réseaux RBF 2. centres obtenus par apprentissage non-supervisé Apprentissage hybride: couche cachée: apprentissage non-supervisé de type auto- organisateur pour estimer les centres des RBFs e.g., catégorisation k-means ou GMM couche de sortie: apprentissage supervisé pour estimer les poids linéaires e.g., algorithme LMS, règle delta (à base derreurs)

53 SYS828: Systèmes biométriques Éric Granger B3-53 B.3(2) Réseaux RBF 2. centres obtenus par apprentissage non-supervisé Exemple: apprentissage séquentielle k-means (en-ligne): 1.Initialisation – choisir aléatoirement les centres 2.Échantillonnage – prendre un patron x de TRAIN 3.Calcul de proximité – déterminer J, lindex du centre qui est le plus proche de x 4.Ajuster les centres – retourner à létape 2

54 SYS828: Systèmes biométriques Éric Granger B3-54 B.3(2) Réseaux RBF 3. centres sélectionnés par apprentissage supervisé Tous les paramètres libres sont ajustés par un processus dapprentissage supervisé à base derreur (e.g., lalgo. LMS) Exploite des la descente de gradient, avec la fonction de coût: Détermine tous les paramètres qui minimisent E.

55 SYS828: Systèmes biométriques Éric Granger B3-55 B.3(2) Réseaux RBF 3. centres sélectionnés par apprentissage supervisé poids linéaires: position des centres: dispersion des centres:

56 SYS828: Systèmes biométriques Éric Granger B3-56 B.3(2) Réseaux RBF 3. centres sélectionnés par apprentissage supervisé Remarques: il est possible de se fait prendre dans un minimum local dans lespace des paramètres, surtout pour et on utilise différents paramètres de taux dapprentissage pour chacune des équations précédentes la procédure par descente de gradient dans le réseaux RBF nimplique pas la rétro-propagation derreurs.

57 SYS828: Systèmes biométriques Éric Granger B3-57 B.3(2) Réseaux RBF réseaux RBF pour la classification Problème de classification à k classes: sachant tous les statistiques sous-jacentes dun problème de classification, la règle de décision de la probabilité a posteriori maximum (MAP) est optimale: selon le théorème de Bayes, on calcule la probabilité a posteriori comme:

58 SYS828: Systèmes biométriques Éric Granger B3-58 B.3(2) Réseaux RBF réseaux RBF pour la classification Transposition dans le réseau RBF: si plusieurs RBF (j = 1, 2,..., M) sont utilisées pour représenter les classes, on peut remplacer dans l`équation de probabilité a posteriori: les probabilités conditionnelles: la probabilité non-conditionnelle:

59 réseaux RBF pour la classification Transposition dans le réseau RBF: couche cachée: lactivation φ j est interprétée comme la probabilité à posteriori de la présence du RBF j sachant x: poids de la couche de sortie: interprété comme la probabilité à posteriori dappartenance à une classe étant donnée les RBFs SYS828: Systèmes biométriques Éric Granger B3-59 B.3(2) Réseaux RBF

60 SYS828: Systèmes biométriques Éric Granger B3-60 B.3(2) Réseaux RBF réseaux RBF pour la classification Remarques: le réseau RBF classificateur est une réalisation parallèle du test dhypothèse Bayesien chaque sorties du réseaux RBF est interprétée comme une probabilité a posteriori la distribution de chaque classe est modélisée comme un mélange de Gaussiennes: permet daccommoder classes multimodales, ou non-Gaussiennes des RBFs Gaussiennes permettent de régulariser sadapte bien à la détection de nouveauté, détection dambiguïté, etc.

61 SYS828: Systèmes biométriques Éric Granger B3-61 B.3(2) Réseaux RBF Comparaison MLP vs RBF Neurones de la couche cachée: MLP: calculent une fonction non-linéaire du produit scalaire entre entrée et poids activation dépend de la somme pondérée avec entrées, et dune fonction dactivation monotonique donc, lactivation est constante sur surfaces dhyperplans RBF: calculent une fonction non-linéaire de la distance entre entrée et centres activation dépend de la distance radiale entre entrée et centroïde, et une fonction dactivation locale donc, lactivation est constante sur hyper ellipses

62 SYS828: Systèmes biométriques Éric Granger B3-62 B.3(2) Réseaux RBF Comparaison MLP vs RBF Séparation des classes: MLP: les neurones cachés forment des hyperplans dans lespace dentrée discriminatif – bornes de décision explicites RBF: les neurones cachées représentent des RFB locales génératif – bornes des décision implicites

63 SYS828: Systèmes biométriques Éric Granger B3-63 B.3(2) Réseaux RBF Comparaison MLP vs RBF Représentation des connaissances dans lespace des neurones cachées p/r à lespace dentrée: MLP: distribuée plusieurs neurones cachés vont sactiver pour contribuer à la sortie car optimisation globale de tous les poids donne une approximation globale RBF: locale très peu de neurones cachés vont sactiver pour contribuer à la sortie une approximation locale

64 SYS828: Systèmes biométriques Éric Granger B3-64 B.3(2) Réseaux RBF Comparaison MLP vs RBF Architecture neuronique: MLP: peut avoir plusieurs couches cachées et des patrons complexes dinterconnexions tous les neurones partagent le même modèle neuronique couches cachées et de sorties non-linéaires RBF: simple, consistant généralement dune couche cachée la couche cachée est différente de la couche de sortie couche cachée non-linéaires et couche de sortie linéaires

65 SYS828: Systèmes biométriques Éric Granger B3-65 B.3(2) Réseaux RBF Comparaison MLP vs RBF Processus dapprentissage de paramètres: MLP: tous les paramètres sont appris en même temps, via un processus supervisé global problème doptimisation complexe qui peut converger lentement, et trouver des minimums locaux RBF: les paramètres sont appris en deux étapes 1.centres et dispersions sont apprises par apprentissage non-supervisé (choix sans effectuer une optimisation complexe...) 2.les poids w sont apprises par apprentissage supervisé rapide (solution à un problème linéaire)

66 SYS828: Systèmes biométriques Éric Granger B3-66 Sommaire – Section B.3 B.3 Apprentissage supervisé pour la classification de vecteurs 1.réseaux de neurones ARTMAP 2.réseaux de neurones à fonctions de base radiale (RBF) 3.réseaux de neurones probabilistes (PNN) 4.machines à vecteurs de support (SVM)

67 SYS828: Systèmes biométriques Éric Granger B3-67 B.3(3) Réseaux PNN Classificateur neuronique feedforward (Specht, 1988) Structure: réseau à 3 couches 1.couche dentrée: unités de distribution des caractéristiques 2.couche cachée: noyaux Gaussiennes sphériques centrés sur chaque patron de TRAIN 3.couche de sommation: sommation des neurones cachés par classe Réalisation parallèle dune technique destimation de PDFs non-paramétrique (~ fenêtres de Parsen)

68 SYS828: Systèmes biométriques Éric Granger B3-68 B.3(3) Réseaux PNN

69 SYS828: Systèmes biométriques Éric Granger B3-69 B.3(3) Réseaux PNN Avantages: apprentissage rapide (entrainement en une passe) converge asymptotiquement vers la borne de décision optimale quand |TRAIN| augmente peut donner des résultats comparables au MLP-BP Inconvénients: ressources: un neurone caché est requis pour chaque patron de TRAIN alors, on limite aux problèmes avec petites bases

70 SYS828: Systèmes biométriques Éric Granger B3-70 Sommaire – Section B.3 B.3 Apprentissage supervisé pour la classification de vecteurs 1.réseaux de neurones ARTMAP 2.réseaux de neurones à fonctions de base radiale (RBF) 3.réseaux de neurones probabilistes (PNN) 4.machines à vecteurs de support (SVM)

71 SYS828: Systèmes biométriques Éric Granger B3-71 B.3(4) SVM Support Vector Machines: (Vapnik, 1992) reconnu comme un des meilleurs classificateurs statistiques ̶ classificateur binaire à 2 classes ̶ plusieurs applications pratiques: détection de visage, reconnaissance de caractères, etc. ̶ un sujet de recherche intensif depuis ̴̴ 2001 Variantes pertinentes: a.SVM linéaires (LSVM) – approche discriminative b.SVM non-linéaires (méthode à noyau) – approche hybride discriminative-générative

72 SYS828: Systèmes biométriques Éric Granger B3-72 B.3(4) SVM (a) SVM linéaires – cas séparable LSVM – un classificateur linéaire à 2 classes (dichotomie): y

73 (a)SVM linéaires – cas séparable Problème de conception: soit lensemble de données pour lapprentissage: notre objectif est de trouver un hyperplan: qui sépare les données des deux classes SYS828: Systèmes biométriques Éric Granger B3-73 B.3(4) SVM

74 SYS828: Systèmes biométriques Éric Granger B3-74 B.3(4) SVM (a) SVM linéaires – cas séparable Approche SVM: déterminer lhyperplan séparateur qui maximise marge M entre patrons des deux classes La marge de lhyperplan, M = d + + d –, avec d + la distance la plus courte entre cet hyperplan et le patron positif (classe +1) le plus proche d – la distance la plus courte entre cet hyperplan et le patron négatif (classe -1) le plus proche

75 SYS828: Systèmes biométriques Éric Granger B3-75 B.3(4) SVM (a) SVM linéaires – cas séparable Exemple: un cas de données linéairement séparables

76 SYS828: Systèmes biométriques Éric Granger B3-76 B.3(4) SVM (a) SVM linéaires – cas séparable Maximisation de marges – une justification de lidée est liée au principe du MDL: MDL Minimum Description Length la meilleure description de données (en termes de E gen ) est celle qui permet de stocker le plus petit nombre de bits

77 SYS828: Systèmes biométriques Éric Granger B3-77 B.3(4) SVM (a) SVM linéaires – cas séparable si les patrons TRAIN et TEST sont pigés dune même distribution inconnue et, si tous les patrons TEST sont à une distance maximum de Δ par rapport à un patron TRAIN (de la même classe):.: preuve: une marge de 2Δ est suffisant pour correctement classifier tous les patrons TEST

78 SYS828: Systèmes biométriques Éric Granger B3-78 B.3(4) SVM (a) SVM linéaires – cas séparable si tous les patrons sont à une distance dau moins Δ du plan séparateur, et lensemble des patrons est borné par une sphère:.: une petite perturbation dans la définition du plan séparateur est tolérable.: maximiser la marge permet de choisir un hyperplan qui est encodé avec le minimum de bits

79 SYS828: Systèmes biométriques Éric Granger B3-79 B.3(4) SVM (a) SVM linéaires – cas séparable Calcul de la marge M: on peut définir les contraintes doptimisation suivantes:

80 SYS828: Systèmes biométriques Éric Granger B3-80 B.3(4) SVM (a) SVM linéaires – cas séparable Calcul de la marge M (suite) on peut démontrer que d + = d – = 1 / ||w||, où ||w|| est la norme Euclidienne de w la marge de lhyperplan devient donc:

81 SYS828: Systèmes biométriques Éric Granger B3-81 B.3(4) SVM (a) SVM linéaires – cas séparable Problème doptimisation sous contraintes: Apprentissage recherche dans lhyperplan (w et b) avec la marge maximum, permettant de classifier tous les patrons dans D n le problème consiste alors à minimiser la fonction de coût:

82 SYS828: Systèmes biométriques Éric Granger B3-82 B.3(4) SVM (a) SVM linéaires – cas séparable Problème doptimisation avec contraintes: (suite) pour résoudre un problème doptimisation avec coût L(w) et paramètre w, on peut fixer mais, lorsquil y a des contraintes c i 0, on utilise les multiplicateurs Lagrangiens, et on vérifie notre solution avec les conditions Karush-Kuhn-Tucker (KKT)

83 SYS828: Systèmes biométriques Éric Granger B3-83 B.3(4) SVM (a) SVM linéaires – cas séparable Problème doptimisation avec contraintes: (suite) Lagrangien – fonction de cout formé en soustrayant un terme pour chaque contrainte c i 0, pondéré par un multiplicateur Lagrangien positif: on peut alors résoudre le problème dual – maximiser L(w,α) en fonction de α sujet au contraintes: le problème général consiste donc à trouver la solution:

84 SYS828: Systèmes biométriques Éric Granger B3-84 B.3(4) SVM (a) SVM linéaires – cas séparable Problème doptimisation avec contraintes: (suite) on introduit un multiplicateur Lagrangien α i (i = 1, 2,..., n), pour chaque contrainte dinégalité: L(w,b,α) doit être (1) minimisé p/r aux variables primaires (w et b), tout en (2) maximisant p/r aux variables duales (α i ) aux extremums, nous avons:

85 SYS828: Systèmes biométriques Éric Granger B3-85 B.3(4) SVM (a) SVM linéaires – cas séparable Résolution: min L(w,b,α) par rapport aux variables primaires afin de produire des contraintes pour la substitution

86 SYS828: Systèmes biométriques Éric Granger B3-86 B.3(4) SVM (a)SVM linéaires – cas séparable Substitution: on combine ces contraintes dans L(w,b,α)

87 SYS828: Systèmes biométriques Éric Granger B3-87 B.3(4) SVM (a) SVM linéaires – cas séparable La formulation duale – on cherche à maximiser: on peut résoudre avec des techniques doptimisation classiques en programmation quadratique (basées sur, e.g., lascente de gradient avec contraintes)

88 SYS828: Systèmes biométriques Éric Granger B3-88 B.3(4) SVM (a) SVM linéaires – cas séparable Cette solution fait en sorte que les conditions KKT suivantes sont satisfaites: après avoir trouvé w via lentrainement, on peut sen servir pour estimer b

89 SYS828: Systèmes biométriques Éric Granger B3-89 B.3(4) SVM (a) SVM linéaires – cas non-séparable Problème loptimisation na pas de solution si les 2 classes ne sont pas linéairement séparables:

90 SYS828: Systèmes biométriques Éric Granger B3-90 B.3(4) SVM (a) SVM linéaires – cas non-séparable Solution – marge molle (soft margin) pour modéliser le chevauchement ou le bruit: ξ i distance entre patron erroné x i et la droite définie par les SV de sa classe contraintes pour loptimisation:

91 SYS828: Systèmes biométriques Éric Granger B3-91 B.3(4) SVM (a) SVM linéaires – cas non-séparable Solution – marge molle pour modéliser le chevauchement ou le bruit: on repose les contraintes p/r à une marge dur on cherche alors à minimiser le critère doptimisation quadratique suivant: sujet aux contraintes:

92 SYS828: Systèmes biométriques Éric Granger B3-92 B.3(4) SVM (a) SVM linéaires – cas non-séparable La formulation duale – on cherche à maximiser: on obtient w et b selon:

93 SYS828: Systèmes biométriques Éric Granger B3-93 B.3(4) SVM (a) SVM linéaires – cas non-séparable Fonction de décision: Vecteurs de support: patrons dentrainement x i de D n (i = 1, 2, …, n) avec α i 0

94 SYS828: Systèmes biométriques Éric Granger B3-94 B.3(4) SVM (b) SVM non-linéaires Solution: projeter les patrons dans un espace de plus grande dimensionnalité avec une transformation non-linéaire cet espace devrait séparer les deux classes plus facilement étant donné une fonction, travailler avec une lespace image du patron φ(x i ) au lieu de celle du patron x i

95 SYS828: Systèmes biométriques Éric Granger B3-95 B.3(4) SVM (b) SVM non-linéaires Avec un SVM, on doit calculer les produits φ(x i )φ(x j ) pour passer à lespace image cependant, ce calcul peut être très coûteux dans un espace de grande dimensionnalité Fonction noyaux: on utilise plutôt une fonction noyau k(x i, x j ), qui représente un produit dans un espace image

96 SYS828: Systèmes biométriques Éric Granger B3-96 B.3(4) SVM (b) SVM non-linéaires Fonction noyaux communs: Polynomial: Gaussien ou Radial Basis Function (RBF):

97 SYS828: Systèmes biométriques Éric Granger B3-97 B.3(4) SVM (b) SVM non-linéaires La formulation duale – on cherche à maximiser sujet aux contraintes:

98 SYS828: Systèmes biométriques Éric Granger B3-98 B.3(4) SVM (b) SVM non-linéaires La formulation duale: on détermine les variables primaires w et b avec: pour:

99 SYS828: Systèmes biométriques Éric Granger B3-99 B.3(4) SVM (b) SVM non-linéaires Mode opérationnel: fonction de décision:

100 SYS828: Systèmes biométriques Éric Granger B3-100 B.3(4) SVM (b) SVM non-linéaires Avec cette solution, les conditions KKT suivants sont satisfaits avec : rem: α i = 0 pour tous patrons de D n qui ne sont pas des vecteurs de support

101 SYS828: Systèmes biométriques Éric Granger B3-101 B.3(4) SVM (b) SVM non-linéaires Synthèse des propriétés: objectif: conçu pour maximiser la marge dans lespace des partons méthode Lagrangienne: permet de formuler lapprentissage comme un problème doptimisation quadratique (sous contraintes) populations non linéairement séparables: utilise une marge molle et/ou une fonction noyau relations non-linéaires: projeter les patrons dans une espace de haute dimensionnalité fonctions noyaux: permettent de simplifier le calcul

102 SYS828: Systèmes biométriques Éric Granger B3-102 B.3(4) SVM (b) SVM non-linéaires Considérations pratiques: pour optimiser la capacité du modèle: le choix du noyau est le paramètre le plus important noyau polynomial: si on augmente le degré du polynôme, on augmente la capacité noyau Gaussien: si on augmente la variance, on diminue la capacité

103 SYS828: Systèmes biométriques Éric Granger B3-103 B.3(4) SVM (b) SVM non-linéaires Considérations pratiques: optimiser C: représente le compromis entre la marge et le taux derreurs données non-bruitées: le choix de C a généralement peu dimpact données bruitées: le choix de C est critique les petites valeurs donnent habituellement de meilleurs résultats

104 SYS828: Systèmes biométriques Éric Granger B3-104 B.3(4) SVM (b) SVM non-linéaires Problèmes à N classes: apprentissage: approche un contre tous utilise un ensemble de SVM (un par classe) SVM j apprend classe j vs les reste, j = 1, 2,..., N opérations: choisir la classe (SVM j ) dont la prédiction tombe le plus loin dans la région positive

105 SYS828: Systèmes biométriques Éric Granger B3-105 B.3(4) SVM (b) SVM non-linéaires Apprentissage: (complexité du problème de PQ) Mémoire – taux de croissance O(n 2 ) est requise pour stocker la matrice de noyaux Comment gérer des D n avec n = 100,000 patrons? Approches proposées: 1.Chunking: à chaque itération, résoudre le problème de PQ utilisant tous les α i non-nuls de litération précédente + le M pires patrons (violations de conditions KKT) 2.Décomposition: résoudre une série de problèmes PQ plus petites, où chacun ajoute un patrons qui viole les conditions KKT

106 SYS828: Systèmes biométriques Éric Granger B3-106 B.3(4) SVM (b) SVM non-linéaires Apprentissage: approche Sequential Minimal Optimisation (SMO) Objectif: résoudre le problème doptimisation le plus petit à chaque itération Processus itératif: 1.choisir 2 α i pour loptimisation conjoint, avec au moins un des deux qui viole les conditions KKT 2.trouver la valeur optimal pour ces 2 α i et faire une mise- à-jour du modèle SVM

107 SYS828: Systèmes biométriques Éric Granger B3-107 B.3(4) SVM (b) SVM non-linéaires Apprentissage: approche Sequential Minimal Optimisation (SMO) ce processus itératif converge toujours vers un optimum


Télécharger ppt "SYS828: Systèmes biométriques Éric Granger B3-1 CONTENU DU COURS."

Présentations similaires


Annonces Google