La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Présentations similaires


Présentation au sujet: "Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)"— Transcription de la présentation:

1 Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)
Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay SAGEM - SVM.

2 Plan 1- Introduction à l’induction
2- Ingrédients de l’apprentissage supervisé 3- Les SVMs 4- Applications 5- Bilan Les SVMs (A. Cornuéjols)

3 Introduction à l’induction
Proposer des lois générales à partir de l’observation de cas particuliers Les SVMs (A. Cornuéjols)

4 Types d’apprentissages
Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Les SVMs (A. Cornuéjols)

5 Apprentissage supervisé (1)
À partir d’un échantillon d’apprentissage S = {(xi, ui)}1,m chercher une loi de dépendance sous-jacente Par exemple une fonction h (hypothèse) aussi proche que possible de f (fonction cible) tq : ui = f(xi) Ou bien une distribution de probabilités P(xi, ui) afin de prédire l’avenir Les SVMs (A. Cornuéjols)

6 Apprentissage supervisé (2)
Si f est une fonction continue Régression Estimation de densité Si f est une fonction discrète Classification Si f est une fonction binaire (booléenne) Apprentissage de concept Les SVMs (A. Cornuéjols)

7 Apprentissage non supervisé
D’un échantillon d’apprentissage S = {(xi)}1,m chercher des régularités sous-jacentes Sous forme d’une fonction : régression Sous forme de nuages de points (e.g. mixture de gaussiennes) Sous forme d’un modèle complexe (e.g. réseau bayésien) afin de résumer, détecter des régularités, comprendre … Les SVMs (A. Cornuéjols)

8 App. Supervisé : le scénario de base
x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) y1, y2, ..., ym Apprenant : h (x) x1, x2, ..., xm Les SVMs (A. Cornuéjols)

9 Apprendre  prédiction dans X
+ - Espace des exemples : X +/- ? Méthodes par plus proches voisins Nécessité d’une notion de distance Hypothèse de continuité dans X Les SVMs (A. Cornuéjols)

10 Apprendre = un jeu entre espaces
Cas particulier de l’apprentissage de concepts LH + - x h Espace des exemples : X Espace des hypothèses : H Comment choisir l’espace des hypothèses (i.e. le langage LH ) ? Les SVMs (A. Cornuéjols)

11 Le critère inductif LH X H Quel critère inductif ?
+ - LH x h X H Quel critère inductif ? Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ? Les SVMs (A. Cornuéjols)

12 L’exploration de H ? LH X H Quelle méthode d’exploration de H ? h - x
+ - LH x h X H ? Quelle méthode d’exploration de H ? Les SVMs (A. Cornuéjols)

13 Trois ingrédients : trois questions
Quel critère inductif ? Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? Quel espace d’hypothèses ? Quel espace d’hypothèses est approprié ? Comment explorer l’espace des hypothèses ? Résolution d’un problème d’optimisation Les SVMs (A. Cornuéjols)

14 Critère de performance
Objectif : trouver une hypothèse h  H minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur X  Y Fonction de perte Étiquette prédite Étiquette vraie (ou désirée) Les SVMs (A. Cornuéjols)

15 Exemples de fonctions de perte
Discrimination Régression Estimation de densité Les SVMs (A. Cornuéjols)

16 Les grands principes inductifs
Principe de minimisation du risque empirique (ERM) Principe du maximum de vraisemblance (approche bayésienne) Principe de compression maximale Les SVMs (A. Cornuéjols)

17 (i) Le principe inductif ERM
On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h  H minimisant le risque empirique Les SVMs (A. Cornuéjols)

18 (ii) Approche bayésienne
On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h) Principe du Maximum A Posteriori (MAP): On cherche l’hypothèse h la plus probable après observation des données S Exemple : le 11 septembre 2001 Les SVMs (A. Cornuéjols)

19 (iii) Principe de compression maximale
Inspiration : la théorie du codage de l’information Rasoir d’Occam On suppose qu’il existe : un coût associé à la transmission d’un codage (modèle des données) : L(h) un coût associé à la transmission des données brutes (E.D. h) : L(x|h) On cherche le modèle (ou l’hypothèse) permettant la transmission la plus économique de l’échantillon de données Les SVMs (A. Cornuéjols)

20 Choix de l’espace d’hypothèses
Il faut contrôler l’expressivité de l’espace d’hypothèses Analyse statistique de l’induction [Vapnik, …] Terme dépendant de la « richesse » de H Les SVMs (A. Cornuéjols)

21 Définition d’un problème d’apprentissage
Des acteurs L’environnement L’oracle L’apprenant Une tâche d’apprentissage Discrimination (ou classification multiclasses) / régression / estimation de densité Un principe inductif ERM (et dérivés) / Bayésien / compression d’information Un espace d’hypothèses (avec sélection automatique) un protocole d’apprentissage Choix d’une méthode d’apprentissage (et d’un algorithme) Les SVMs (A. Cornuéjols)

22 Relation d’inclusion et relation de généralité
Vers la généralisation Les SVMs (A. Cornuéjols)

23 La relation de généralité induite dans H
Relation de généralité dans H induite par la relation d'inclusion dans X Les SVMs (A. Cornuéjols)

24 Le choix d’une méthode d’apprentissage
Dépend fondamentalement de l’espace des hypothèses H Structuré par une relation de généralité (ordre partiel) Toutes les méthodes guidées par cette relation Espace des versions PLI (Programmation Logique Inductive) EBL, reformulation, révision de théorie Inférence grammaticale Seulement une notion de voisinage dans H Méthodes de « gradient » Réseaux de neurones / SVMs Recuit simulé / algorithmes d’évolution simulée Réseaux bayésiens / HMMs Pas d’espace d’hypothèses Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning) h x H Les SVMs (A. Cornuéjols)

25 Hyperplans séparateurs
Tâche de classification Cas de la séparation linéaire - On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b - La surface de séparation est donc l’hyperplan : - Elle est valide si - L’hyperplan est dit sous forme canonique lorsque ou encore Les SVMs (A. Cornuéjols)

26 Hyperplan de plus vaste marge
Les SVMs (A. Cornuéjols)

27 Optimisation de la marge
Les SVMs (A. Cornuéjols)

28 Optimisation de la marge
La distance d’un point à l’hyperplan est : L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut Maximiser la marge revient donc à minimiser ||w|| sous contraintes: (w.x1) + b = +1 (w.x2) + b = -1 Donc : (w.(x1 - x2)) = 2 D’où : (w/||w|| . (x1 - x2)) = 2/||w|| Les SVMs (A. Cornuéjols)

29 SVMs : un problème d’optimisation quadratique
EXPRESSION PRIMAIRE Il faut donc déterminer w et w0 minimisant : (afin de maximiser le pouvoir de généralisation) sous les contraintes (hyperplan séparateur) : Les SVMs (A. Cornuéjols)

30 Résolution de la forme primaire du problème
d : dimension de l’espace d’entrée Il faut régler d + 1 paramètres Possible quand d est assez petit avec des méthodes d'optimisation quadratique Impossible quand d est grand (> qqs 103) Les SVMs (A. Cornuéjols)

31 Transformation du problème d’optimisation
Méthode des multiplicateurs de Lagrange Problème dual EXPRESSION DUALE Les SVMs (A. Cornuéjols)

32 Propriétés de la forme duale
La conversion est possible car les fonctions de coût et les contraintes sont strictement convexes (Th. de Kuhn-Tucker) La complexité du problème d'optimisation est µ m (taille de l'échantillon d'apprentissage) et non µ d ( taille de l'espace d'entrée X ) Possible d'obtenir des solutions pour des problèmes impliquant ≈ 105 exemples Les SVMs (A. Cornuéjols)

33 Solution du problème d’optimisation
* : estimé (xS,uS) étant n'importe quel point de support Dans les problèmes réels traités, généralement seul un petit pourcentage des exemples d’apprentissage deviennent des vecteurs de support, et donc le problème d’optimisation peut être traité avec des méthodes standard d’optimisation quadratique. Propriété1 : seuls les i correspondant aux points les plus proches sont non-nuls. On parle de points de support (exemples critiques). Propriété 2 : seuls interviennent les produits scalaires entre les observations x dans le problème d’optimisation. Les SVMs (A. Cornuéjols)

34 Problèmes non linéairement séparables dans X
La majorité des problèmes !!! Idée : Si on projette dans un espace de redescription de très grande dimension ?? Presque toujours le problème devient linéairement séparable Mais : Fléau de la dimensionalité dVC explose !!? Les SVMs (A. Cornuéjols)

35 F h x y SVM et redescription Espace des représentations internes
d'entrées X Espace de sortie x F h y Redescription non linéaire Séparation linéaire Les SVMs (A. Cornuéjols)

36 Petite digression … … La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993) Les SVMs (A. Cornuéjols)

37 La redescription des entrées : illustration
Soit un espace d’entrée à 2 dimensions Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes d’ordre 6 Nouvel espace de descripteurs à 16 dimensions (fonctions de base): Les SVMs (A. Cornuéjols)

38 Le nouveau problème d’optimisation
Soit  : X -> (X), on peut remplacer partout x par (x) Si  est bien choisie, K(x, x’) = (x).(x’) peut être facile à calculer et le problème devient : Les SVMs (A. Cornuéjols)

39 Solution du nouveau problème d’optimisation
La fonction de décision devient : Soit dans la forme duale : n : nb de fcts de base (peut être très grand) mS : nb de points de support Les SVMs (A. Cornuéjols)

40 Schéma de fonctionnement des SVMs
Les SVMs (A. Cornuéjols)

41 Les conditions de Mercer
Si on prend une fonction K symétrique, il existe une fonction  tq: ssi, pour toute fonction f telle que : l’on a : Si cette condition est vérifiée, on peut appliquer les SVMs MAIS cela ne dit pas comment construire  Toute fonction symétrique K satisfaisant la condition de Mercer correspond à un produit scalaire dans un certain espace. (D’après la théorie de Hilbert-Schmidt sur les produits internes dans les espaces de Hilbert) Donc, si je trouve une telle fonction K, je peux implicitement réaliser un produit scalaire dans un espace que je ne connais pas (que je n’ai pas besoin de connaître) et qui peut être de très grande dimension voire de dimension infinie. J’ai donc alors une chance de trouver une séparatrice linéaire dans cet espace. Les SVMs (A. Cornuéjols)

42 Fonctions noyau usuelles (1/2)
Polynomiale : Les polynomes de degré q ont pour fonction noyau associée : RBF : Les fcts à base radiale : ont pour fct noyau associée : Sigmoïde : Les réseaux de neurones à fcts d'activation : Rq : les fonctions tanh ne vérifient pas les conditions de Mercer (cf. Thèse d’André Elisseeff, p.23) mais sont largement utilisés car ils permettent de retrouver la structure des réseaux de neurones. Les SVMs (A. Cornuéjols)

43 Fonctions noyau usuelles (2/2)
Construction à partir de fonctions noyau de base (Propriétés de clôture) K(x,z) = K1(x,z) + K2(x,z) K(x,z) = a K1(x,z) K(x,z) = K1(x,z) . K2(x,z) Construction de fonctions noyau dédiées Splines Bm Expansion de Fourrier Ondelettes ... Les SVMs (A. Cornuéjols)

44 Les fonctions noyau … encodent :
Une mesure de similarité sur les données La forme fonctionnelle des fonctions de décision Le type de régularisation réalisée (ex : les fcts gaussiennes favorisent les solutions régulières) Le type de covariance dans l’espace des entrées (ex : fcts noyau invariantes par rotation) Sorte de distribution de probabilité a priori sur l’espace des hypothèses Les SVMs (A. Cornuéjols)

45 Illustration : le cas du XOR
Fonction noyau polynomiale de d° 2 : K(x,x') = [1 + (xT . x')]2 soit : K(x,xi ) = 1 + x12xi x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2 correspondant à la projection F : [1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T Les SVMs (A. Cornuéjols)

46 Illustration : le cas du XOR
Ici : Les SVMs (A. Cornuéjols)

47 Illustration : le cas du XOR
L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations : En dérivant Q(a) successivement par rapport à a1, a2, … La valeur optimale des multiplicateurs de Lagrange est : Les SVMs (A. Cornuéjols)

48 Illustration : le cas du XOR
Les 4 exemples sont donc des exemples critiques ("support vectors") ( i , ai ≠ 0) La fonction de décision s’écrit : Les SVMs (A. Cornuéjols)

49 Illustration : le cas du XOR
En revenant dans l’espace d’origine : Le vecteur poids optimal est : soit : Les SVMs (A. Cornuéjols)

50 Illustration : le cas du XOR
L'hyperplan optimal correspond à : Les SVMs (A. Cornuéjols)

51 Illustration : le cas du XOR
Séparatrice dans l'espace d'entrée D(x) = -x1x2 Séparatrice dans l'espace F(X) (espace à 6 dimensions) Les SVMs (A. Cornuéjols)

52 Cas du problème non séparable : marges douces
On introduit des variables “ressort” qui pénalisent l’erreur commise : Le problème dual a la même forme à l’exception d’une constante C • La résolution du problème d’optimisation, de même que sa solution, ne dépendent que de produits scalaires dans l’espace d’entrée Les SVMs (A. Cornuéjols)

53 La mise en pratique Il faut choisir : Le type de fonction noyau K
Sa forme Ses paramètres La valeur de la constante C La sélection rigoureuse de ces paramètres exige une estimation de la dimension de Vapnik-Chervonenkis et l’application de la borne de généralisation  Dans le cas séparable, il est possible de déterminer ces paramètres Dans le cas non séparable, il faut tester avec des méthodes empiriques pour faire le meilleur choix Voir [Cherkassky,98, p.108] pour ces expressions dans le cas de la classification Les SVMs (A. Cornuéjols)

54 Exemple • : exemple - : exemple + Dans cercle : points de support
Fct noyau polynomiale de degré 3 Démo : Les SVMs (A. Cornuéjols)

55 Effet des paramètres de contrôle
Apprentissage de deux classes exemples tirés uniformément sur l'échiquier SVM à fonctions noyau gaussienne Ici deux valeurs de s En haut : petite valeur En bas : grande valeur Les gros points sont des exemples critiques Plus en haut qu'en bas Dans les deux cas : Remp = 0 D'après [Cristianini & Shawe-Taylor, 2000] p.102 D'après ["Advances in kernel methods", p ] : avec 1000 points répartis uniformément sur l'échiquier. Souvent un bon choix pour sigma est la distance minimale entre points de classes différentes [Cristianini & Shawe-Taylor, book, p.149] Les SVMs (A. Cornuéjols)

56 Les données d'apprentissage
Les SVMs (A. Cornuéjols)

57 Paramètres de contrôle : les fonctions noyau
47 exemples (22 +, 25 -) Exemples critiques : 4 + et 3 - Ici fonction polynomiale de degré 5 et C = 10000 Les SVMs (A. Cornuéjols)

58 Paramètres de contrôle : les fonctions noyau
(5-, 4+) (3-, 4+) (5-, 4+) 47 exemples (22 +, 25 -) Exemples critiques : 4 + et 3 - Ici fonction polynomiale de degré 2, 5, 8 et C = 10000 (10-, 11+) (8-, 6+) (4-, 5+) Ici fonction Gaussienne de s = 2, 5, 10, 20 et C = 10000 Les SVMs (A. Cornuéjols)

59 Ajout de quelques points ...
exemples (30 +, 25 -) Exemples critiques : 5 + et 8 - Ici fonction polynomiale de degré 5 et C = 10000 Les SVMs (A. Cornuéjols)

60 Domaines d’application des SVMs
Traitement d’images Reconnaissance de caractères manuscrits Reconnaissance de scènes naturelles Reconnaissance de visages Entrées : image bidimensionnelle en couleur ou en niveaux de gris Sortie : classe (chiffre / personne) Les SVMs (A. Cornuéjols)

61 Domaines d’application des SVMs
Images : 256 * 256 (100 niveaux de gris) Codées en : 16 * 16 (niveaux de gris) + mêmes par 4 opérateurs différentiels à une dimension (|,-,/,\) = 1280 pixels (5 * 16 * 16) 25 objets pris sous 25, 89 ou 100 points de vue (ens. d’apprentissage) [Thèse B. Schölkopf, 1997] Les SVMs (A. Cornuéjols)

62 Domaines d’application des SVMs
Résultats avec noyaux polynomiaux [Thèse Schölkopf, 1997, p.48] Les SVMs (A. Cornuéjols)

63 Application : images couleurs
Base d’images Corel Stock Photo Collection 200 catégories 100 images / catégorie Codage Pixel = vecteur dans espace à trois dimensions (RGB) Image = histogramme (fraction des pixels d’une couleur donnée) Invariant / nombreuses opérations Noyau : D’après [Cristianini & Shawe-Taylor, book, p.155] Travaux de [Olivier Chapelle et al.,1999] Résultats deux fois meilleurs que ceux d’un ppv dans le même espace. Les noyaux gaussiens d’ordre 2 ne marchent pas. (fonction c2) Les SVMs (A. Cornuéjols)

64 Domaines d’application des SVMs
Catégorisation de textes Classification d’ s Classification de pages web Entrées : document (texte ou html) Approche « sac de mots » Document = vecteur de mots (lemmatisés pondérés par tf-idf) Sortie : catégorie (thème, spam/non-spam) Noyau : Produit scalaire des vecteurs C = ¥ (marge dure) Les SVMs (A. Cornuéjols)

65 Domaines d’application des SVMs
Diagnostic médical Évaluation du risque de cancer Détection d’arythmie cardiaque Évaluation du risque d’accidents cardio-vasculaires à moins de 6 ans Entrées : état du patient (sexe, age, bilan sanguin, …) Sortie : Classe : à risque ou non Probabilité d’accident à échéance donnée Les SVMs (A. Cornuéjols)

66 Domaines d’application des SVMs
Dans les deux cas : Pas d’information de structure Seulement des informations globales Les SVMs (A. Cornuéjols)

67 Domaines d’application des SVMs
Étude de séquences en bio-informatique Biologie structurale prédictive (prédiction de structure secondaire du génome) Identification de régions codantes de l’ADN génomique Phylogénie … Entrées : chaînes d’acides aminées Sortie : Structure secondaire Intron / exon Ancêtre Noyau relationnel : Modèle génératif (chaînes de Markov : insertion, délétion, remplacement, …) Les SVMs (A. Cornuéjols)

68 Implémentation des SVMs
Minimisation de fonctions différentiables convexes à plusieurs variables Pas d’optima locaux Mais : Problèmes de stockage de la matrice noyau (si milliers d’exemples) Long dans ce cas D’où mise au point de méthodes spécifiques Gradient sophistiqué Méthodes itératives, optimisation par morceaux Plusieurs packages publics disponibles SVMTorch SVMLight SMO Les SVMs (A. Cornuéjols)

69 Extensions Classification multi-classes Régression
Détection de « nouveautés » Analyse en composantes principales par noyaux Les SVMs (A. Cornuéjols)

70 SVM et régression Fonction de perte : Régression linéaire :
Soit à minimiser : Généralisation : Les SVMs (A. Cornuéjols)

71 SVM et apprentissage non supervisé
Détection de « nouveautés » On cherche à séparer au maximum le nuage de points de l’origine Les SVMs (A. Cornuéjols)

72 Pourquoi ça marche ? La marge est liée à la capacité en généralisation
Normalement, la classe des hyperplans de Rd est de dH = d + 1 Mais la classe des hyperplans de marge est bornée par : dH ≤ Min (R2 c, d) + 1 où R est le rayon de la plus petite sphère englobant l'échantillon d'apprentissage S Peut être beaucoup plus petit que la dimension d de l'espace d'entrée X [Scholkopf et al., "Advances in kernel methods", p.32] [Vapnik,95,p.128] Les SVMs (A. Cornuéjols)

73 Bilan SVMs très utilisés
Méthode générale Facile d’emploi Résultats en général équivalents et souvent meilleurs Stimulent tout un ensemble de travaux sur des méthodes à base de noyaux (kernel-based methods) Limites Problèmes i.i.d. (données indépendantes et identiquement distribuées) Les SVMs (A. Cornuéjols)

74 Sources documentaires
Ouvrages / articles Cornuéjols & Miclet (02) : Apprentisage artificiel. Concepts et algorithmes. Eyrolles, 2002. Cristianini & Shawe-Taylor (00) : Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. Herbrich (02) : Learning kernel classifiers. MIT Press, 2002. Schölkopf, Burges & Smola (eds) (98) : Advances in Kernel Methods : Support Vector Learning. MIT Press, 1998. Schölkopf & Smola (02) : Learning with kernels. MIT Press, 2002. Smola, Bartlett, Schölkopf & Schuurmans (00) : Advances in large margin classifiers. MIT Press, 2000. Vapnik (95) : The nature of statistical learning. Springer-Verlag, 1995. Sites web (point d’entrée) (point d’entrée) Les SVMs (A. Cornuéjols)


Télécharger ppt "Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)"

Présentations similaires


Annonces Google