Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Slides:



Advertisements
Présentations similaires
S. Jouteau, A. Cornuéjols, M. Sebag (LRI)
Advertisements

Traitement d’images : concepts avancés
Gestion de portefeuille
Gestion de portefeuille
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Efficient Simplification of Point-Sampled Surfaces
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
Champs de Markov en Vision par Ordinateur
Champs de Markov en Vision par Ordinateur
Champs de Markov en Vision par Ordinateur
RECONNAISSANCE DE FORMES
C1 Bio-statistiques F. KOHLER
Application de réseaux bayésiens à la détection de fumées polluantes
Xavier Décoret* Frédo Durand° François Sillion*
Yann Chevaleyre et Jean-Daniel Zucker
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
6. Quantification des signaux visuels. Codage prédictif (MICD)
3. Analyse et estimation du mouvement dans la vidéo
Xialong Dai, Siamak Khorram
Complexité et Classification
Maria-João Rendas CNRS – I3S Novembre 2006
Reconnaissance d’objets par SVM et descripteurs de Fourier
Modélisation des systèmes non linéaires par des SIFs
DEA instrumentation et commande
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Apprendre à partir des observations
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
RECONNAISSANCE DE FORMES
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
Applications du perceptron multicouche
Concepts avancés en mathématiques et informatique appliquées
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
DEA Perception et Traitement de l’Information
Construction de modèles visuels
DEA Perception et Traitement de l’Information
Quizz rdf Dess IE. La RDF globale: 1.Quand il y a 2 classes seulement 2.Quand on fait un apprentissage 3.Quand les formes sont représentées par des vecteurs.
Les réseaux de neurones
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Structure discriminante (analyse discriminante)
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Programmation non procédurale Le projet ECOLE 2000
Modélisation géométrique de base
Introduction à la reconnaissance:
Une introduction aux machines à vecteurs supports (SVM)
Evaluation des incertitudes dans le recalage non rigide de formes Application à la segmentation avec ensemble apprentissage Maxime TARON Nikos PARAGIOS.
Classification : objectifs
Présentation du marché obligataire
L'atome quantique préambule.
Fast and Furious Decision Tree Induction
Réseaux de neurones artificiels « programmation par l’exemple »
S. Canu, laboratoire PSI, INSA de Rouen
Apprentissage « machine »
Probabilités et Statistiques Année 2010/2011
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
SVM machine à vecteurs de support ou séparateur à vaste marge
Soutenance de Stage DEA / DESS
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
Principes généraux de l’INDUCTION
GPA-779 Application des systèmes experts et des réseaux de neurones.
Rappel de statistiques
Est-ce que les ordinateurs peuvent apprendre? Yoshua Bengio Labo Universitaire Bell Université de Montréal 21 septembre 2001.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Groupe Langues, Information et Représentations
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
1_Introduction Toute mesure est entachée d’erreur. Il est impossible d’effectuer des mesures rigoureusement exactes. Pour rendre compte du degré d’approximation.
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
Transcription de la présentation:

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines) Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay antoine@lri.fr http://www.lri.fr/~antoine SAGEM - SVM.

Plan 1- Introduction à l’induction 2- Ingrédients de l’apprentissage supervisé 3- Les SVMs 4- Applications 5- Bilan Les SVMs (A. Cornuéjols)

Introduction à l’induction Proposer des lois générales à partir de l’observation de cas particuliers Les SVMs (A. Cornuéjols)

Types d’apprentissages Apprentissage supervisé Apprentissage non supervisé Apprentissage par renforcement Les SVMs (A. Cornuéjols)

Apprentissage supervisé (1) À partir d’un échantillon d’apprentissage S = {(xi, ui)}1,m chercher une loi de dépendance sous-jacente Par exemple une fonction h (hypothèse) aussi proche que possible de f (fonction cible) tq : ui = f(xi) Ou bien une distribution de probabilités P(xi, ui) afin de prédire l’avenir Les SVMs (A. Cornuéjols)

Apprentissage supervisé (2) Si f est une fonction continue Régression Estimation de densité Si f est une fonction discrète Classification Si f est une fonction binaire (booléenne) Apprentissage de concept Les SVMs (A. Cornuéjols)

Apprentissage non supervisé D’un échantillon d’apprentissage S = {(xi)}1,m chercher des régularités sous-jacentes Sous forme d’une fonction : régression Sous forme de nuages de points (e.g. mixture de gaussiennes) Sous forme d’un modèle complexe (e.g. réseau bayésien) afin de résumer, détecter des régularités, comprendre … Les SVMs (A. Cornuéjols)

App. Supervisé : le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) y1, y2, ..., ym Apprenant : h (x) x1, x2, ..., xm Les SVMs (A. Cornuéjols)

Apprendre  prédiction dans X + - Espace des exemples : X +/- ? Méthodes par plus proches voisins Nécessité d’une notion de distance Hypothèse de continuité dans X Les SVMs (A. Cornuéjols)

Apprendre = un jeu entre espaces Cas particulier de l’apprentissage de concepts LH + - x h Espace des exemples : X Espace des hypothèses : H Comment choisir l’espace des hypothèses (i.e. le langage LH ) ? Les SVMs (A. Cornuéjols)

Le critère inductif LH X H Quel critère inductif ? + - LH x h X H Quel critère inductif ? Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ? Les SVMs (A. Cornuéjols)

L’exploration de H ? LH X H Quelle méthode d’exploration de H ? h - x + - LH x h X H ? Quelle méthode d’exploration de H ? Les SVMs (A. Cornuéjols)

Trois ingrédients : trois questions Quel critère inductif ? Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? Quel espace d’hypothèses ? Quel espace d’hypothèses est approprié ? Comment explorer l’espace des hypothèses ? Résolution d’un problème d’optimisation Les SVMs (A. Cornuéjols)

Critère de performance Objectif : trouver une hypothèse h  H minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur X  Y Fonction de perte Étiquette prédite Étiquette vraie (ou désirée) Les SVMs (A. Cornuéjols)

Exemples de fonctions de perte Discrimination Régression Estimation de densité Les SVMs (A. Cornuéjols)

Les grands principes inductifs Principe de minimisation du risque empirique (ERM) Principe du maximum de vraisemblance (approche bayésienne) Principe de compression maximale Les SVMs (A. Cornuéjols)

(i) Le principe inductif ERM On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h  H minimisant le risque empirique Les SVMs (A. Cornuéjols)

(ii) Approche bayésienne On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h) Principe du Maximum A Posteriori (MAP): On cherche l’hypothèse h la plus probable après observation des données S Exemple : le 11 septembre 2001 Les SVMs (A. Cornuéjols)

(iii) Principe de compression maximale Inspiration : la théorie du codage de l’information Rasoir d’Occam On suppose qu’il existe : un coût associé à la transmission d’un codage (modèle des données) : L(h) un coût associé à la transmission des données brutes (E.D. h) : L(x|h) On cherche le modèle (ou l’hypothèse) permettant la transmission la plus économique de l’échantillon de données Les SVMs (A. Cornuéjols)

Choix de l’espace d’hypothèses Il faut contrôler l’expressivité de l’espace d’hypothèses Analyse statistique de l’induction [Vapnik, …] Terme dépendant de la « richesse » de H Les SVMs (A. Cornuéjols)

Définition d’un problème d’apprentissage Des acteurs L’environnement L’oracle L’apprenant Une tâche d’apprentissage Discrimination (ou classification multiclasses) / régression / estimation de densité Un principe inductif ERM (et dérivés) / Bayésien / compression d’information Un espace d’hypothèses (avec sélection automatique) un protocole d’apprentissage Choix d’une méthode d’apprentissage (et d’un algorithme) Les SVMs (A. Cornuéjols)

Relation d’inclusion et relation de généralité Vers la généralisation Les SVMs (A. Cornuéjols)

La relation de généralité induite dans H Relation de généralité dans H induite par la relation d'inclusion dans X Les SVMs (A. Cornuéjols)

Le choix d’une méthode d’apprentissage Dépend fondamentalement de l’espace des hypothèses H Structuré par une relation de généralité (ordre partiel) Toutes les méthodes guidées par cette relation Espace des versions PLI (Programmation Logique Inductive) EBL, reformulation, révision de théorie Inférence grammaticale Seulement une notion de voisinage dans H Méthodes de « gradient » Réseaux de neurones / SVMs Recuit simulé / algorithmes d’évolution simulée Réseaux bayésiens / HMMs Pas d’espace d’hypothèses Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning) h x H Les SVMs (A. Cornuéjols)

Hyperplans séparateurs Tâche de classification Cas de la séparation linéaire - On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b - La surface de séparation est donc l’hyperplan : - Elle est valide si - L’hyperplan est dit sous forme canonique lorsque ou encore Les SVMs (A. Cornuéjols)

Hyperplan de plus vaste marge Les SVMs (A. Cornuéjols)

Optimisation de la marge Les SVMs (A. Cornuéjols)

Optimisation de la marge La distance d’un point à l’hyperplan est : L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut Maximiser la marge revient donc à minimiser ||w|| sous contraintes: (w.x1) + b = +1 (w.x2) + b = -1 Donc : (w.(x1 - x2)) = 2 D’où : (w/||w|| . (x1 - x2)) = 2/||w|| Les SVMs (A. Cornuéjols)

SVMs : un problème d’optimisation quadratique EXPRESSION PRIMAIRE Il faut donc déterminer w et w0 minimisant : (afin de maximiser le pouvoir de généralisation) sous les contraintes (hyperplan séparateur) : Les SVMs (A. Cornuéjols)

Résolution de la forme primaire du problème d : dimension de l’espace d’entrée Il faut régler d + 1 paramètres Possible quand d est assez petit avec des méthodes d'optimisation quadratique Impossible quand d est grand (> qqs 103) Les SVMs (A. Cornuéjols)

Transformation du problème d’optimisation Méthode des multiplicateurs de Lagrange Problème dual EXPRESSION DUALE Les SVMs (A. Cornuéjols)

Propriétés de la forme duale La conversion est possible car les fonctions de coût et les contraintes sont strictement convexes (Th. de Kuhn-Tucker) La complexité du problème d'optimisation est µ m (taille de l'échantillon d'apprentissage) et non µ d ( taille de l'espace d'entrée X ) Possible d'obtenir des solutions pour des problèmes impliquant ≈ 105 exemples Les SVMs (A. Cornuéjols)

Solution du problème d’optimisation * : estimé (xS,uS) étant n'importe quel point de support Dans les problèmes réels traités, généralement seul un petit pourcentage des exemples d’apprentissage deviennent des vecteurs de support, et donc le problème d’optimisation peut être traité avec des méthodes standard d’optimisation quadratique. Propriété1 : seuls les i correspondant aux points les plus proches sont non-nuls. On parle de points de support (exemples critiques). Propriété 2 : seuls interviennent les produits scalaires entre les observations x dans le problème d’optimisation. Les SVMs (A. Cornuéjols)

Problèmes non linéairement séparables dans X La majorité des problèmes !!! Idée : Si on projette dans un espace de redescription de très grande dimension ?? Presque toujours le problème devient linéairement séparable Mais : Fléau de la dimensionalité dVC explose !!? Les SVMs (A. Cornuéjols)

F h x y SVM et redescription Espace des représentations internes d'entrées X Espace de sortie x F h y Redescription non linéaire Séparation linéaire Les SVMs (A. Cornuéjols)

Petite digression … … La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993) Les SVMs (A. Cornuéjols)

La redescription des entrées : illustration Soit un espace d’entrée à 2 dimensions Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes d’ordre 6 Nouvel espace de descripteurs à 16 dimensions (fonctions de base): Les SVMs (A. Cornuéjols)

Le nouveau problème d’optimisation Soit  : X -> (X), on peut remplacer partout x par (x) Si  est bien choisie, K(x, x’) = (x).(x’) peut être facile à calculer et le problème devient : Les SVMs (A. Cornuéjols)

Solution du nouveau problème d’optimisation La fonction de décision devient : Soit dans la forme duale : n : nb de fcts de base (peut être très grand) mS : nb de points de support Les SVMs (A. Cornuéjols)

Schéma de fonctionnement des SVMs Les SVMs (A. Cornuéjols)

Les conditions de Mercer Si on prend une fonction K symétrique, il existe une fonction  tq: ssi, pour toute fonction f telle que : l’on a : Si cette condition est vérifiée, on peut appliquer les SVMs MAIS cela ne dit pas comment construire  Toute fonction symétrique K satisfaisant la condition de Mercer correspond à un produit scalaire dans un certain espace. (D’après la théorie de Hilbert-Schmidt sur les produits internes dans les espaces de Hilbert) Donc, si je trouve une telle fonction K, je peux implicitement réaliser un produit scalaire dans un espace que je ne connais pas (que je n’ai pas besoin de connaître) et qui peut être de très grande dimension voire de dimension infinie. J’ai donc alors une chance de trouver une séparatrice linéaire dans cet espace. Les SVMs (A. Cornuéjols)

Fonctions noyau usuelles (1/2) Polynomiale : Les polynomes de degré q ont pour fonction noyau associée : RBF : Les fcts à base radiale : ont pour fct noyau associée : Sigmoïde : Les réseaux de neurones à fcts d'activation : Rq : les fonctions tanh ne vérifient pas les conditions de Mercer (cf. Thèse d’André Elisseeff, p.23) mais sont largement utilisés car ils permettent de retrouver la structure des réseaux de neurones. Les SVMs (A. Cornuéjols)

Fonctions noyau usuelles (2/2) Construction à partir de fonctions noyau de base (Propriétés de clôture) K(x,z) = K1(x,z) + K2(x,z) K(x,z) = a K1(x,z) K(x,z) = K1(x,z) . K2(x,z) … Construction de fonctions noyau dédiées Splines Bm Expansion de Fourrier Ondelettes ... Les SVMs (A. Cornuéjols)

Les fonctions noyau … encodent : Une mesure de similarité sur les données La forme fonctionnelle des fonctions de décision Le type de régularisation réalisée (ex : les fcts gaussiennes favorisent les solutions régulières) Le type de covariance dans l’espace des entrées (ex : fcts noyau invariantes par rotation) Sorte de distribution de probabilité a priori sur l’espace des hypothèses Les SVMs (A. Cornuéjols)

Illustration : le cas du XOR Fonction noyau polynomiale de d° 2 : K(x,x') = [1 + (xT . x')]2 soit : K(x,xi ) = 1 + x12xi12 + 2 x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2 correspondant à la projection F : [1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T Les SVMs (A. Cornuéjols)

Illustration : le cas du XOR Ici : Les SVMs (A. Cornuéjols)

Illustration : le cas du XOR L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations : En dérivant Q(a) successivement par rapport à a1, a2, … La valeur optimale des multiplicateurs de Lagrange est : Les SVMs (A. Cornuéjols)

Illustration : le cas du XOR Les 4 exemples sont donc des exemples critiques ("support vectors") ( i , ai ≠ 0) La fonction de décision s’écrit : Les SVMs (A. Cornuéjols)

Illustration : le cas du XOR En revenant dans l’espace d’origine : Le vecteur poids optimal est : soit : Les SVMs (A. Cornuéjols)

Illustration : le cas du XOR L'hyperplan optimal correspond à : Les SVMs (A. Cornuéjols)

Illustration : le cas du XOR Séparatrice dans l'espace d'entrée D(x) = -x1x2 Séparatrice dans l'espace F(X) (espace à 6 dimensions) Les SVMs (A. Cornuéjols)

Cas du problème non séparable : marges douces On introduit des variables “ressort” qui pénalisent l’erreur commise : Le problème dual a la même forme à l’exception d’une constante C • La résolution du problème d’optimisation, de même que sa solution, ne dépendent que de produits scalaires dans l’espace d’entrée Les SVMs (A. Cornuéjols)

La mise en pratique Il faut choisir : Le type de fonction noyau K Sa forme Ses paramètres La valeur de la constante C La sélection rigoureuse de ces paramètres exige une estimation de la dimension de Vapnik-Chervonenkis et l’application de la borne de généralisation  Dans le cas séparable, il est possible de déterminer ces paramètres Dans le cas non séparable, il faut tester avec des méthodes empiriques pour faire le meilleur choix Voir [Cherkassky,98, p.108] pour ces expressions dans le cas de la classification Les SVMs (A. Cornuéjols)

Exemple • : exemple - : exemple + Dans cercle : points de support Fct noyau polynomiale de degré 3 Démo : http://svm.research.bell-labs.com/ http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml Les SVMs (A. Cornuéjols)

Effet des paramètres de contrôle Apprentissage de deux classes exemples tirés uniformément sur l'échiquier SVM à fonctions noyau gaussienne Ici deux valeurs de s En haut : petite valeur En bas : grande valeur Les gros points sont des exemples critiques Plus en haut qu'en bas Dans les deux cas : Remp = 0 D'après [Cristianini & Shawe-Taylor, 2000] p.102 D'après ["Advances in kernel methods", p.164-166] : avec 1000 points répartis uniformément sur l'échiquier. Souvent un bon choix pour sigma est la distance minimale entre points de classes différentes [Cristianini & Shawe-Taylor, book, p.149] Les SVMs (A. Cornuéjols)

Les données d'apprentissage Les SVMs (A. Cornuéjols)

Paramètres de contrôle : les fonctions noyau http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml 47 exemples (22 +, 25 -) Exemples critiques : 4 + et 3 - Ici fonction polynomiale de degré 5 et C = 10000 Les SVMs (A. Cornuéjols)

Paramètres de contrôle : les fonctions noyau (5-, 4+) (3-, 4+) (5-, 4+) 47 exemples (22 +, 25 -) Exemples critiques : 4 + et 3 - Ici fonction polynomiale de degré 2, 5, 8 et C = 10000 (10-, 11+) (8-, 6+) (4-, 5+) Ici fonction Gaussienne de s = 2, 5, 10, 20 et C = 10000 Les SVMs (A. Cornuéjols)

Ajout de quelques points ... http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml 47 + 8 exemples (30 +, 25 -) Exemples critiques : 5 + et 8 - Ici fonction polynomiale de degré 5 et C = 10000 Les SVMs (A. Cornuéjols)

Domaines d’application des SVMs Traitement d’images Reconnaissance de caractères manuscrits Reconnaissance de scènes naturelles Reconnaissance de visages Entrées : image bidimensionnelle en couleur ou en niveaux de gris Sortie : classe (chiffre / personne) Les SVMs (A. Cornuéjols)

Domaines d’application des SVMs Images : 256 * 256 (100 niveaux de gris) Codées en : 16 * 16 (niveaux de gris) + mêmes par 4 opérateurs différentiels à une dimension (|,-,/,\) = 1280 pixels (5 * 16 * 16) 25 objets pris sous 25, 89 ou 100 points de vue (ens. d’apprentissage) [Thèse B. Schölkopf, 1997] Les SVMs (A. Cornuéjols)

Domaines d’application des SVMs Résultats avec noyaux polynomiaux [Thèse Schölkopf, 1997, p.48] Les SVMs (A. Cornuéjols)

Application : images couleurs Base d’images Corel Stock Photo Collection 200 catégories 100 images / catégorie Codage Pixel = vecteur dans espace à trois dimensions (RGB) Image = histogramme (fraction des pixels d’une couleur donnée) Invariant / nombreuses opérations Noyau : D’après [Cristianini & Shawe-Taylor, book, p.155] Travaux de [Olivier Chapelle et al.,1999] Résultats deux fois meilleurs que ceux d’un ppv dans le même espace. Les noyaux gaussiens d’ordre 2 ne marchent pas. (fonction c2) Les SVMs (A. Cornuéjols)

Domaines d’application des SVMs Catégorisation de textes Classification d’e-mails Classification de pages web Entrées : document (texte ou html) Approche « sac de mots » Document = vecteur de mots (lemmatisés pondérés par tf-idf) Sortie : catégorie (thème, spam/non-spam) Noyau : Produit scalaire des vecteurs C = ¥ (marge dure) Les SVMs (A. Cornuéjols)

Domaines d’application des SVMs Diagnostic médical Évaluation du risque de cancer Détection d’arythmie cardiaque Évaluation du risque d’accidents cardio-vasculaires à moins de 6 ans Entrées : état du patient (sexe, age, bilan sanguin, …) Sortie : Classe : à risque ou non Probabilité d’accident à échéance donnée Les SVMs (A. Cornuéjols)

Domaines d’application des SVMs Dans les deux cas : Pas d’information de structure Seulement des informations globales Les SVMs (A. Cornuéjols)

Domaines d’application des SVMs Étude de séquences en bio-informatique Biologie structurale prédictive (prédiction de structure secondaire du génome) Identification de régions codantes de l’ADN génomique Phylogénie … Entrées : chaînes d’acides aminées Sortie : Structure secondaire Intron / exon Ancêtre Noyau relationnel : Modèle génératif (chaînes de Markov : insertion, délétion, remplacement, …) Les SVMs (A. Cornuéjols)

Implémentation des SVMs Minimisation de fonctions différentiables convexes à plusieurs variables Pas d’optima locaux Mais : Problèmes de stockage de la matrice noyau (si milliers d’exemples) Long dans ce cas D’où mise au point de méthodes spécifiques Gradient sophistiqué Méthodes itératives, optimisation par morceaux Plusieurs packages publics disponibles SVMTorch SVMLight SMO … Les SVMs (A. Cornuéjols)

Extensions Classification multi-classes Régression Détection de « nouveautés » Analyse en composantes principales par noyaux Les SVMs (A. Cornuéjols)

SVM et régression Fonction de perte : Régression linéaire : Soit à minimiser : Généralisation : Les SVMs (A. Cornuéjols)

SVM et apprentissage non supervisé Détection de « nouveautés » On cherche à séparer au maximum le nuage de points de l’origine Les SVMs (A. Cornuéjols)

Pourquoi ça marche ? La marge est liée à la capacité en généralisation Normalement, la classe des hyperplans de Rd est de dH = d + 1 Mais la classe des hyperplans de marge est bornée par : dH ≤ Min (R2 c, d) + 1 où R est le rayon de la plus petite sphère englobant l'échantillon d'apprentissage S Peut être beaucoup plus petit que la dimension d de l'espace d'entrée X [Scholkopf et al., "Advances in kernel methods", p.32] [Vapnik,95,p.128] Les SVMs (A. Cornuéjols)

Bilan SVMs très utilisés Méthode générale Facile d’emploi Résultats en général équivalents et souvent meilleurs Stimulent tout un ensemble de travaux sur des méthodes à base de noyaux (kernel-based methods) Limites Problèmes i.i.d. (données indépendantes et identiquement distribuées) Les SVMs (A. Cornuéjols)

Sources documentaires Ouvrages / articles Cornuéjols & Miclet (02) : Apprentisage artificiel. Concepts et algorithmes. Eyrolles, 2002. Cristianini & Shawe-Taylor (00) : Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000. Herbrich (02) : Learning kernel classifiers. MIT Press, 2002. Schölkopf, Burges & Smola (eds) (98) : Advances in Kernel Methods : Support Vector Learning. MIT Press, 1998. Schölkopf & Smola (02) : Learning with kernels. MIT Press, 2002. Smola, Bartlett, Schölkopf & Schuurmans (00) : Advances in large margin classifiers. MIT Press, 2000. Vapnik (95) : The nature of statistical learning. Springer-Verlag, 1995. Sites web http://www.kernel-machines.org/ (point d’entrée) http://www.support-vector.net (point d’entrée) Les SVMs (A. Cornuéjols)