Apprentissage et Fouille de Données Locality Sensitive Discriminant Analysis Deng Cai, Xiaofei He, Kun Zhou, Jiawei Han, Hujun Bao Christophe Prin-Derre Apprentissage et Fouille de Données - 7/3/2007
Apprentissage et Fouille de Données - 7/3/2007 Présentation Réduction de la dimension Apprentissage supervisé Critère d’optimisation Discrimination interclasse (globale) Découverte géométrie locale Plus importante si peu d’exemple Projection maximisant la marge interclasse dans chaque zone locale. Apprentissage et Fouille de Données - 7/3/2007
Apprentissage et Fouille de Données - 7/3/2007 Plan de l’étude Contexte et travaux apparentés Démarche Fonction objectif Justification algorithmique Cas fortement non-linéaire Résultats expérimentaux Conclusion Avis personnel Apprentissage et Fouille de Données - 7/3/2007
Contexte et travaux apparentés Réduction dimension : extraire un petit nombre de caractéristiques intéressantes PCA (non-supervisé) LDA (supervisé) argmaxa aTSba / aTSwa + grandes valeurs propres de Sba = λSwa Découverte de la structure locale d’une Variété non/semi/-/supervisé -> graphes Laplacien de graphes -> tranformation Importance relative interclasse/intraclasse Apprentissage et Fouille de Données - 7/3/2007
Démarche Fonction objectif k plus proches voisins, Nw(xi), Nb(xi) Matrices de poids Wb et Ww W = Wb + Ww (x1…xm) -> (y1…ym) Min Σij(yi-yj)² Ww,ij Max Σij(yi-yj)² Wb,ij Apprentissage et Fouille de Données - 7/3/2007
Démarche Justification algorithmique Lb = Db - Wb argmaxa aTX(αLb+(1-α)Ww)XTSwa aTXDwXTa = 1 Pb généralisé de valeurs propres Apprentissage et Fouille de Données - 7/3/2007
Démarche Cas fortement non-linéaire LSDA = algorithme linéaire Pb si Variété formée fortement non-linéaire Passage dans un espace «reproducing kernel hilbert space», RKHS. Introduction de Fonction de noyau entre 2 points Matrice de noyau Apprentissage et Fouille de Données - 7/3/2007
Résultats expérimentaux 2 problèmes de reconnaissance des visages : bases Yale (15x11) et ORL (40x10) LSDA comparé aux algorithmes Eigenface (PCA) Fisherface (LDA) Marginal Fisher Analysis Conclusions tirées Intérêt de la réduction : tous sauf Eigenface LSDA = meilleur taux. Différence significative avec peu de données d’apprentissage Dimension optimale pour LSDA = nbclasses – 1 Temps gagné : pas de test exhaustif Apprentissage et Fouille de Données - 7/3/2007
Apprentissage et Fouille de Données - 7/3/2007 Conclusion Principal intérêt de LSDA = préservation dans les données de la discrimination entre classe de la structure géométrique locale Les 2 expériences menées tendent à prouver l’efficacité de cet algorithme Apprentissage et Fouille de Données - 7/3/2007
Apprentissage et Fouille de Données - 7/3/2007 Avis personnel analyse des faiblesses de LDA concepts tirés d’un large panel d’articles Les graphes des plus proches voisins ainsi que le critère à optimiser sont présentés de façon claire et compréhensible Généralisation aux espaces fortement non linéaires expériences discutables peu de données autres algorithmes ont apparemment de nombreuses applications Apprentissage et Fouille de Données - 7/3/2007