Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parRaymonde Leclerc Modifié depuis plus de 8 années
1
1 Fouille visuelle de dissimilarités à l’aide de matrices de scatterplots pseudo-euclidiennes Sébastien AUPETIT, Nicolas MONMARCHE, Mohamed SLIMANE sebastien.aupetit@etu.univ-tours.fr nicolas.monmarche@univ-tours.fr mohamed.slimane@univ-tours.fr
2
2 Contexte Comprendre l’organisation d’un ensemble d’objets induite par une dissimilarité –Aide au choix d’une dissimilarité Application à la comparaison de dissimilarités sur des modèles de Markov cachés Méthodes numériques complexes et peu explicites Visualisation du nuage formé par la dissimilarité
3
3 Objectifs Les coordonnées des points ne sont pas connues Pas de contraintes fortes sur la dissimilarité : –Positivité : d(x,y) >= 0 –Symétrie : d(x,y)=d(y,x) –Auto-similarité : d(x,x)=0 Visualiser le nuage avec autant de précision que désirée
4
4 Visualiser un « nuage de dissimilarités » : Principales techniques Shaded Similarity Matrix –Utile pour la construction d’arbres de décision –Représentation exacte –Difficile d’appréhender les « proximités » induites Algorithme de spring et le multidimensional scaling (MDS) –Flexible mais nécessite de définir un critère à optimiser ! Peu représentatif : meilleur compromis du critère, optima locaux Résultats dépendent du critère Représentation exacte impossible (en général) S’appuit sur un espace euclidien pour la représentation
5
5 L’idée MDS = projeter les points dans un espace euclidien de faible dimension On cherche : –Les coordonnées des points dans un espace pseudo- euclidien de grande dimension respectant exactement la dissimilarité d –On représente ces points dans cet espace
6
6 Comment trouver les coordonnées des points dans un grand espace Si d est une norme euclidienne : –Alors il existe un produit scalaire euclidien associé avec M définie positive Analyse en Composante Principale à Noyau (ACPN) (Schölkopf, et al. 1999) Si d n’est pas une norme euclidienne : –soit on approxime => pas satisfaisant !!!! –soit on généralise l’ACPN pour traiter des noyaux indéfinis
7
7 ACP à noyau indéfini (ACPNI) (1/2) Généralisation du produit scalaire euclidien =x’My –M est indéfini (valeurs propres 0) –Un espace R N muni de forme un espace pseudo-euclidien (Pekalska et al. 2001) peut être négatifs d(x,y) 2 = =0 =\=> x=y Soit G la matrice des pseudo produits scalaires entre tous les couples de points du nuage centré
8
8 ACP à noyau indéfini (2/2) V i les vecteurs propres de G tels que V i ’.V i =1 λ i les valeurs propres non nulles associées La projection du point x (centrée) sur l’axe principal U i du nuage correspondant à λ i est : avec G x la ligne de G correspondant au point x Ces projections nous donnent alors les coordonnées des points du nuage dans l’espace pseudo-euclidien
9
9 Représentation : matrice de Scatterplot Représentation classique 2D Chaque graphe = le nuage suivant 2 dimensions du système de coordonnées (espaces de dimensions 2) Si affiche toutes les combinaisons de coordonnées représentation exacte Ex: 3 dimensions : x=(x1,x2,x3) 1 2 3 321321
10
10 Propriétés des espaces pseudo-euclidiens Dépend du nombre de valeurs propres positives (p) et négatives (n) de M (G) dans =x’.M.y signature(p,n) Cas à deux dimensions : –(p,n)=(2,0) : espace euclidien ordinaire –(p,n)=(0,2) : -d définie un espace euclidien ordinaire dans les deux cas, les proximités des coordonnées reflètent les dissimilarités
11
11 (p,n)=(1,1) Espace hyperbolique On peu avoir d(x,y)=0 mais x <> y ! Donc si on représente directement les coordonnées interprétation difficile
12
12 ACPNI : pour N points, on peut avoir jusqu’à N-1 axes principaux !!! on ne peut pas tous les représenter Mais les axes principaux du nuage n’ont pas tous la même importance. Il suffit de représenter ceux pour lesquels |λ i | est grand
13
13 Notre solution : MSPE Matrice de Scatterplot pseudo euclidienne (MSPE) –Matrice de Scatterplot –Affiche que les dimensions les plus significatives –Dimensionne chaque graphe de manière a refléter la contribution réelle des coordonnées (i.e. pas de normalisation) –Affiche de manière interactive les isolignes
14
14 Application à la visualisation de modèles de Markov cachés MMC = modèles stochastiques pouvant être utilisés pour apprendre et reconnaître des images, sons, … λ=(A,B,Π) Apprend 10 photos de visages de 5 personnes 50 MMC On souhaite savoir comment s’organise ces MMC On a définit 4 dissimilarités basées sur les coefficients des modèles
15
15 signes (+,-,+,-) a=b, t a < t b c=d, t c < t d 3eme et 4eme avec des signes opposées et amplitude similaire s’annule globalement (sauf blanc) coude = foncé/clair 1er axe = luminosité a, c : préserve groupe c : point hors norme choix a
16
16 Conclusion (1/2) Matrice de Scatterplot pseudo-euclidienne (MSPE) : –Technique générale suffisamment précise pour la représentation de dissimilarités quelconques –Grâce à l’ajout d’outils, l’ACPNI permet l’interprétation –Dans la pratique, les liens entre les points sont suffisamment forts pour que des points très proches soient regroupés dans l’espace Mais : –Comme pour l’ACP, la décomposition de la matrice G est coûteuse en temps –L’interprétation de la MSPE nécessite de la pratique
17
17 Conclusion (2/2) Espaces pseudo-euclidiens sont utiles : –pour l’apprentissage et la classification (Pekalska et al. 2001), (Ong et al. 2004) –pour l’interprétation et l’analyse visuelle de données (Aupetit et al. 2005) La MSPE est notre première utilisation de ces espaces pour la représentation de données mais d’autres travaux les utilisant sont actuellement en cours.
18
18 Merci de votre attention
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.