Évaluation de la qualité d'une clusterisation

Présentations similaires


Présentation au sujet: "Évaluation de la qualité d'une clusterisation"— Transcription de la présentation:

1 Évaluation de la qualité d'une clusterisation
Marine Campedel 29 novembre 2005

2 Motivations Mesure de qualité pour
Évaluer le nombre de clusters le plus adapté aux données (ou à l'algo de clusterisation ?) Comparer des algorithmes de clusterisation Évaluer la partition obtenue – qualité de la description des données obtenue

3 Qualité d'une clusterisation ?
Classification supervisée : on dispose de données étiquetées -> comptage des erreurs de prédiction, courbes ROC, … Cas non supervisé : les labels sont inconnus "stabilité" : qualité de la prédiction des étiquettes par les données (on se sert du résultat de clusterisation pour se ramener au cas supervisé) a priori : les données qui se ressemblent doivent avoir les mêmes labels

4 Qualité d'une clusterisation ?
Critères internes à relier au critère optimisé pendant l'opération de clusterisation Critères externes Comparaison avec une clusterisation de référence Indices divers reposant généralement sur des rapports de distance intra/extra clusters

5 Les indexes actuels Gèrent parfaitement des configurations patatoïdes bien séparées mais pas les autres. Idée 1 : se ramener à l'aide de fonction noyau, à une configuration patatoïde ; Idée 2 : proposer un index du même style qui permette d'analyser les configurations des données.

6 Nouvel index : NNI Taille du voisinage = % de la taille du cluster auquel appartient une donnée Résultat = une courbe fonction de ce %

7 Utilisation de NNI NNI global NNI des clusters et données
Comparaison de méthodes de clustering (en particulier sélection de modèles pour kernel KMeans) ; Estimation du nombre de clusters (pour kMeans par exemple). NNI des clusters et données Mesure de qualité des clusters ; Hypothèses sur la configuration des données.

8 Exemple 1

9 Exemple 1 Méthode KernelKMeans
Choix d'un noyau gaussien -> test de diverses valeurs

10 Exemple 1: résultat du meilleur clustering

11 Exemple 1: comparaison avec entropie et pureté

12 Exemple 1 : outliers

13 Exemple 1 : outliers

14 Exemple 2 : trouver K

15 Exemple 2 K? K est. 2 3 4 5 6 7 8 9 10

16 Conclusion NNI : indexe simple qui ouvre des perspectives intéressantes sur l'exploitation du résultat d'une clusterisation ou plutôt sur l'emploi d'une méthode de clusterisation ; Idée intéressante : courbe et non un seul point Distance calculée pour le voisinage : laquelle ? (N.B. : dans le cadre supervisé, peut-on s'en servir pour sélectionner un espace plus adéquat ?) Travaux futurs : exploitation dans les techniques de sélection non supervisée de caractéristiques (clusterisation des features). exploitation de la stabilité


Télécharger ppt "Évaluation de la qualité d'une clusterisation"
Annonces Google