Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Évaluation de la qualité d'une clusterisation
Marine Campedel 29 novembre 2005
2
Motivations Mesure de qualité pour
Évaluer le nombre de clusters le plus adapté aux données (ou à l'algo de clusterisation ?) Comparer des algorithmes de clusterisation Évaluer la partition obtenue – qualité de la description des données obtenue
3
Qualité d'une clusterisation ?
Classification supervisée : on dispose de données étiquetées -> comptage des erreurs de prédiction, courbes ROC, … Cas non supervisé : les labels sont inconnus "stabilité" : qualité de la prédiction des étiquettes par les données (on se sert du résultat de clusterisation pour se ramener au cas supervisé) a priori : les données qui se ressemblent doivent avoir les mêmes labels
4
Qualité d'une clusterisation ?
Critères internes à relier au critère optimisé pendant l'opération de clusterisation Critères externes Comparaison avec une clusterisation de référence Indices divers reposant généralement sur des rapports de distance intra/extra clusters
5
Les indexes actuels Gèrent parfaitement des configurations patatoïdes bien séparées mais pas les autres. Idée 1 : se ramener à l'aide de fonction noyau, à une configuration patatoïde ; Idée 2 : proposer un index du même style qui permette d'analyser les configurations des données.
6
Nouvel index : NNI Taille du voisinage = % de la taille du cluster auquel appartient une donnée Résultat = une courbe fonction de ce %
7
Utilisation de NNI NNI global NNI des clusters et données
Comparaison de méthodes de clustering (en particulier sélection de modèles pour kernel KMeans) ; Estimation du nombre de clusters (pour kMeans par exemple). NNI des clusters et données Mesure de qualité des clusters ; Hypothèses sur la configuration des données.
8
Exemple 1
9
Exemple 1 Méthode KernelKMeans
Choix d'un noyau gaussien -> test de diverses valeurs
10
Exemple 1: résultat du meilleur clustering
11
Exemple 1: comparaison avec entropie et pureté
12
Exemple 1 : outliers
13
Exemple 1 : outliers
14
Exemple 2 : trouver K
15
Exemple 2 K? K est. 2 3 4 5 6 7 8 9 10
16
Conclusion NNI : indexe simple qui ouvre des perspectives intéressantes sur l'exploitation du résultat d'une clusterisation ou plutôt sur l'emploi d'une méthode de clusterisation ; Idée intéressante : courbe et non un seul point Distance calculée pour le voisinage : laquelle ? (N.B. : dans le cadre supervisé, peut-on s'en servir pour sélectionner un espace plus adéquat ?) Travaux futurs : exploitation dans les techniques de sélection non supervisée de caractéristiques (clusterisation des features). exploitation de la stabilité
Présentations similaires
© 2025 SlidePlayer.fr Inc.
All rights reserved.