La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Évaluation de la qualité d'une clusterisation

Présentations similaires


Présentation au sujet: "Évaluation de la qualité d'une clusterisation"— Transcription de la présentation:

1 Évaluation de la qualité d'une clusterisation
Marine Campedel 29 novembre 2005

2 Motivations Mesure de qualité pour
Évaluer le nombre de clusters le plus adapté aux données (ou à l'algo de clusterisation ?) Comparer des algorithmes de clusterisation Évaluer la partition obtenue – qualité de la description des données obtenue

3 Qualité d'une clusterisation ?
Classification supervisée : on dispose de données étiquetées -> comptage des erreurs de prédiction, courbes ROC, … Cas non supervisé : les labels sont inconnus "stabilité" : qualité de la prédiction des étiquettes par les données (on se sert du résultat de clusterisation pour se ramener au cas supervisé) a priori : les données qui se ressemblent doivent avoir les mêmes labels

4 Qualité d'une clusterisation ?
Critères internes à relier au critère optimisé pendant l'opération de clusterisation Critères externes Comparaison avec une clusterisation de référence Indices divers reposant généralement sur des rapports de distance intra/extra clusters

5 Les indexes actuels Gèrent parfaitement des configurations patatoïdes bien séparées mais pas les autres. Idée 1 : se ramener à l'aide de fonction noyau, à une configuration patatoïde ; Idée 2 : proposer un index du même style qui permette d'analyser les configurations des données.

6 Nouvel index : NNI Taille du voisinage = % de la taille du cluster auquel appartient une donnée Résultat = une courbe fonction de ce %

7 Utilisation de NNI NNI global NNI des clusters et données
Comparaison de méthodes de clustering (en particulier sélection de modèles pour kernel KMeans) ; Estimation du nombre de clusters (pour kMeans par exemple). NNI des clusters et données Mesure de qualité des clusters ; Hypothèses sur la configuration des données.

8 Exemple 1

9 Exemple 1 Méthode KernelKMeans
Choix d'un noyau gaussien -> test de diverses valeurs

10 Exemple 1: résultat du meilleur clustering

11 Exemple 1: comparaison avec entropie et pureté

12 Exemple 1 : outliers

13 Exemple 1 : outliers

14 Exemple 2 : trouver K

15 Exemple 2 K? K est. 2 3 4 5 6 7 8 9 10

16 Conclusion NNI : indexe simple qui ouvre des perspectives intéressantes sur l'exploitation du résultat d'une clusterisation ou plutôt sur l'emploi d'une méthode de clusterisation ; Idée intéressante : courbe et non un seul point Distance calculée pour le voisinage : laquelle ? (N.B. : dans le cadre supervisé, peut-on s'en servir pour sélectionner un espace plus adéquat ?) Travaux futurs : exploitation dans les techniques de sélection non supervisée de caractéristiques (clusterisation des features). exploitation de la stabilité


Télécharger ppt "Évaluation de la qualité d'une clusterisation"

Présentations similaires


Annonces Google