Évaluation de la qualité d'une clusterisation

Slides:



Advertisements
Présentations similaires
LE RECRUTEMENT.
Advertisements

Apprentissage spectral
Analyse en composante indépendante
Regroupement (clustering)
Introduction aux classes empiétantes François Brucker Brest (Breizh)
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
Regroupement (clustering)
RECONNAISSANCE DE FORMES
Marine Campedel mars 2005 INDEXATION des IMAGES Marine Campedel mars 2005.
Image et apprentissage
Sélection et classification : avancement Marine Campedel 22 mars 2005.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Codage de la parole à très bas débit avec des unités ALISP
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Outils chimiques pour létude des biomolécules 2 ème partie : Outils chimiques théorique : Modélisation Moléculaire 2) La modélisation moléculaire : optimisation.
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
Piecewise Affine Registration of Biological Images
Xialong Dai, Siamak Khorram
Apprentissage et Fouille de Données
Journées Graphes & Algorithmes, Novembre 2006, Orléans
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Sélection automatique d’index et de vues matérialisées
Présentation: NGOK Emmanuel Expert en comptabilité nationale AFRISTAT
Le modèle de Bayes Christelle Scharff IFI La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.
Apprendre à partir des observations
Travaux Initiative Personnels Encadrés
Application des algorithmes génétiques
Auto-organisation dans les réseaux ad hoc
RECONNAISSANCE DE FORMES
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Construction de modèles visuels
La segmentation
Plan d’expérience dynamique pour la maximisation
Alignement de séquences (suite)
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Étude expérimentale de la robustesse d’une commande prédictive d’un procédé de cuisson sous infrarouge de peintures en poudre Bruno da Silva, Isabelle.
Universté de la Manouba
Apprentissage semi-supervisé
Les changements de numéraire dans la tarification d’options
Serrure biométrique Reconnaissance dempreintes digitales Raphaël FROMONT – Pascal GRIMAUD – Nicolas MUNOZ Tuteur : M. Patrick ISOARDI.
Recherche d’ensembles chromatiques
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Introduction à la reconnaissance:
Apprentissage (III) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.
Etude et test des algorithmes d'estimation de mouvement en MPEG
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Classification : objectifs
Une méthode de prévision à un pas de temps Application à la prévision de la qualité de l’air S. Canu, Ph. Leray, A. Rakotomamonjy laboratoire PSI, équipe.
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
Sériation et traitement de données archéologiques
Travaux Pratiques Optimisation Combinatoire
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
Classification de données par l’algorithme FPSO-GA
Sujets spéciaux en informatique I
1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche.
Mise en correspondance de deux maillages bruités
Knowledge discovery in Databases (KDD)
Probabilités et statistique Test d’hypothèse de deux moyennes
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
Événements extrêmes et Régimes de Temps
1 Prédiction de mobilité basée sur la classification selon le profil DAOUI Mehammed Université Mouloud Mammeri Tizi-Ouzou Rencontres sur.
Projet Drones et Modèles Numériques de Surface Evaluation de qualité de Modèles Numériques de Surface acquis par drones.
Reconnaissance d’objets 3D –point de vue complètement différent –pas d’invariant 3D Difficultés :
Catherine Leduc, conseillère d’orientation
Prédiction du niveau de certification des établissements de santé Soutenance de stage 12 septembre 2012 Benjamin Robillard.
Transcription de la présentation:

Évaluation de la qualité d'une clusterisation Marine Campedel www.tsi.enst.fr/~campedel 29 novembre 2005

Motivations Mesure de qualité pour Évaluer le nombre de clusters le plus adapté aux données (ou à l'algo de clusterisation ?) Comparer des algorithmes de clusterisation Évaluer la partition obtenue – qualité de la description des données obtenue

Qualité d'une clusterisation ? Classification supervisée : on dispose de données étiquetées -> comptage des erreurs de prédiction, courbes ROC, … Cas non supervisé : les labels sont inconnus "stabilité" : qualité de la prédiction des étiquettes par les données (on se sert du résultat de clusterisation pour se ramener au cas supervisé) a priori : les données qui se ressemblent doivent avoir les mêmes labels

Qualité d'une clusterisation ? Critères internes à relier au critère optimisé pendant l'opération de clusterisation Critères externes Comparaison avec une clusterisation de référence Indices divers reposant généralement sur des rapports de distance intra/extra clusters

Les indexes actuels Gèrent parfaitement des configurations patatoïdes bien séparées mais pas les autres. Idée 1 : se ramener à l'aide de fonction noyau, à une configuration patatoïde ; Idée 2 : proposer un index du même style qui permette d'analyser les configurations des données.

Nouvel index : NNI Taille du voisinage = % de la taille du cluster auquel appartient une donnée Résultat = une courbe fonction de ce %

Utilisation de NNI NNI global NNI des clusters et données Comparaison de méthodes de clustering (en particulier sélection de modèles pour kernel KMeans) ; Estimation du nombre de clusters (pour kMeans par exemple). NNI des clusters et données Mesure de qualité des clusters ; Hypothèses sur la configuration des données.

Exemple 1

Exemple 1 Méthode KernelKMeans Choix d'un noyau gaussien -> test de diverses valeurs

Exemple 1: résultat du meilleur clustering

Exemple 1: comparaison avec entropie et pureté

Exemple 1 : outliers

Exemple 1 : outliers

Exemple 2 : trouver K

Exemple 2 K? K est. 2 3 4 5 6 7 8 9 10

Conclusion NNI : indexe simple qui ouvre des perspectives intéressantes sur l'exploitation du résultat d'une clusterisation ou plutôt sur l'emploi d'une méthode de clusterisation ; Idée intéressante : courbe et non un seul point Distance calculée pour le voisinage : laquelle ? (N.B. : dans le cadre supervisé, peut-on s'en servir pour sélectionner un espace plus adéquat ?) Travaux futurs : exploitation dans les techniques de sélection non supervisée de caractéristiques (clusterisation des features). exploitation de la stabilité