Apprentissage semi-supervisé Extrait de : http://www.public.asu.edu/~jye02
Position du Problème Données avec labels Labels des données (0 ou 1) But : prédire les labels des données sans labels X y Données sans labels
Apprentissage semi-supervisé Apprentissage semi-supervisé pour améliorer les performances en combinant les données avec labels (peu) et sans labels (beaucoup) Classification semi-supervisée : entraîner sur des données avec labels et exploiter les données (beaucoup) sans labels Clustering semi-supervisé : clustering des données sans labels en s'aidant des données avec labels Clustering Apprentissage Semi-supervisé Classification
Hypothèse de classe Hypothèse de base pour la plupart des algorithmes d'apprentissage semi-supervisés Points proches ont probablement le même label de classe Deux points qui sont connectés par un chemin traversant des régions de forte densités doivent avoir le même label
Classification Semi-Supervisée
Exemple de Classification Semi-Supervisée . . . .
Exemple de Classification Semi-Supervisée . . . . . . . . . . . . . . . . . . . .
Exemple de Classification Semi-Supervisée . . . . . . . . . . . . . . . . . . . .
Classification Semi-Supervisée Algorithmes: EM Semi-supervisé [Ghahramani:NIPS94,Nigam:ML00]. Co-training [Blum:COLT98]. Transductive SVM’s [Vapnik:98,Joachims:ICML99]. Algorithmes à base de Graphes [Blum:ICML01, Joachims:ICML03,Zhu:ICML03,ZHOU:NIPS03] hypothèses: Connu : un ensemble de catégories de données avec labels But : améliorer la classification des exemples dans ces catégories connues
Clustering Semi-Supervisé
Clustering Semi-Supervisé : Exemple 1 . . . . . . . . . . . . . . . . . . . .
Clustering Semi-Supervisé : Exemple 1 . . . . . . . . . . . . . . . . . . . .
Clustering Semi-Supervisé : Exemple 2 . . . . . . . . . . . . . . . . . . . .
Clustering Semi-Supervisé : Exemple 2 . . . . . . . . . . . . . . . . . . . .
Clustering semi-supervisé : Entrée : Un ensemble d'objets sans labels, chacun est décrit par un ensemble d'attributs (numériques ou catégoriels) Une faible connaissance du domaine Sortie : Partitionnement des objets en k classes Objectif : Similarité intra-cluster maximum Similarité inter-cluster minimum Une grande consistance entre partition et connaissances du domaine
Pourquoi clustering semi-supervisé ? Why not clustering? Les classes obtenues peuvent ne pas être ceux demandés Parfois, il y a plusieurs choix de groupements Why not classification? Parfois on n'a pas assez de données avec labels Applications potentielles Bioinformatique (gene et protein clustering) Construction de hiérarchies de documents Categorisation de News/email categorisation d'Images
Clustering Semi-Supervisé Deux type de connaissances Informations partielles sur les labels Appliquer certaines contraintes (must-links et cannot-links) Approches Search-based Semi-Supervised Clustering Alter the clustering algorithm using the constraints Similarity-based Semi-Supervised Clustering Alter the similarity measure based on the constraints Combination of both
Classification semi-supervisée c'est quoi ? Utilise un faible nombre de données avec labels pour labelliser un grand nombre de données sans labels Labelliser est coûteux Idée de base Données similaires doivent avoir le même label de classe Exemples Classification pages Web Classification de documents Classification de protéines