Apprentissage semi-supervisé

Slides:



Advertisements
Présentations similaires
New opportunities offered by APHLIS 3 Les nouvelles opportunities qui soffrent avec APHLIS 3 JRC.
Advertisements

Les pronoms compléments
Questions about people Use Qui - either as subject or object. Qui est allé au cinéma? Avec qui est Jacques allé au cinéma? Qui is the subject of the verb.
Département fédéral de lintérieur DFI Office fédéral de la statistique OFS Implementing the economic classification revision (NACE / ISIC) in the Business.
Apprentissage spectral
Collège du Léman Everyone has a right to a their own cultural identity and to engage in their own traditions, provided that they don’t compromise the culture.
Le Passé Composé J'ai fini Elle a dansé Il a voyagé
The Partitive French 1 Ch 8. What is the partitive? When discussing food, you need to be able to indicate whether you are talking about a whole item or.
Primary French PowerPoints What’s Your Name?.
STEP 1 Bring an object you really like or which is important to you and hide it in your bag.
Revenir aux basiques !. 1 Revenir aux basiques Processus Nécessité daméliorer la Maîtrise les Offres et Projets: lanalyse des causes racines montre un.
Inforoute Santé du Canada Les défis de linteropérabilité en e-santé Mike Sheridan, Chef de lexploitation 19 mai 2006.
QCA Unit 4 Portraits – describing people Instructions for using these slides & attaching soundfiles if desired are in the notes pages beneath each slide.
Jalane is coming to Windsor You will interview her, in French, for the school paper. Page 127 # 5 You will interview her, in French, for the school paper.
interaction in the .LRN platform
Direct and Indirect Object Pronouns in French
Le Superlatif des Adjectifs
Formal/Theory Phenomenology/Ex periments chaos break-up, giant-resonances, fusion interdisciplinarity (clusters, bose) mean-field (as a general theory)
1 Découverte des Outils SI de Cadence Ecole dElectronique Numérique IN2P3 Roscoff 2006 Découverte des Outils dAnalyse dIntégrité du Signal de Cadence ®
Unité #4 Analyse numérique matricielle Giansalvo EXIN Cirrincione.
L ES ADJECTIFS SPÉCIAUX - BAGS Français 1 In French, most adjectives follow the noun that they modify. Par exemple – Elle est une élève intelligente.
Systems of Equations. A system of equations is a set of equations that have the same variables. A solution for the system is an assignment of variables.
Y and en Two little words with a lot of meaning. y.
TM.
Cliquez et modifiez le titre Cliquez pour modifier les styles du texte du masque Deuxième niveau Troisième niveau Quatrième niveau Cinquième niveau 1 Cliquez.
9e Année - Français Cadre
How to solve biological problems with math Mars 2012.
Nous avons visité… Unité 3: Voyageons!.
Les Adjectifs Interrogatifs
PROTECTION OF CONCEPTUAL ART BY COPYRIGHT IN FRANCE AND ENGLAND LA PROTECTION DE LART CONCEPTUEL PAR DROIT DAUTEUR EN FRANCE ET ANGLETERRE Tjasa Bobek.
AFNOR NF Z – "Online Consumer Reviews
Indefinite articles, plural of nouns
Proposition for a new policy for MAPMT Gain Control Sylvie Dagoret-Campagne LAL EUSO-BALLOON 8th Progress meeting1.
ALAI 2001, New York The protection of technological measures and the exceptions and limitations to copyright M e François Lajeunesse Avocat principal/Senior.
1 La promotion de la santé ancrée dans la loi Le mandat de Promotion Santé Suisse est ancré dans la loi fédérale du 18 mars 1994 sur lassurance maladie.
This, that and the other A few little words that cause problems!
On-line resource materials for policy making Ex-Ante Carbon-balance Tool Food and Agriculture Organization of the United Nations, FAO Apprendre à utiliser.
AGREEMENT. Subject-verb agreement Verbs agree with their subject in person and number When there is more than one subject linked by ni... ni... or soit...
TortoiseSVN N°. Subversion : pour quoi faire ? Avoir un espace de stockage commun – Tous les étudiants du SIGLIS ont un espace svn commun Partager vos.
Youth Involvement - revitalising the Scout Method Participation des jeunes - revitaliser la méthode scoute.
B.A.N.G.S! Adjectives.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
L’ensemble microcanonique
Introduction à la génomique structurelle
La pratique factuelle Années 90 un concept médical visant à optimiser les décisions cliniques face aux soins des patients Aujourdhui un concept évolutif,
Follow the directions on each slide. If you finish early you may work on an assignment for another class.
Mardi, le 21 Janvier 2014 Agenda du jour Les Verbes Réfléchis
ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.
Protein data bank (PDB) : structures (oct 2007) SCOP (Structural Classification Of Proteins): 971 folds (major structural similarity) 1586 super-families.
Apprentissage semi-supervisé
Cest mercredi le neuf octobre Le plan! 1.Révisions 2.Vocabulaire 3.Jouer 4.Ecouter 5.Parler Il fait beau! Le but! Les couleurs!
Un chat deux chats deux chiens Un chien deux chevaux Un cheval
CLS algorithm Step 1: If all instances in C are positive, then create YES node and halt. If all instances in C are negative, create a NO node and halt.
Les conjonctions The links that join… Without a conjunction, une phrase can not fonction…
LEÇON 90. Écrivez vos devoirs: A1, A2, A3, B1, B2, B3, C1, C2, C3... le livret entier. Tout de suite: C5: Situations. Choisissez une situation et écrivez.
Title of topic © 2011 wheresjenny.com Each and Every when to use ?
Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ
Les pronoms interrogatifs. Step 1: avec des prépositions  If the expression requires a preposition, the choices of pronouns differ  Common prepositions:
Mercredi, le 1 octobre Do the warm-up worksheet. You may use your notes from last class. Get out a sheet of notebook paper and label it “La famille”
Ministère de l’Éducation, du Loisir et du Sport Responsables des programmes FLS et ELA: Diane Alain et Michele Luchs Animateurs: Diane Alain et Michael.
Information Theory and Radar Waveform Design Mark R. bell September 1993 Sofia FENNI.
Let’s go back to the verb endings. What are our 3 infinitive endings? ER IR RE What is an infinitive? An unconjugated verb In other words, a verb in the.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
© and ® 2011 Vista Higher Learning, Inc.5A.1-1 Point de départ Like other commonly used verbs, the verb faire (to do, to make) is irregular in the present.
Clique Percolation Method (CPM)
IP Multicast Text available on
1 Sensitivity Analysis Introduction to Sensitivity Analysis Introduction to Sensitivity Analysis Graphical Sensitivity Analysis Graphical Sensitivity Analysis.
3rd February, 2016 Alstom Controlling. © ALSTOM All rights reserved. Information contained in this document is indicative only. No representation.
Over Sampling methods IMBLEARN Package Realised by : Rida benbouziane.
Transcription de la présentation:

Apprentissage semi-supervisé Extrait de : http://www.public.asu.edu/~jye02

Position du Problème Données avec labels Labels des données (0 ou 1) But : prédire les labels des données sans labels X y Données sans labels

Apprentissage semi-supervisé Apprentissage semi-supervisé pour améliorer les performances en combinant les données avec labels (peu) et sans labels (beaucoup) Classification semi-supervisée (discrimination) : entraîner sur des données avec labels et exploiter les données (beaucoup) sans labels pour améliorer les performances Clustering semi-supervisé : clustering des données sans labels en s'aidant des données avec labels ou paires de contraintes Clustering Apprentissage Semi-supervisé Classification

Hypothèse de classe Hypothèse de base pour la plupart des algorithmes d'apprentissage semi-supervisés Points proches ont probablement le même label de classe Deux points qui sont connectés par un chemin traversant des régions de forte densités doivent avoir le même label. Autrement dit les frontières de décision doivent appartenir à des régions de faible densité.

Classification Inductive vs.Transductive Transductive : Fournit le label uniquement pour les données disponibles non labellisées La sortie de la méthode n'est pas un classifieur Inductive: Produit non seulement des labels pour données non labellisées, mais aussi produit un classifieur

Exemple de Classification Semi-Supervisée . . . .

Exemple de Classification Semi-Supervisée . . . . . . . . . . . . . . . . . . . .

Exemple de Classification Semi-Supervisée . . . . . . . . . . . . . . . . . . . .

Deux approches algorithmiques Méthodes à base de classifieur. On part de l'état initial d'un classifieur et on l'améliore d'une manière itérative : EM semi-supervisé Co-Training Mélange d'information complet ou incomplet de données Méthodes à base de données. Découvrir la géométrie inhérente dans les données et l'exploiter pour rechercher un bon classifieur : Algorithmes à base de graphes Régularisation manifold Mélange harmonique Régularisation d'information hypothèses: Connu : un ensemble de classes de données avec labels But : améliorer la classification des exemples dans ces catégories connues

Clustering Semi-Supervisé Connaissance du domaine Information partielle Appliquer certaines contraintes (must-links et cannot links) Approches Search-based Semi-Supervised Clustering Modifier l'algorithme clustering en y intégrant les contraintes (must-links, cannot-links) Similarity-based Semi-Supervised Clustering Modifier la mesure de similarités basée sur les contraintes Combinaison des deux.

Clustering Semi-Supervisé : Exemple 1 . . . . . . . . . . . . . . . . . . . .

Clustering Semi-Supervisé : Exemple 1 . . . . . . . . . . . . . . . . . . . .

Clustering Semi-Supervisé : Exemple 2 . . . . . . . . . . . . . . . . . . . .

Clustering Semi-Supervisé : Exemple 2 . . . . . . . . . . . . . . . . . . . .

Clustering semi-supervisé : Entrée : Un ensemble d'objets sans labels, chacun est décrit par un ensemble d'attributs (numériques ou catégoriels) Une faible connaissance du domaine Sortie : Partitionnement des objets en k classes Objectif : Similarité intra-cluster maximum Similarité inter-cluster minimum Une grande consistance entre partition et connaissances du domaine

Pourquoi clustering semi-supervisé ? Pourquoi clustering seul insuffiant ? Les classes obtenues peuvent ne pas être ceux demandées Parfois, il y a plusieurs choix de groupements Pourquoi discrimination seule insuffisante ? Parfois on n'a pas assez de données avec labels Applications potentielles Bioinformatique (clustering gêne et protéine) Construction de hiérarchies de documents Catégorisation de News/email catégorisation d'Images

Classification semi-supervisée c'est quoi ? Utilise un faible nombre de données avec labels pour labelliser un grand nombre de données sans labels Labelliser est coûteux Idée de base Données similaires doivent avoir le même label de classe Exemples Classification pages Web Classification de documents Classification de protéines

K-Means Semi-Supervisé Seeded K-Means: Labeled data provided by user are used for initialization: initial center for cluster i is the mean of the seed points having label i. Seed points are only used for initialization, and not in subsequent steps. Constrained K-Means: Labeled data provided by user are used to initialize K-Means algorithm. Cluster labels of seed data are kept unchanged in the cluster assignment steps, and only the labels of the non-seed data are re-estimated.

Seeded K-Means Use labeled data to find the initial centroids and then run K-Means. The labels for seeded points may change.

Constrained K-Means Use labeled data to find the initial centroids and then run K-Means. The labels for seeded points will not change.

Constrained K-Means Example

Constrained K-Means Example Initialize Means Using Labeled Data

Constrained K-Means Example Assign Points to Clusters

Constrained K-Means Example Re-estimate Means and Converge

COP K-Means COP K-Means [Wagstaff et al.: ICML01] is K-Means with must-link (must be in same cluster) and cannot-link (cannot be in same cluster) constraints on data points. Initialization: Cluster centers are chosen randomly, but as each one is chosen any must-link constraints that it participates in are enforced (so that they cannot later be chosen as the center of another cluster). Algorithm: During cluster assignment step in COP-K-Means, a point is assigned to its nearest cluster without violating any of its constraints. If no such assignment exists, abort.

Illustration Determine its label Must-link x x Assign to the red class

Illustration Determine its label Cannot-link Assign to the red class x

Illustration Determine its label Must-link Cannot-link x x Cannot-link The clustering algorithm fails

COP K-Means Algorithm

Other search-based algorithms PC K-Means, Basu, et al. w is the penalty matrix Kernel-based semi-supervised clustering, Kulis, et al. Kernel K-Means reward

Overview of spectral clustering Compute the similarity matrix W and D. Form Form the matrix Y consisting of the first K eigenvectors of Normalize Y so that all the rows have unit lengths. Run K-Means on the rows to get the K clusters. (Ng, Jordan, and Weiss , NIPS’02) or Apply an iterative optimization to get the partition matrix. (Yu and Shi, ICCV’03)

Semi-supervised spectral clustering Compute the similarity matrix W and D. For each pair of must-link (i,j), assign For each pair of cannot-link (i,j), assign Form the matrix Form the matrix Y consisting of the first K eigenvectors of Normalize Y so that all the rows have unit lengths. Run K-Means on the rows to get the K clusters. (Ng, Jordan, and Weiss , NIPS’02) or Apply an iterative optimization to get the partition matrix. (Yu and Shi, ICCV’03)

Harmonic approach Paper: Semi-Supervised Learning Using Gaussian Fields and Harmonic functions. Zhu and et al. Basics Build the weighted graph The labels on the labeled data are fixed Determine the labels of the unlabeled data based on the cluster Assumption

Intuition is small Large weight Define a real-valued function f: V  R on G with certain properties. Goal: determine the label of unlabeled data by f. Intuition: Nearby points in the graph have the same label. Optimization problem: Compute optimal f such that E(f) is minimized, subject to the constraint that the values of f on labeled data are fixed. Large weight is small

Intuition Non-differentiable f: discrete Determine the labels via thresholding The values of f on labeled data are fixed.

Main idea is small Large weight Define a real-valued function f: V  R on G with certain properties. Goal: determine the label of unlabeled data by f. Intuition: Nearby points in the graph have the same label. Optimization problem: Compute optimal f such that E(f) is minimized, subject to the constraint that the values of f on labeled data are fixed. Large weight is small

Harmonic function on unlabeled points is the combinatorial laplacian. The optimization problem: The optimal solution f is harmonic: on unlabeled points where is the combinatorial laplacian.

Optimal solution in matrix form

Conclusion Domaine assez vaste : Clustering : K-means, Mixture, HMRF, Kernel K-means Projection : LLE, ISOMAP, Kernel PCA, ... On doit se consacrer à un champ particulier selon sa sensibilité Passer aux applications pour mettre en exergue la validité des approches