La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard.

Présentations similaires


Présentation au sujet: "EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard."— Transcription de la présentation:

1 EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard (LIMSI) CNRS - Université de Paris-Sud, Orsay

2 2/36 Journée « Fouille dimages » 01/04/03 Données en grandes dimensions Définies par un très grand nombre dattributs (Note : lun des 10 pbs soulevés lors du congrès mondial de mathématiques en 2000) Exemples : Puces ADN E.g gènes, å organismes sains ou irradiés Images E.g. 256*256*(256 niveaux de gris) å Formes présentes dans limage

3 3/36 Journée « Fouille dimages » 01/04/03 Lobjectif Apprentissage supervisé multi-classes Beaucoup de dimensions + peu dexemples = Difficulté pour distinguer vraies régularités et coïncidences å Identifier des régularités dans des données de très grandes dimensions

4 4/36 Journée « Fouille dimages » 01/04/03 Prétraitements Réduction de dimension Sélection dattributs ACP Élimination des redondances (ACP, …) Recherche de corrélations (attribut-classe) Modélisation : hypothèses sur la statistique du signal Fourrier Analyse de Fourrier ondelettes Analyse en ondelettes

5 5/36 Journée « Fouille dimages » 01/04/03 Cas de lanalyse de scènes Scènes naturelles scènes artificielles Observations neurobiologiques : codage clairsemé Hypothèse : signal résultant dune superposition de « formes latentes » å Analyse en composantes indépendantes (ACI)

6 6/36 Journée « Fouille dimages » 01/04/03 Lanalyse en composantes indépendantes Mais : Inapplicable en grande dimension Hypothèse de linéarité ( Introduite en Développée dans les 90s ) Hyp. de base : les données résultent dune combinaison linéaire de formes latentes å Recherche de ces formes latentes

7 7/36 Journée « Fouille dimages » 01/04/03 LACI en analyse de scènes Les scènes sont décomposées en imagettes … … codées par des superpositions linéaires de formes latentes

8 8/36 Journée « Fouille dimages » 01/04/03 Le projet Peut-on rechercher directement un codage clairsemé ? Peut-on rechercher directement un codage clairsemé ? adapter des techniques de fouilles de données Idée : adapter des techniques de fouilles de données å Recherche de motifs fréquents

9 9/36 Journée « Fouille dimages » 01/04/03 Les motifs fréquents Le problème Étant donné une base de données consistant en tuples, trouver des règles dassociation prédisant avec confiance quels items se trouvent souvent ensemble (Frequent ItemSets) Exemple canonique (mais mythique) Les caddys dans les supermachés Un tuple = ensemble ditems achetés ensemble En général : Beaucoup de motifs fréquents Mais peu qui soient vérifiés ensemble Codage clairsemé å Codage clairsemé

10 10/36 Journée « Fouille dimages » 01/04/03 Contraintes sur les motifs Représentativité suffisant Chaque image correspond à un nombre suffisant de motifs Codage clairsemé limité Chaque image correspond à un nombre limité de motifs Orthogonalité des motifs peu dimages en commun Chaque couple de motifs a peu dimages en commun Contraintes sémantiques + Contraintes sémantiques connexes E.g. : motifs connexes (zones de limage) en ligne E.g. : motifs en ligne (contours) …

11 11/36 Journée « Fouille dimages » 01/04/03 Les données Base dimages tirées de la base COREL 12 classes différentes de scènes Base de 1080 images (90 images / classe) 128 x 128 = en 128 niveaux de gris ou : 64 x 64 = 4096 en 32 ou 16 niveaux de gris On utilise 540 images pour chercher 1000 motifs fréquents

12 12/36 Journée « Fouille dimages » 01/04/03 La base dimages

13 13/36 Journée « Fouille dimages » 01/04/03 Constat Lapplication directe de AP RIORI est impossible Il y a trop de motifs fréquents Pour images 32 x 32 en 64 niveaux de gris å Il faut adapter lalgorithme et faire une recherche stochastique et non plus exhaustive Nb. élts / motif Nb motifs , , ,5 10 9

14 14/36 Journée « Fouille dimages » 01/04/03 Adaptation de lalgorithme Recherche itérative et stochastique de motifs fréquents Paramètres : taux de couverture. Nombre de motifs cherchés = N Nombre de motifs trouvés = n Tant que n N faire Choix dans un exemple x i encore peu couvert dun premier atome a 0 présent dans au moins des exemples motif <- a 0 Tant que taux de couverture de motif > faire Tirer au hasard un atome a de x i couvrant au moins des exemples et peu utilisé dans les motifs existants et satisfaisant les contraintes sémantiques Si motif+a couvre au moins des exemple alors motif <- motif +a fin si Fin tant que

15 15/36 Journée « Fouille dimages » 01/04/03 Les expériences Nouvelles contraintes (choix des pixels) Min : les moins présents dans les motifs Connexe : touchant les précédents Ligne : formant des lignes Paramètres Taille image : 64 x 64 x 16 (niveaux de gris) Taux de couverture : 1, 2, 5, 10 %

16 16/36 Journée « Fouille dimages » 01/04/03 Codage clairsemé Nb de FIS / images = 1% = 2% = 5% = 5%

17 17/36 Journée « Fouille dimages » 01/04/03 Codage clairsemé Nb de FIS / images = 1% = 2% = 5% = 5%

18 18/36 Journée « Fouille dimages » 01/04/03 Orthogonalité Nb images par couple de motifs = 1% = 2% = 5% = 5%

19 19/36 Journée « Fouille dimages » 01/04/03 FIS : min_1%

20 20/36 Journée « Fouille dimages » 01/04/03 FIS : min_1%

21 21/36 Journée « Fouille dimages » 01/04/03 FIS : connexe_1%

22 22/36 Journée « Fouille dimages » 01/04/03 FIS : connexe_1%

23 23/36 Journée « Fouille dimages » 01/04/03 FIS : ligne_1%

24 24/36 Journée « Fouille dimages » 01/04/03 FIS : ligne_1%

25 25/36 Journée « Fouille dimages » 01/04/03 Analyse Difficilement interprétables !! Pas de contours, même quand contraintes dans ce sens Malheureusement pas de comparaison possible avec ACI puisque ACI non praticable

26 26/36 Journée « Fouille dimages » 01/04/03 La classification : le protocole Apprentissage dune base de 1000 motifs sur 540 images Les paramètres : Taille image (32 x 32, 64 x 64 ou 128 x 128) Niveaux de gris (16, 32 ou 64) Taux de couverture (1%, 2%, 5% ou 10%) Note : T ous les résultats sont disponibles sur : å Test sur les 540 images restantes (répété 10 fois)

27 27/36 Journée « Fouille dimages » 01/04/03 La classification : la méthode exempledécrit par ses motifs Chaque exemple (dans X ) est décrit par ses motifs (dans ( X )) classé par une méthode de plus proches voisins Un nouvel exemple est classé par une méthode de plus proches voisins (dans lespace de redescription ( X ) ) 1-ppv ou k-ppv avec pondération en fonction de la distance X ( X ) x x

28 28/36 Journée « Fouille dimages » 01/04/03 Performances ( = 5%)

29 29/36 Journée « Fouille dimages » 01/04/03 Avec un réseau de neurones RBF

30 30/36 Journée « Fouille dimages » 01/04/03 Comparaison

31 31/36 Journée « Fouille dimages » 01/04/03 Performances en classification Résultats Meilleurs résultats pour = 2 ou 5 % Assez comparable : min, connexe, ligne Bien meilleurs que méthode RN Peut mieux faire … Avec un appariement plus souple

32 32/36 Journée « Fouille dimages » 01/04/03 Analyse Pourquoi ça marche (si bien) ? Recodage non supervisé !! Puis une méthode de plus proche(s) voisin(s) Quelles sont les propriétés de ce recodage ? Quelles sont les propriétés de ce recodage ? X ( X ) x x

33 33/36 Journée « Fouille dimages » 01/04/03 Codage dune image Image Motifs présents dans limage Partie de limage couverte par les motifs

34 34/36 Journée « Fouille dimages » 01/04/03 Approches classiques Analyse fonctionnelle +/- 444 PCA 444 Apprent. artificiel 44 ICA 4 Réduction Approximation Orthogonalité Indép. des données … et moins classiques

35 35/36 Journée « Fouille dimages » 01/04/03 Ne permet pas la reconstruction des entrées Les motifs sont orthogonaux : mais par rapport aux exemples dapprentissage !! Espace Tous les points dapprentissage sont orthogonaux dans cet espace Le codage par motifs fréquents

36 36/36 Journée « Fouille dimages » 01/04/03 Conclusion Analyse théorique en cours Expérimentations sur les scènes naturelles (poursuite du travail) sur les puces ADN sur la classification de textes de NewsGroups Peut-être un nouveau type de traitement du signal à Peut-être un nouveau type de traitement du signal


Télécharger ppt "EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard."

Présentations similaires


Annonces Google