La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille.

Présentations similaires


Présentation au sujet: "Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille."— Transcription de la présentation:

1 Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille (LIF – CNRS)

2 Problème de Classification Chercher une attribution détiquettes de classe pour un ensemble dobjets: Naive-Bayes, Arbre de décision, Règles de prédiction, Règles associatives (RAs), … Problème de classification avec RAs: Le nombre de RAs est très grand. Contribution: Elagage des itemsets clés non essentiels en classification basée sur les RAs formées de petits itemsets clés.

3 Préliminaires Dataset: un ensemble dobjets. itemset: un ensemble ditems (ex: ad = {a, d}). k-itemset: un itemset de k items (ex: ad: 2-itemset). support dun itemset X par rapport à un dataset D: sup(X) = nombre objets de D contenant tous les items de X. Cbce4 Cabe3 Cabd2 Cacd1 Classe ItemsetOid sup(a) = 3, sup(aC) = 2. sup(ab) = 2, sup(abC) = 1.

4 Règles de Classification (RCs) R = X C, X: un itemset, C: une étiquette de classe. Obj O est couvert par R si O a tous les items de X. Obj O is correctement classé par R si O est couvert par R et O est réellement en classe C. Support: sup(R) = #objets correctement classés par R. Confiance: conf(R) = sup(R) / sup(X). sup(a C) = 2 et conf(a C) = Ordre de Précédence (<): R < R' (R précède R') si conf(R') < conf(R) ou conf(R) = conf(R') et sup(R') < sup(R), ou conf(R) = conf(R') et sup(R) = sup(R') et |LHS(R)| < |LHS(R')|.

5 Travaux Liés Calcul dItemsets Fréquents Algorithmes type Apriori : Générer les k-itemsets candidats sur les (k-1)-itemsets fréquents. Algorithmes type FP-growth: Stockage de datasets en mémoire: arbres préfixes. Extraction récursive en profondeur dabord des préfixes fréquents et les datasets conditionnels. Adaptation pour calculer les itemsets fermés et clés. X est fermé sil nexiste pas Y: X Y et sup(X) = sup(Y). X est clé sil nexiste pas Y: Y X et sup(X) = sup(Y).

6 Classification par Règles Associatives CBA (Liu et al. 98) extrait RAs utilisant Apriori, et sélection de RCs daprès lordre précédence. Chaque obj. est couvert par une seule RCs. CMAR (Li et al. 01) Similaire à CBA en utilisant FP- growth pour extraire RAs, mais chaque obj. est couvert par plusieurs règles du classifieur. HARMONY (Wang and Karypis 05) extrait RAs utilisant FP-growth, et chaque obj. a une liste de règles de confiance maximale qui correctement classifient lobjet. Par ordre de précédence ou par optimisations, les règles formées des itemsets clés ou de petites tailles sont préférées.

7 Contribution Généralisation dune propriété importante des itemsets non-clés. Notion d'itemset clé non-essentiel. L'application: optimiser la construction de classifieurs basée sur les RAs utilsant une technique dénumération de sous-ensembles dans un arbre de préfixes.

8 Définition: g(I) = {o O : i I, (o, i) R } Propriétés connues: Si X Y Z et sup(X) = sup(Y), alors … Z = (Z-Y) X Y et g(X) = g(Y). Doù g(Z) = g(Z-Y) g(X) g(Y) = g((Z-Y) X), et donc sup(Z) = sup((Z-Y) X). Si Y nest pas une clé, alors tout super-ens de Y ne l'est pas. g(X) g(Y) g(Z) Z Y X g(X)=g(Y) g(Z)

9 Généralisation Si X Y, alors g(X) - g(Y) = g(X) - g(Y-X). Si X Y Z, alors g((Z - Y) X) - g(Z) = g((Z - Y) X) - g(Y -X). Si X Y Z, alors g((Z - Y) X) - g(Z) g(X) - g(Y). Si X Y Z, alors sup((Z - Y) X) - sup(Z) sup(X) - sup(Y).

10 Clés Non Essentiels X Y, C X : A in C X, sup(XA) 0, C Y : A in C Y, sup(YA) 0, : risque derreur. Définition: X C X, Y ssi

11 Conjecture: Si X Y Z et X C |X|, Y, alors (Z-Y) X C (|Z-Y) X|, Z Arguments: la différence entre C ( Z-Y) X, et C X, est très petite. (sup((Z - Y) X) - sup(Z)) 2 (sup(X) - sup(Y)) 2, et

12 Arbres de préfixes ditemsets Déveloper larbre de préfixes de lobjet (acd: C)

13 Mettre à jour larbre avec lobjet (abd: C)

14 Extraction RAs avec Arbre de Préfixes Function Update(p, l, c): // simplifié if p is empty : create (p, hd(l), 1, (c, 1)); Update(chd(p), tl(l), c); Update(sib(p), tl(l), c); else if ival(p) < hd(l) : Update(sib(p), l, c); else: if ival(p) = hd(l) : update_node(p, c); else: create(q, hd(l), 1, (c, 1)); sib(q) = p; p = q; Update(chd(p), tl(l), c); Update(sib(p), tl(l), c);

15 chd(N): fils N; sib(N) : frère de N, per(N) : père de N. Cls_Max(N): enlever toutes étiq. de classes de support non maximal à N. Function Reduire(N, minsup, per(N), [ ]): if N is not null: if sup(N) < minsup or sup(N) = sup(per(N)) or eq (N, per(N), [ ]) : Elaguer N; Reduire(sib(p), k, per(N), [ ]); else: Cls_Max(N); Reduire(chd(N), N, [ ]); Reduire(sib(N), per(N), [ ]);

16 Construction darbre par niveaux Limiter la taille des itemsets dans la construction darbre de préfixes à 5. Déveloper larbre par niveaux: commencer avec i-itemsets, i 1, déveloper larbre au niveau k+j (k i, j 1) sur les itemsets du niveau précédent. Cette méthode généralise Apriori: i et j peuvent être > 1. Elle combine la génération des candidats et le calcul de leurs supports en une seule phase. La génération des candidats est basée sur le dataset et sur les itemsets du niveau précédent. Remarque: Pour la construction de classifieur, la contraintes de minsup est appliquée seulement pour les k-itemsets avec k 2.

17 Un exemple spécifique de la construction par niveaux Function Level_Build(D, p, max ), [ ]): for (i = 1; i max; i++) : Build( D, p, i ) ; LevelReduire(p, minsup, mot(p), [ ], i);

18 Construction du Classifieur Algorithme Général : Pour chaque objet, cherche dans larbre de préfixes les RAs de confiance et support maximaux qui classe correctement lobjet pour mettre dans le classifieur (les fonctions Match et AddRule). Suppression de Règles: Soit R la règle considérée pour mettre dans le classifieur et Rc la règle du classifieur courament comparée avec R. Si R et Rc ont la même étiquette de classe et LHS(rc) LHS(r) et conf(r) conf(rc) alors R est rejetée.

19 Function BuildClassifier(D, p) : Classifier = ; For each object (l: c) of the training dataset f : lnd = empty; Match(p, l, c, lnd); For each node N of lnd : build a CAR R(N) with class label c; Classifier = AddRule(R(N), Classifier); Return Classifier;

20 Test de Classification Classer un object de test t: Pour chaque étiquette de classe c, chercher dans le classifieur toutes les règles qui couvrent t, puis calculer la somme de confiances de ces règles. Classer t dans la classe correspondant à la somme maximale.

21 Expérimentation Lapproche, SIM, a plusieurs points communs avec HARMONY, qui est meilleur que plusieurs approches, en général. Implémentation: Laptop (Pentium 4, 1.7 GHz mobile, 768 MB). - SIM implémenté en C, Linux version lexécutable HARMONY est fournie par ses auteurs. Paramètrage pour les tests 10-fold validation: minsup = 50. Pour connect, considérer les items dont supports < 20,000. Pour HARMONY, les items sont triés dans lodre croissant des coefficients de correlation (avec lequel HARMONY a les meilleurs résultats). Pour SIM, minsup est appliqué seulement aux k-itemsets avec k 2. Extraction ditemsets commence avec la taille 2, et pour tout k-itemsets, k 5, = 0,005.

22 Résultats de HARMONY (rapportés par Wang et Karypis 2005)

23 Résultats de HARMONY et SIM obtenus par ce travail SIMHARMONY

24 Comparaison de SIM and SIM avec clés essentiels SIMSIM/ clés essentiels

25 Discussion et conclusion Niveau de temps dexécution: Pour les datasets des objets courts, SIM est plus lent que HARMONY: - SIM lit les donnése toujours du disque, - SIM nélimine pas de k-itemsets infrequents pour k > 2; - Le nombre de règles dans chaque classifieur est beaucoup plus grand. Pour les datasets des objets longs, HARMONY est plus lent que SIM: HARMONY peut considérer les itemsets de toute tailles, tandis que SIM ne considère que les itemsets clés de petites tailles (< 6). Niveau de précision: En moyenne, SIM est plus précis. Avec le temps dexécution 4 fois plus court, la prédiction par SIM est 2.5% plus précise que celle dHARMONY, en moyenne. Lutilisation des RCs aux itemsets clés de petites tailles évite les classifieurs trop spécifiques et réduire le temps dexécution. La notion ditemset clé non essentiel est utile et leur suppression optimise la construction de classifieurs, sans vraiement affecter leur précision.


Télécharger ppt "Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille."

Présentations similaires


Annonces Google