Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille.

Slides:



Advertisements
Présentations similaires
LA BOÎTE À DÎNER VERTE Un projet d’initiative verte
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
S. Jouteau, A. Cornuéjols, M. Sebag (LRI)
Economie expérimentale : de la théorie aux jeux
Data Mining.
Classification et prédiction
Règles d’association.
Apprentissage supervisé à partir de séquences
RECONNAISSANCE DE FORMES
Classification supervisée Marine Campedel avril 2005.
Extraction des connaissances dans les bases de données
Entre construction théorique et mise en œuvre opérationnelle
Cliques & Bicliques Maximales
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
(Allemagne 96) Un triangle A'B'C' rectangle en A' et d'aire 27 cm2 est un agrandissement d'un triangle ABC rectangle en A et tel que AB = 3 cm et AC =
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
Chapitre VIII Structures dobjets. Chapitre VIII - Structures d'objets2 Structures d objets Il existe plusieurs relations entre les classes. Lhéritage.
DEA Perception et Traitement de l’Information
LES PROPRIÉTÉS DU PARALLÉLOGRAMME.
Programme de baccalauréat en informatique Programmation Orientée Objets IFT Thierry EUDE Module 5 : La surcharge des opérateurs Département dinformatique.
MOT Éditeur de modèles de connaissances par objets typés
ACTIVITES MENTALES Collège Jean Monnet Préparez-vous !
Leçon 1 : notion dobjet IUP Génie Informatique Besançon Méthode et Outils pour la Programmation Françoise Greffier Université de Franche-Comté.
Apprentissage par arbre de décision
(Amiens 99) L’aire du triangle ADE est 54 cm2.
METHODE DESCPIPTIVE : ASSOCIATION
Chapitre 14 – Compétence 1 page 251Avec Cabri géomètre.
1 Samir Tata Contrôle des interactions dans les applications coopératives.
Bordeaux - Juin HAL – Le contenu / Les acteurs
Apprentissage (III) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.
Vers une analyse syntaxique à granularité variable Tristan Van rullen
GENES LIES GENES NON LIES
Classification : objectifs
Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet
Université de Provence (Aix-Marseille I)
LE DIAGRAMME DE PARETO:
Contrôle d’accès sur le client pour des documents XML Luc Bouganim, François Dang-Ngoc, Philippe Pucheral INRIA Rocquencourt & Université de Versailles.
L ’ESSENTIEL SUR LE THEOREME DE PYTHAGORE. 1. Le théorème de Pythagore
L ’ESSENTIEL SUR LE THEOREME DE PYTHAGORE. 1. Le théorème de Pythagore
S. Canu, laboratoire PSI, INSA de Rouen
Structures de données avancées : MBT ( Multidimensional B-trees )
La réciproque du théorème de Pythagore (14)
Faculté des Sciences.
A D C B E (Rouen 98) Le dessin ci-contre n'est pas en vraie grandeur. Sur cette figure, l'unité est le centimètre. On donne les longueurs suivantes :
Chapitre 1. Du constat à l’objectif de recherche
Correction exercice Caen 96
Éléments de géométrie (1)
Soutenance de Stage DEA / DESS
Abdelkader Heni FUNDP Syntaxe et sémantique Abdelkader Heni FUNDP
Sur cette figure, l'unité est le centimètre.
Classe de 5 ème - Collège Charles-Péguy Calculez en respectant les règles sur les fractions :  1 er calcul :
Le parallélogramme (14) Définition
ACTIVITES PRELIMINAIRES
1 Adapté à partir du document de T Diaz Le rallye mathématique transalpin. Un support d'activité favorisant la recherche par l'action, le raisonnement.
Introduction à la Programmation Orientée Objet
Les objets de la classe de classe. Qu'est-ce que c'est? C'est...
Structure globale du logiciel L’efficacité du programme repose : sur ces nombreuses listes de données : -Liste de membres -Liste d’administrateurs -Liste.
Activités Mentales Classe 6 e Test n°8. Consignes  Chaque question restera un certain temps à l’écran et tu ne devras rien écrire pendant ce temps. 
Racines carrées I- Calculer le carré d’un nombre:
B A C Les Hypothèses ABC est un triangle * I est le milieu du côté [AB ] * La droite d contient le point I et est parallèle à la droite (BC) I La droite.
Corrigé : Fiche 2 Agrandissement et réduction. 1)C’est le triangle ABC 2)C’est le triangle IJK 3) IJ = AB x 3 = 3 x 3 = 9 cm IK = AC x 3 = 7 x 3 = 21.
PERIODE 1 Tapis: obj: explorer le monde des objets Table 1: obj: développer sa motricité fine Table 2:obj: apprendre à jouer ensemble Table 3: obj: maîtriser.
IFT 501 Recherche d'information et forage de données Chaptitre 6 : Analyse d’association concepts de base et algorithmes André Mayers Automne 2014 inspiré.
Catégoriser pour comprendre Développement des concepts d'objets chez l'enfant D’après Françoise Bonthoux Laboratoire de Psychologie et Neurocognition (associé.
Statistiques de mortalité Geneviève Botti Hôpital Timone adultes Marseille 2004.
(a)(b) (a) (d).
X a A(6, 3) 1 d 116.5° b d = (-2, 4) 4.47 B(4, 7) y.
Comment peut-on expliquer la fixation des salaires ? plan alternatif
A b c. a b ab ab.
Nous ont fait confiance….
Transcription de la présentation:

Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille (LIF – CNRS)

Problème de Classification Chercher une attribution détiquettes de classe pour un ensemble dobjets: Naive-Bayes, Arbre de décision, Règles de prédiction, Règles associatives (RAs), … Problème de classification avec RAs: Le nombre de RAs est très grand. Contribution: Elagage des itemsets clés non essentiels en classification basée sur les RAs formées de petits itemsets clés.

Préliminaires Dataset: un ensemble dobjets. itemset: un ensemble ditems (ex: ad = {a, d}). k-itemset: un itemset de k items (ex: ad: 2-itemset). support dun itemset X par rapport à un dataset D: sup(X) = nombre objets de D contenant tous les items de X. Cbce4 Cabe3 Cabd2 Cacd1 Classe ItemsetOid sup(a) = 3, sup(aC) = 2. sup(ab) = 2, sup(abC) = 1.

Règles de Classification (RCs) R = X C, X: un itemset, C: une étiquette de classe. Obj O est couvert par R si O a tous les items de X. Obj O is correctement classé par R si O est couvert par R et O est réellement en classe C. Support: sup(R) = #objets correctement classés par R. Confiance: conf(R) = sup(R) / sup(X). sup(a C) = 2 et conf(a C) = Ordre de Précédence (<): R < R' (R précède R') si conf(R') < conf(R) ou conf(R) = conf(R') et sup(R') < sup(R), ou conf(R) = conf(R') et sup(R) = sup(R') et |LHS(R)| < |LHS(R')|.

Travaux Liés Calcul dItemsets Fréquents Algorithmes type Apriori : Générer les k-itemsets candidats sur les (k-1)-itemsets fréquents. Algorithmes type FP-growth: Stockage de datasets en mémoire: arbres préfixes. Extraction récursive en profondeur dabord des préfixes fréquents et les datasets conditionnels. Adaptation pour calculer les itemsets fermés et clés. X est fermé sil nexiste pas Y: X Y et sup(X) = sup(Y). X est clé sil nexiste pas Y: Y X et sup(X) = sup(Y).

Classification par Règles Associatives CBA (Liu et al. 98) extrait RAs utilisant Apriori, et sélection de RCs daprès lordre précédence. Chaque obj. est couvert par une seule RCs. CMAR (Li et al. 01) Similaire à CBA en utilisant FP- growth pour extraire RAs, mais chaque obj. est couvert par plusieurs règles du classifieur. HARMONY (Wang and Karypis 05) extrait RAs utilisant FP-growth, et chaque obj. a une liste de règles de confiance maximale qui correctement classifient lobjet. Par ordre de précédence ou par optimisations, les règles formées des itemsets clés ou de petites tailles sont préférées.

Contribution Généralisation dune propriété importante des itemsets non-clés. Notion d'itemset clé non-essentiel. L'application: optimiser la construction de classifieurs basée sur les RAs utilsant une technique dénumération de sous-ensembles dans un arbre de préfixes.

Définition: g(I) = {o O : i I, (o, i) R } Propriétés connues: Si X Y Z et sup(X) = sup(Y), alors … Z = (Z-Y) X Y et g(X) = g(Y). Doù g(Z) = g(Z-Y) g(X) g(Y) = g((Z-Y) X), et donc sup(Z) = sup((Z-Y) X). Si Y nest pas une clé, alors tout super-ens de Y ne l'est pas. g(X) g(Y) g(Z) Z Y X g(X)=g(Y) g(Z)

Généralisation Si X Y, alors g(X) - g(Y) = g(X) - g(Y-X). Si X Y Z, alors g((Z - Y) X) - g(Z) = g((Z - Y) X) - g(Y -X). Si X Y Z, alors g((Z - Y) X) - g(Z) g(X) - g(Y). Si X Y Z, alors sup((Z - Y) X) - sup(Z) sup(X) - sup(Y).

Clés Non Essentiels X Y, C X : A in C X, sup(XA) 0, C Y : A in C Y, sup(YA) 0, : risque derreur. Définition: X C X, Y ssi

Conjecture: Si X Y Z et X C |X|, Y, alors (Z-Y) X C (|Z-Y) X|, Z Arguments: la différence entre C ( Z-Y) X, et C X, est très petite. (sup((Z - Y) X) - sup(Z)) 2 (sup(X) - sup(Y)) 2, et

Arbres de préfixes ditemsets Déveloper larbre de préfixes de lobjet (acd: C)

Mettre à jour larbre avec lobjet (abd: C)

Extraction RAs avec Arbre de Préfixes Function Update(p, l, c): // simplifié if p is empty : create (p, hd(l), 1, (c, 1)); Update(chd(p), tl(l), c); Update(sib(p), tl(l), c); else if ival(p) < hd(l) : Update(sib(p), l, c); else: if ival(p) = hd(l) : update_node(p, c); else: create(q, hd(l), 1, (c, 1)); sib(q) = p; p = q; Update(chd(p), tl(l), c); Update(sib(p), tl(l), c);

chd(N): fils N; sib(N) : frère de N, per(N) : père de N. Cls_Max(N): enlever toutes étiq. de classes de support non maximal à N. Function Reduire(N, minsup, per(N), [ ]): if N is not null: if sup(N) < minsup or sup(N) = sup(per(N)) or eq (N, per(N), [ ]) : Elaguer N; Reduire(sib(p), k, per(N), [ ]); else: Cls_Max(N); Reduire(chd(N), N, [ ]); Reduire(sib(N), per(N), [ ]);

Construction darbre par niveaux Limiter la taille des itemsets dans la construction darbre de préfixes à 5. Déveloper larbre par niveaux: commencer avec i-itemsets, i 1, déveloper larbre au niveau k+j (k i, j 1) sur les itemsets du niveau précédent. Cette méthode généralise Apriori: i et j peuvent être > 1. Elle combine la génération des candidats et le calcul de leurs supports en une seule phase. La génération des candidats est basée sur le dataset et sur les itemsets du niveau précédent. Remarque: Pour la construction de classifieur, la contraintes de minsup est appliquée seulement pour les k-itemsets avec k 2.

Un exemple spécifique de la construction par niveaux Function Level_Build(D, p, max ), [ ]): for (i = 1; i max; i++) : Build( D, p, i ) ; LevelReduire(p, minsup, mot(p), [ ], i);

Construction du Classifieur Algorithme Général : Pour chaque objet, cherche dans larbre de préfixes les RAs de confiance et support maximaux qui classe correctement lobjet pour mettre dans le classifieur (les fonctions Match et AddRule). Suppression de Règles: Soit R la règle considérée pour mettre dans le classifieur et Rc la règle du classifieur courament comparée avec R. Si R et Rc ont la même étiquette de classe et LHS(rc) LHS(r) et conf(r) conf(rc) alors R est rejetée.

Function BuildClassifier(D, p) : Classifier = ; For each object (l: c) of the training dataset f : lnd = empty; Match(p, l, c, lnd); For each node N of lnd : build a CAR R(N) with class label c; Classifier = AddRule(R(N), Classifier); Return Classifier;

Test de Classification Classer un object de test t: Pour chaque étiquette de classe c, chercher dans le classifieur toutes les règles qui couvrent t, puis calculer la somme de confiances de ces règles. Classer t dans la classe correspondant à la somme maximale.

Expérimentation Lapproche, SIM, a plusieurs points communs avec HARMONY, qui est meilleur que plusieurs approches, en général. Implémentation: Laptop (Pentium 4, 1.7 GHz mobile, 768 MB). - SIM implémenté en C, Linux version lexécutable HARMONY est fournie par ses auteurs. Paramètrage pour les tests 10-fold validation: minsup = 50. Pour connect, considérer les items dont supports < 20,000. Pour HARMONY, les items sont triés dans lodre croissant des coefficients de correlation (avec lequel HARMONY a les meilleurs résultats). Pour SIM, minsup est appliqué seulement aux k-itemsets avec k 2. Extraction ditemsets commence avec la taille 2, et pour tout k-itemsets, k 5, = 0,005.

Résultats de HARMONY (rapportés par Wang et Karypis 2005)

Résultats de HARMONY et SIM obtenus par ce travail SIMHARMONY

Comparaison de SIM and SIM avec clés essentiels SIMSIM/ clés essentiels

Discussion et conclusion Niveau de temps dexécution: Pour les datasets des objets courts, SIM est plus lent que HARMONY: - SIM lit les donnése toujours du disque, - SIM nélimine pas de k-itemsets infrequents pour k > 2; - Le nombre de règles dans chaque classifieur est beaucoup plus grand. Pour les datasets des objets longs, HARMONY est plus lent que SIM: HARMONY peut considérer les itemsets de toute tailles, tandis que SIM ne considère que les itemsets clés de petites tailles (< 6). Niveau de précision: En moyenne, SIM est plus précis. Avec le temps dexécution 4 fois plus court, la prédiction par SIM est 2.5% plus précise que celle dHARMONY, en moyenne. Lutilisation des RCs aux itemsets clés de petites tailles évite les classifieurs trop spécifiques et réduire le temps dexécution. La notion ditemset clé non essentiel est utile et leur suppression optimise la construction de classifieurs, sans vraiement affecter leur précision.