La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Règles dassociation Christelle Scharff IFI Juin 2004.

Présentations similaires


Présentation au sujet: "Règles dassociation Christelle Scharff IFI Juin 2004."— Transcription de la présentation:

1 Règles dassociation Christelle Scharff IFI Juin 2004

2 Motivations et généralités Approche automatique pour découvrir des relations / corrélations intéressantes entre des objets Règles de la forme: X Y [support, confidence] X et Y peuvent être composés de conjonctions Support P(X Y) = P(X et Y) Confidence P(X Y) = P( Y | X) = P(X et Y)/P(X) Applications: Utilisé pour analyser le panier de la ménagère Design des rayons dans les supermarchés, ventes croisées, segmentation du marché, design des catalogues de ventes Détection des fraudes Gestion des stocks

3 Exemples de règles Règle booléenne: achète(x, SQLServer) ^ achète(x, DMBook) achète(x, DBMiner) [0.2%, 60%] Règle quantitative: age(x, ) ^ salaire(x, K) achète(x, PC) [1%, 75%]

4 Méthode Naïve Traiter toutes les combinaisons possibles des attributs et de leurs valeurs pour créer toutes les règles dassociation possibles Exemple: 5 attributs prenant une seule valeur Combien de règles? Complexité computationnelle Nombre de règles gigantesque Amélioration: Garder les règles avec un support et une confidence minimum Pas satisfaisant

5 Lalgorithme A Priori [nom, année] Un item est une paire (attribut, valeur) Un ensemble ditems regroupe des items (sans duplication) Principe de lalgorithme A Priori: Génération densembles ditems Calcul des fréquences des ensembles ditems On garde les ensembles ditems avec un support minimum: les ensembles ditems fréquents On ne génère et on ne garde que les règles avec une confidence minimum

6 Exemple:Météo et match de foot

7 Exemple: Ensembles ditems 12 ensembles dun item, 47 ensembles de deux items, 39 ensembles de trois items, 6 ensembles de quatre items, 0 ensemble de cinq items = 104 ensembles ditems avec un support >= 2 Supports

8 La propriété de fréquence des ensembles ditems On utilise certaines propriétés pour construire les ensembles ditems Les sous-ensembles dun ensemble ditems fréquent sont aussi des ensembles ditems fréquents Par exemple, si {A,B} est un ensemble ditems fréquents, alors {A} et {B} sont aussi des ensembles ditems fréquents Plus généralement, les sous-ensembles de k-1 items dun ensemble de k items fréquent sont fréquents

9 Construction des ensembles ditems En utilisant la propriété de fréquence des ensembles ditems, on voit quon peut construire les ensembles ditems incrémentalement: On commence avec les ensembles à un item Un ensemble de k items peut être construit par jointure dun ensemble densembles de k-1 items avec lui-même, et en vérifiant la propriété de fréquence

10 Exemple On suppose que les ensembles ditems sont composés ditems ordonnés (par exemple léxicographiquement) Considérons les ensembles de 3 items suivants: S = {(A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D)} S est joint avec lui-même (A,C,D,E) nest pas un ensemble de 4 items fréquent (car (C,D,E) nest pas dans S) (A,B,C,D) est un ensemble de 4 items fréquent

11 Ensembles ditems et règles Un ensemble ditems peut représenter plusieurs règles Exemple: A partir de {A,B,C}, on peut construire 7 règles avec le même support: A B, C B A, C C A, B A, B C A, C B B, C A True A, B, C mais pas la même confidence

12 Générer les règles Transformer les ensemble ditems en règles de manière efficace Dun ensemble de n items, on peut générer 2 n –1 règles potentielles On ne garde que les règles avec une confidence minimum

13 Exemple: Ensembles ditems Règles Support >= 2 (ou 2/14) et Confidence = 100% 58 règles 3 règles avec un support de 4 5 règles avec un support de 3 50 règles avec un support de 2

14 Exemple complet BD D Parcours D C1C1 L1L1 L2L2 C2C2 C2C2 C3C3 L3L3

15 Améliorer lalgorithme 10 4 ensembles de 1 items peuvent générer 10 7 ensemble de 2 items Le calcul des supports est coûteux Générer les règles est coûteux Le calcul des confidences est coûteux Le parcours des données initiales est récurrent

16 Calcul de la confidence dune règle: Optimisation naïve Calcul de 2 n –1 confidences (une pour chaque règle) Pour calculer la confidence dune règle on peut utiliser le support densembles ditems calculé auparavant (en utilisant une table de hachage) Exemple: Pour calculer la confidence de: Température = cool, windy = false humidity = normal, play = yes On peut utiliser le support calculé pour: Température = cool, windy = false

17 La méthode Les règles sont faciles à interpréter La méthode réalise de lapprentissage non supervisé Elle est basée sur des calculs élémentaires Elle est très coûteuse Elle marche pour des découvertes de faits fréquents Elle peut produire des règles triviales et inutiles Exemple: Camembert Vin rouge

18 Autre algorithme Lalgorithme darbre de modèles fréquents (Frequent-pattern tree) [name, année]

19 References I. H. Witten, and E. Frank. Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann. J. Han, and M. Kamber. Data Mining Concepts


Télécharger ppt "Règles dassociation Christelle Scharff IFI Juin 2004."

Présentations similaires


Annonces Google