SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES D'INFORMATIONS Présenté par : Mouhamed Famara SANE Mohamed Lemine ATHIE Sous l’encadrement de : M. C. Talibouya DIOP EQUIVALENCE CLASS TRANSFORMATION
1.Introduction 2.Datamining 3.Règles d’associations (Mining Association Rules) 4.Algorithme ECLAT 5.Démonstration (Avec R) 6.Conclusion PLAN DE PRESENTATION
1. INTRODUCTION 1 HISTORIQUE L’algorithme Eclat, Introduit par M. J. Zaki en 1997 publié en 2000, est un algorithme utilisé en Datamining pour découvrir les ensembles d’articles fréquents. Mohammed J. Zaki Equivalence CLAss Transformation
2. DATAMINING 2 Connue aussi sous l’expression « L’exploration de données » a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. De nos jours, les techniques d'exploration de données peuvent être utilisées dans des domaines complètement différents avec des objectifs bien spécifiques
2. DATAMINING (SUITE) 3 Le Data Mining, une foule d’applications. © Ramaba, Wikiversity, CC by-3.0
3. REGLES D’ASSOCIATIONS 4 Dans le domaine du data mining la recherche des règles d'association est une méthode populaire étudiée d'une manière approfondie dont le but est de découvrir des relations ayant un intérêt pour l’analyste entre deux ou plusieurs variables stockées dans de très importantes bases de données. À partir d'un ensemble de transactions, rechercher des règles permettant de prédire l'occurrence d'un élément en fonction de l'occurrence d'autres éléments de la transaction.
3. REGLES D’ASSOCIATIONS (RAPPELS) 5 Règles d’associations – Cours de C.T Diop (UFR SAT) Génération d’Itemset fréquentsGénération de règles d’associations
3. REGLES D’ASSOCIATIONS (RAPPELS) 6
4. ALGORITHME ECLAT 7 L’algorithme Eclat repose sur le découpage de la base en classes d’équivalences et distribution de la charge de travail sur tous les processeurs. Méthode qui permet de générer des itemsets fréquents Représente les données de manière verticale
8
PHASE D’INITIALISATION 9 Scan la base de données transactionnelle Construction d’un tableau de deux dimensions indexé par les items sur la hauteur et la largeur.
PHASE DE TRANSFORMATION 10 Partitionnement de L2 en classes d’équivalences qui seront redistribuées sur les processeurs. Calcul de la charge de travail pour chaque classe d’équivalence. La mesure est effectuée en fonction du nombre d’éléments s de la classe d’équivalence
PHASE ASYNCHRONE 11 Construction d’itemsets de tailles croissantes par intersection des listes de transactions des éléments de chaque classe d’équivalence
PHASE DE REDUCTION FINALE 12 La dernière tâche de l’algorithme consiste en l’accumulation et la réunion des résultats de chaque processeur. Exemple de déroulement
13
5. DEMONSTRATION R est un langage de programmation et un logiciel libre destiné aux statistiques et à la science des données soutenu par la R Foundation for Statistical Computing. 14
5. DEMONSTRATION (SCENARIO) 15 Le responsable marketing chez la franchise multinationale Auchan plus précisement à Dakar souhaite connaitre avec précision les produits les mieux vendu au sein de son supermarché.
6. CONCLUSION 16 La tâche la plus coûteuse de l’algorithme Eclat est en général la transmission des listes de transactions de chaques item. En effet, sur des bases ou les items sont repartis de manière homogène, chaque processeur doit transmettre des listes de tailles importantes à tous les autres. C’est là le point faible de l’algorithme Eclat.
7. BIBLIOGRAPHIE