Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E SCOLIVET, Nolwenn P OIRIER & Fanny T OLLEC Encadré par Peggy C ELLIER INSA de Rennes Département INFO 4 ième année – G2.1 1
Plan I.Contexte et objectifs II.Choix effectués III.Description de l’outil IV.Comparaison avec Weka 2
I.Contexte et objectifs WekaWeka Notre outil Règles d’association Règles d’association SI condition(s) ALORS fait(s) Quelques rappels Objectif général Objectif général Extraire des règles d’associations à partir de données de la forme Item 1Item 2 Transaction 10/1 Transaction 20/1 3
I.Contexte et objectifs Objectif n°2 Objectif n°2 Implémenter un algorithme from scratch effectuant un travail semblable à A priori Objectifs Objectif n°3 Objectif n°3 Implémenter différents calculs d’indice statistique Objectif n°4 Objectif n°4 Implémenter différents types d’itemsets Objectif n°5 Objectif n°5 Comparer les performances de l’outil avec Weka Objectif n°1 Objectif n°1 Transformer deux types de jeux de données en la matrice Transaction/Items 4
II. Choix effectués Langage Pourquoi Java ? Langage orienté objet permettant une modélisation simple et rapide Présence de structures de données facilement manipulables Import des fichiers relativement aisé Facilité de mise en place d’une interface graphique Multiplateforme 5
II. Choix effectués Algorithme 6 Algorithme Apriori
II. Choix effectués Algorithme 7 Algorithme FP-Growth
- String attribut - Integer premisse[] - int but - double valeurCritere - Integer premisse[] - int but - double valeurCritere -Vector > transactions - Vector unItems - Vector itemsFreq -Vector > transactions - Vector unItems - Vector itemsFreq - boolean[][] matrix - double seuilSupportMin - double seuilCritereMin - boolean[][] matrix - double seuilSupportMin - double seuilCritereMin II. Choix effectués Modélisation RègleAssociation Attribut Indice Moteur AlgoApriori IndiceLift IndiceSupport IndiceConfiance 8
III. Description de l’outil 9 Import et mise en forme des données Attributs : Mots sous forme de liste Attributs : Mots sous forme de liste Objets : Articles de journaux Objets : Articles de journaux + = ChiracJospin Article 101 Article 211 Données non structurées : articles de journaux Discrétisation d’attributs nominaux -Homme -Femme Discrétisation d’attributs nominaux -Homme -Femme Données structurées : tickets de caisse Attributs et objets : Tickets de caisse Attributs et objets : Tickets de caisse Phase de discrétisation des données Discrétisation d’attributs continus - Âge < < Âge < < Âge < 60 Discrétisation d’attributs continus - Âge < < Âge < < Âge < 60 HommeFemme Ticket 101 Ticket 210 =
III. Description de l’outil 10 Implémentation de l’algorithme
III. Description de l’outil 11 Exécution et affichage des résultats
IV. Comparaison avec Weka 12
Bilan 13 Difficultés rencontrées Atouts de l’outil - Choix de modélisation - Mise en commun - Choix de modélisation - Mise en commun - Choix de modélisation - Mise en commun - Choix de modélisation - Mise en commun