Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.

Slides:



Advertisements
Présentations similaires
1 IXERP consulting. L archivage consiste à extraire de la base de données opérationnelle les informations qu' il n est plus nécessaire de conserver «
Advertisements

Data Mining.
Classification et prédiction
Règles d’association.
Détection des collisions dans un moteur 3D temps réel
GEF 435 Principes des systèmes d’exploitation
Conception de Programmes Evolutifs Pré Soutenance de TER Année Encadrants : Cathy Escazut et Michel Gautero Auteurs: Paul-Kenji Cahier Sylvain.
Conception de Programmes Evolutifs Pré Soutenance de TER Année Encadrants : Cathy Escazut et Michel Gautero Auteurs: Paul-Kenji Cahier Sylvain.
Simulateur de chaîne de production par Icobjs
Approfondissement du langage
Yann Chevaleyre et Jean-Daniel Zucker
MIKHAYLOVA Vera Exposé Java principe de fonctionnement Lundi 17 mai 2004 DEUG 1ère année Science du langage Paris III.
Les troubles d’apprentissage
Christelle Scharff IFI Juin 2004
Traitement Co-Séquentiel: Appariment et Fusion de Plusieurs Listes
Apprentissage du jeu de morpion
Structures collectives en Java
PRESENTATION DE LA « PHILOSOPHIE » DU PROGRAMME DE TERMINALE S.
Démarche de résolution de problèmes
Algorithmique et Programmation
Principes de persistance dans les applications orienté objet
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Methode de Tri efficace
Projet JAVA EE Approfondi
Méthode des k plus proches voisins
Master 1 SIGLIS Java Lecteur Stéphane Tallard Chapitre 5 – Héritage, Interfaces et Listes génériques.
Simulateur Interactif de Qos dans un Routeur
Projet Acquisition de connaissances
Projet Lucene 22 avril 2011 Acquisition de Connaissances 2
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Styles dinteraction dans les PocketPC: analyses et comparaisons Roberto Ortelli, Juillet 2003.
Présentation Structures de Données et TDA
OBJETS ÉLÉMENTAIRES DANS L’ESPACE À TROIS DIMENSIONS
LIFI-Java 2004 Séance du Jeudi 9 sept. Cours 1. La notion de langage Décrire une tâche à effectuer –programme Écrire à un haut niveau –facile pour lutilisateur.
Standard Template Library
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
Renauld MAMBOUNDOU Arnaud SCHOEN Safiatou FANNY Vincent BOUVIER
Additions et soustractions
Architecture d’un système expert
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
Effeindzourou Anna, Meunier Stéfanie, Loyer Alexis, Calandreau Julien
EXIGE Un avenir dans le web....
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
KF-RAY Raytracer parallèle Projet long d’informatique
Algorithmique et programmation (1)‏
1exploitation des services ITIL Définition d’un événement Un événement est une occurrence détectable ou discernable ayant :  une signification sur la.
CALCUL AUTOMATISÉ et CALCUL RÉFLÉCHI. Dans le calcul automatisé les résultats sont immédiatement disponibles Soit parce qu’ils sont mémorisés - tables,
Arbre GénéalogiqueDiagramme de Classes Comment la visualisation d’une hiérarchie de classes facilitera le travail de notre client ?
Intégration de schémas
Le Taquin Mathieu Bernou Laurent Robin.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Logiciel de construction de matériaux virtuels
Mustapha Hamidou Vendredi 20 août Stage Contour Matching.
Visualisation d’un entrepôt de données Pré soutenance technique
Simulation du rôle de la communication dans l’établissement d’un réseau de liens sociaux Projet GPL :
Classification de données par l’algorithme FPSO-GA
Le Browser hiérarchique de Classes Java : En quoi cette application pourra faciliter le travail de Mr Leblanc ? GROUX Julien & MOULINIER Georges.
Le Browser hiérarchique de Classes Java : En quoi cette application pourra faciliter le travail de Mr Leblanc ?
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Visualisation des flots optiques en 3D
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
La conception détaillée. Objectifs Décrire la solution opérationnelle - étude détaillée des phases informatiques du MOT (écrans, états, algorithmes, …),
Cours n°2 Implémentation et exploitation
IFT 703 Informatique cognitive ACT-R Modèle symbolique et perceptuel
L'exécution d'un programme nécessite l'utilisation des ressources de l'ordinateur : temps de calcul pour exécuter les opérations, et l'occupation de la.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
الهيئة العامة لحماية المستهلك أساليب الترويج وتأثيراتها على المستهلك خليفة التونكتي - مستشار المنافسة - 1.
SUJET : E C L A T UNIVERSITE GASTON BERGER DE SAINT LOUIS UFR DES SCIENCES APPLIQUEES ET DE TECHNOLOGIE MASTER PROFESSIONNEL EN DÉVELOPPEMENT DE SYSTÈMES.
Transcription de la présentation:

Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E SCOLIVET, Nolwenn P OIRIER & Fanny T OLLEC Encadré par Peggy CELLIER INSA de Rennes Département INFO 4 ième année – G2.1

Plan I.Contexte et objectifs II.Choix effectués III.Description de l’outil IV.Comparaison avec Weka 2

I.Contexte et objectifs WekaWeka Notre outil Règles d’associations  Règles d’associations SI condition(s) ALORS fait(s) Quelques rappels Objectif général  Objectif général Extraire des règles d’associations à partir de données de la forme Item 1Item 2 Transaction 10/1 Transaction 20/1 3

I.Contexte et objectifs Objectif n°2  Objectif n°2 Implémenter un algorithme from scratch effectuant un travail semblable à Apriori Objectifs Objectif n°3  Objectif n°3 Implémenter différents calculs d’indice statistique Objectif n°4  Objectif n°4 Implémenter différents types d’itemsets Objectif n°5  Objectif n°5 Comparer les performances de l’outil avec Weka Objectif n°1  Objectif n°1 Transformer deux types de jeux de données en la matrice Transaction/Items 4

II. Choix effectués Langage Pourquoi Java ?  Langage orienté objet permettant une modélisation simple et rapide  Présence de structures de données facilement manipulables  Import des fichiers relativement aisé  Facilité de mise en place d’une interface graphique  Multiplateforme 5

II. Choix effectués Algorithme 6 Algorithme Apriori Algorithme FP-Growth  Algorithme d’exploration des données dans le domaine de l’apprentissage des règles d’association  Permet de reconnaître des propriétés qui reviennent fréquemment dans un ensemble des données  Algorithme très proche d’Apriori, basé sur des recherches sur la génération d’itemsets et leur fréquence  Utilise une structure de données appélée Frequent- Pattern tree qui permet de trouver des itemsets fréquents dans une grande base de données

II. Choix effectués Algorithme 7 Comparaison des algorithmes  Apriori nécessite de multiples parcours de la base de données, génère un nombre considérable d'itemsets et calcule leur support à chaque fois  Très coûteux de gérer cette quantité d'itemsets, car il faut tester la fréquence de chacun des itemsets  FP-Growth réduit le nombre de parcours de la base de données à effectuer, diminue considérablement le nombre de génération d'itemsets et facilite le calcul du support  Plus adapté aux grandes bases de données  Mise en œuvre assez difficile

- premisse : Integer [] - but : int -valeurCritere : double - premisse : Integer [] - but : int -valeurCritere : double -Transactions : Vector > - unItems : Vector - itemsFreq : Vector -Transactions : Vector > - unItems : Vector - itemsFreq : Vector - matrix : boolean[][] - seuilSupportMin : double - seuilCritereMin : double - matrix : boolean[][] - seuilSupportMin : double - seuilCritereMin : double II. Choix effectués Modélisation RègleAssociation Attribut Indice Moteur AlgoApriori IndiceConfiance IndiceSupport IndiceLift 8 APrioriMaximaux APriorisClos ItemSet -itemset : Vector - support : double -itemset : Vector - support : double algoSelectionne listeRegles items indice

III. Description de l’outil 9 Import et mise en forme des données Attributs : Mots sous forme de liste Attributs : Mots sous forme de liste Objets : Articles de journaux Objets : Articles de journaux + = ChiracJospin Article 101 Article 211  Données non structurées : articles de journaux Discrétisation d’attributs nominaux -Homme -Femme Discrétisation d’attributs nominaux -Homme -Femme  Données structurées : tickets de caisse Attributs et objets : Tickets de caisse Attributs et objets : Tickets de caisse Phase de discrétisation des données Discrétisation d’attributs continus - Âge < < Âge < < Âge < 60 Discrétisation d’attributs continus - Âge < < Âge < < Âge < 60 HommeFemme Ticket 101 Ticket 210 =

III. Description de l’outil 10 Implémentation de l’algorithme 1. Transformation des données de matrice booléenne en transactions 2. Génération des un-imtemsets fréquents 3. Génération de 2-itemsets fréquents 4. Génération de k-itemsets fréquents Gestion des différents types d’itemsets 1. Itemsets fréquents clos 2. Itemsets maximaux 3.Comparaison des itemsets obtenus pour les différents types d’itemsets choisis par l’utilisateur  Diana

11 Stratégie  Stratégie modifier l’algorithme Apriori pour supprimer les itemsets fréquents non fermés ou non maximaux lors de leur génération Au moment où on construit un (k+1)-itemset J à partir de 2 k-itemsets, Si J est fréquent alors Pour chaque k-itemset I, Si I est inclus dans J et I est de même support que J alors I n’est pas clos, donc on le supprime Fin si Fin Pour Fin Si  Comparaison des résultats Génération des itemsets fréquents maximaux ou fermés certaines règles pertinentes non générées en utilisant les itemsets fréquents maximaux ou fermés MAIS  Implémentation similaire pour les itemsets fréquents maximaux moins de redondance III. Description de l’outil

12 Exécution et affichage des résultats  Anne-Laure (on pourrait inclure la démo là!)

IV. Comparaison avec Weka 13  Fanny

Bilan 14  Difficultés rencontrées  Atouts de l’outil - Implémentation de FP-Growth - Choix de la modélisation - Implémentation de FP-Growth - Choix de la modélisation - Choix de modélisation - Mise en commun - Choix de modélisation - Mise en commun