Projet Acquisition de connaissances

Slides:



Advertisements
Présentations similaires
Tris.
Advertisements

Master Professionnelle Sciences et Techniques 2 juillet
Data Mining.
Classification et prédiction
Règles d’association.
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
Introduction à l’Algorithmique
Sensibilisation à l’Algorithmique et structure de données
Etudiants : Benjamin BLANC Cyrille KLUZEK Encadreur :
Calculs de complexité d'algorithmes
GEF 435 Principes des systèmes d’exploitation
1 UMLV 1. Introduction 2. Hachage ouvert 3. Hachage fermé 4. Implémentation des fonctions Méthodes de hachage.
Approfondissement du langage
06 Juillet 2009 Projet Checker daccessibilité de fichiers SVG Rami BALI Toufic HADDAD Aroussia MAADI Encadrants Annie DANZART Christine POTIER Jérôme HUGUES.
1 Nicole Tourigny - Le raisonnement à partir de cas : une aide à la formation en analyse de sécurité routière Le raisonnement à partir de cas : une aide.
Conception d’une application de gestion de fiches études
Sylvain Fleury, Julien Guillemé (orateur), Éric Jamet,
Christelle Scharff IFI Juin 2004
Initiation à la programmation et algorithmique cours 3
Traitement Co-Séquentiel: Appariment et Fusion de Plusieurs Listes
1 Statistiques Séance 5 – 9 Nov Résumé séance précédente Lécart-type σ ou s. Comment le calculer? Les propriétés numériques de la courbe normale.
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Soutenu par : Cédric Bonnier et Marion Carrier 24/03/2011.
Apprentissage du jeu de morpion
Structures collectives en Java
Prise de décision dans les shooters TER 08/09 Sandrine Buendia
Jean-François Steiert Fribourg, rencontre régionale AD-IDHEAP La santé, un bien public.
Tice (logiciels) et aide personnalisée.
Algorithmique et Programmation
Principes de persistance dans les applications orienté objet
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Methode de Tri efficace
Méthode des k plus proches voisins
Définition d’un maillon de liste
Chapitre 21 Collections Partie I Introduction Une collection : est un objet qui regroupe multiple éléments dans une unité. Une collection est.
Python La programmation objet
Modèle Logique de Données
Complément Le diagramme des classes
Master 1 SIGLIS Java Lecteur Stéphane Tallard Chapitre 5 – Héritage, Interfaces et Listes génériques.
Simulateur Interactif de Qos dans un Routeur
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
LIFI-Java 2004 Séance du Jeudi 9 sept. Cours 1. La notion de langage Décrire une tâche à effectuer –programme Écrire à un haut niveau –facile pour lutilisateur.
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
Les Algorithmes de Tri Introduction Tri par Sélection
Projet de Master première année 2007 / 2008
201 UMLV  Type « dictionnaire » sous-ensembles finis de E (ordonné) avec les opérations : Ens_vide :  Ens Ajouter : Ens x Elément  Ens Enlever.
1 PLAN I. Eclipse Modeling Framework  Présentation  Le modèle Ecore  Code généré  Utilisation de template II.Graphical Modeling Framework  Présentation.
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
Effeindzourou Anna, Meunier Stéfanie, Loyer Alexis, Calandreau Julien
EXIGE Un avenir dans le web....
Initiation MS Access 2010 Requêtes - Sélection (travail en autonomie)
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
KF-RAY Raytracer parallèle Projet long d’informatique
Algorithmique et programmation (1)‏
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Arbre GénéalogiqueDiagramme de Classes Comment la visualisation d’une hiérarchie de classes facilitera le travail de notre client ?
Le Taquin Mathieu Bernou Laurent Robin.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
1 Monopalme Projet 4 Info Spécifications LE LAY Olivier MAHE Jocelyn FORM Nicolas HENRY Gurvan BONNIN Thomas BASSAND Guillaume Décembre 2009 MONNIER Laurent.
Simulation du rôle de la communication dans l’établissement d’un réseau de liens sociaux Projet GPL :
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Cours 5 - Trois algorithmes de tri d'un tableau
Visualisation des flots optiques en 3D
31/05/2007Projet Master 11 Présentation ludique de la recherche opérationnelle à la fête de la science Année universitaire 2006/2007 Sylvain FIX Julien.
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
IFT 703 Informatique cognitive ACT-R Modèle symbolique et perceptuel
L'exécution d'un programme nécessite l'utilisation des ressources de l'ordinateur : temps de calcul pour exécuter les opérations, et l'occupation de la.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 4 Support de cours rédigé par Bernard COFFIN Université.
Transcription de la présentation:

Projet Acquisition de connaissances INSA de Rennes Département INFO 4ième année – G2.1 Projet Acquisition de connaissances Réalisé par Anne-Laure Berrée, Andra Blaj, Stéphanie Charlet, Diana Dragusin, Daphné Dussaud, Emeline Escolivet, Nolwenn Poirier & Fanny Tollec Encadré par Peggy CELLIER

Plan Contexte et objectifs Choix effectués Description de l’outil Quelques rappels Objectifs Choix effectués Langage Algorithme Modélisation Description de l’outil Import et récupération des données Implémentation de l’algorithme Génération des itemsets fréquents maximaux ou fermés Exécution et affichage des résultats Comparaison avec Weka

Contexte et objectifs Quelques rappels Règles d’associations SI condition(s) ALORS fait(s) Weka Objectif général Extraire des règles d’associations à partir de données de la forme Notre outil Attribut 1 Attribut 2 Transaction 1 0/1 Transaction 2

Contexte et objectifs Objectifs Objectif n°1 Transformer deux types de jeux de données en la matrice Transaction/Items Objectif n°2 Implémenter un algorithme from scratch effectuant un travail semblable à Apriori Objectif n°3 Implémenter différents calculs d’indice statistique Objectif n°4 Implémenter différents types d’itemsets Objectif n°5 Comparer les performances de l’outil avec Weka

II. Choix effectués Pourquoi Java ? Langage Langage orienté objet permettant une modélisation simple et rapide Présence de structures de données facilement manipulables Import des fichiers relativement aisé Facilité de mise en place d’une interface graphique Multiplateforme

II. Choix effectués Algorithme APriori Algorithme Algorithme FP-Growth Exploration des données dans le domaine de l’apprentissage des règles d’association Reconnaissance des propriétés qui reviennent fréquemment dans un ensemble des données Algorithme FP-Growth Très proche d’Apriori Recherche basée sur la génération d’itemsets et leur fréquence Utilisation d’une structure de données : Frequent-Pattern tree permettant de trouver des itemsets fréquents dans une grande base de données

II. Choix effectués Algorithme Comparaison des algorithmes FP-Growth Apriori Multiples parcours de la base de données Génération d’un nombre considérable d'itemsets Calcul de leur support à chaque fois Très coûteux de gérer cette quantité d'itemsets FP-Growth Réduction du nombre de parcours de la base de données Diminution du nombre de génération d'itemsets Facilité du calcul du support Plus adapté aux grandes bases de données Mise en œuvre assez difficile

II. Choix effectués Modélisation Moteur listeRegles items Attribut matrix : boolean[][] seuilSupportMin : double seuilCritereMin : double RègleAssociation ItemSet - premisse : Integer [] but : int valeurCritere : double itemset : Vector<Integer> support : double indice algoSelectionne Indice AlgoApriori Transactions : Vector<Vector<Integer>> unItems : Vector<Integer> itemsFreq : Vector<ItemSet> IndiceSupport IndiceLift IndiceConfiance APrioriMaximaux APriorisClos

III. Description de l’outil Import et mise en forme des données Données non structurées : articles de journaux Données structurées : tickets de caisse Attributs et transactions : Tickets de caisse Attributs : Mots sous forme de liste + Phase de discrétisation des données Discrétisation d’attributs continus - Âge < 20 - 20 < Âge < 40 - 40 < Âge < 60 Discrétisation d’attributs nominaux -Homme -Femme Transactions : Articles de journaux = Chirac Jospin Article 1 1 Article 2 Homme Femme Ticket 1 1 Ticket 2 =

III. Description de l’outil Implémentation de l’algorithme 1. Transformation des données de la matrice booléenne en transactions 2. Génération des un-itemsets fréquents 3. Génération des 2-itemsets fréquents

III. Description de l’outil Implémentation de l’algorithme 4. Génération de k-itemsets fréquents constructionkItemsSets(entier k, entier supportMin) si (il y a eu des (k-1)-itemsets générés) alors pour chaque itemset i de taille k-1 faire pour chaque itemset j de taille k-1 différent de i faire si (i et j sont différents que par le dernier élément) alors kItem = i+dernier élément de j tri de kItem en ordre croissant des items supportItem = support de kItem si (supportItem>=supportMin) alors ajouter kItem et son support dans la liste des itemsets fréquents finsi fin pour si (k+1 est inférieur au cardinal de la liste de 1-itemsets fréquents) alors constructionkItemsSets(k+1, support) fin

III. Description de l’outil Génération des itemsets fréquents maximaux ou fermés Stratégie modifier l’algorithme Apriori pour supprimer les itemsets fréquents non fermés ou non maximaux lors de leur génération Au moment où on construit un (k+1)-itemset J à partir de 2 k-itemsets, si J est fréquent alors pour chaque k-itemset I, si I est inclus dans J et I est de même support que J alors I n’est pas clos, donc on le supprime finsi fin pour Implémentation similaire pour les itemsets fréquents maximaux Comparaison des résultats certaines règles pertinentes non générées en utilisant les itemsets fréquents maximaux ou fermés moins de redondance MAIS

III. Description de l’outil Exécution et affichage des résultats Démonstration de l’outil

IV. Comparaison avec Weka Tests de performance Weka Notre outil 7 itemsets 5 itemsets Règles crées 1. france=no politique=no président=no monde=no foi=no ==> national=no conf:(0.92) 2. france=no politique=no président=no foi=no ==> national=no conf:(0.92) 3. france=no américain=yes ==> national=no conf:(0.92) 4. france=no politique=no président=no monde=no ==> national=no conf:(0.92) Règles crées Eau, loi ->art ( CONF 0.9255 ) Loi ->art ( CONF 0.8571 ) Vie ->art ( CONF 0.8390 ) Eau ->art ( CONF 0.8303 ) Loi , art ->eau ( CONF 0.8285 ) Vie ->eau ( CONF 0.8218) Loi ->eau ( CONF 0.7673) Calcul avec indice statistique de confiance, et Itemsets fréquents sur le petit article : outil moins exhaustif, plus rapide et moins pertinent

Bilan Difficultés rencontrées Atouts de l’outil - Implémentation de FP-Growth Choix de la modélisation Atouts de l’outil Simplicité d’utilisation Rapidité de la générations des règles Améliorations possibles Ajouter l’algorithme FP-Growth Donner plus de choix de fichiers de données