1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Chaîne de traitement Notion de plot
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Accélération du Rendu Volumique basée sur la Quantification des Voxels
Règles d’association.
Regroupement (clustering)
Introduction à l’Algorithmique
Algorithmes à base darbre BSP. Principe Se servir dune structure arborescente afin déliminer le traitement dune branche entière sur un test de visualisation.
Comparaison d'une distribution observée à une distribution théorique
Les TESTS STATISTIQUES
A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T PhpMyGI une interface générique mysql Interface générique ? Pourquoi une interface.
Les TESTS STATISTIQUES
Yann Chevaleyre et Jean-Daniel Zucker
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
Piecewise Affine Registration of Biological Images
Cliques & Bicliques Maximales
Alain Casali, Rosine Cicchetti, Lotfi Lakhal
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
Modélisation des systèmes non linéaires par des SIFs
Christelle Scharff IFI Juin 2004
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
To Tune or not to Tune? To Tune or not to Tune? A Lightweight Physical Design Alerter Costa Jean-Denis Le Yaouanc Aurélie Mécanismes de SGBD 2007.
Réalisateur : PHAM TRONG TÔN Tuteur : Dr. NGUYEN DINH THUC
ASI 3 Méthodes numériques pour l’ingénieur
Introduction à la conception de Bases de Données Relationnelles
Concepts avancés en mathématiques et informatique appliquées
Méthode des k plus proches voisins
ÉVALUATION DES SCÉNARIOS POUR L’AIDE À LA CONDUITE DU PROJET
Construction de modèles visuels
La segmentation
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Les fichiers indexés (Les B-arbres)
Courbes de Bézier.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Lutin RNTL 2001 – Exploratoire – 3 ans Xavier Blanc –
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
Standard Template Library
Programmation non procédurale Le projet ECOLE 2000
METHODE DESCPIPTIVE : ASSOCIATION
Mise-à-jour de données de haute incertitude spatiale Présentation dans le cadre du groupe de discussion sur la fusion de données géospatiales – 22 nov.
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Objectifs A la fin de ce chapitre, vous pourrez : présenter l'utilisation d'opérations de chargement de données par chemin direct décrire l'utilisation.
Programmation linéaire en nombres entiers
Requêtes homme-agent sur le fonctionnement Etudiantes: Anne DARME & Céline GIRARD Encadrant: Nicolas SABOURET Rapporteur: Vincent CORRUBLE Responsable:
Arbres binaires et tables de hachage
Fast and Furious Decision Tree Induction
1 Quatrième journée Les flots de données Les entrées/sorties Les flots de données Les entrées/sorties.
Exploration systématique de graphes
Structures de données avancées : Fichiers multidimensionnels Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI) zegour.esi.dz
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Présentation février 2002 Relations Visiblement Meilleures.
1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche.
Equilibre de successions de flux différents d’échéances différentes.
Soutenance du mémoire de synthèse
- 5 - Optimisation linéaire et non-linéaire
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Structures de données avancées : MLH (Multidimensional linear hashing) D. E ZEGOUR Institut National d ’Informatique.
1 Logiciels de confection automatique d’horaires.
Structures de données avancées : MTH ( Multidimensional trie hashing ) D. E ZEGOUR Institut National d ’Informatique.
Cours 11 Entrepôts de données
Les bases de données Séance 4 Construction du Modèle Physique (la BDD)
LE CHOIX DE LA FORMULE  Reprise du cours du 09 au 12 décembre (GR 1 à 5, même si redites) o Question : vitesse moyenne du cycliste A sur l’ensemble de.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Présentation des concepts Sandre Les méthodes d’évaluation de l’état des eaux : situation et perspectives dans le contexte de la directive-cadre européenne.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Transcription de la présentation:

1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009

2 Plan Contexte (RCD, Khi2, approche) Stratégie de parcours de l’espace de recherche Vecteurs de contingence Application industrielle, résultats et perspectives Extraction de Règles de Corrélation Décisionnelles

3 Règles d’association et de corrélation Les règles d’association expriment un lien directionnel X  Y basé sur la plateforme support / confiance La prise en compte des littéraux permet d’exprimer des règles positives et négatives, comme X  Y L’utilisation de la mesure statistique Khi2 définit des contraintes de corrélation (obtention de règles de corrélation) Notre approche : Détection de règles de corrélations décisionnelles  règles de corrélation avec attribut cible

4 Khi2 (1) : tableau de contingence TidMotifCible 1B C FT1T1 2 T1T1 3B C ET1T1 4FT1T1 5B D FT2T2 6B F 7B C F 8A E 9B C F 10B F TC(B F) B B∑ ligne F F ∑ colonne Chaque cellule du tableau de contingence TC d’un motif X contient le support d’un littéral YZ du treillis des littéraux associé à X : Exemple de base r de transactions

5 χ2, contrainte de corrélation, est définie par avec E(Y), espérance mathématique de Y Khi2 (2) : définitions et propriétés χ2 (B F) =  1.67 ce qui correspond à un taux de corrélation de 85 % Ex. - La valeur du χ2 est une contrainte monotone (ccm) : si χ2(X Y)  MinKhi2, alors χ2(X Y Z)  MinKhi2 - La contrainte « MinPerc des cases du TC a le support » est anti-monotone (ccam)

6 Avec les algorithmes par niveaux, et pour un niveau i donné, on a besoin de stocker : - les éléments du niveau - les tableaux de contingence (2*2 i ) si i = 4 et n = 1000, on a besoin de 1,3 To de mémoire (max) Limites des algorithmes par niveaux & Approche développée D’où l’introduction - de l’ordre lectique comme ordre de parcours des candidats (optimisation de leur génération et traitement, même si au final, le nombre de résultats est le même), et - des vecteurs de contingence (VC), alternative aux TC’s : un tel vecteur, au niveau i, se construit à partir de 2 vecteurs déjà calculés aux niveaux (i – 1) et 1

7 Stratégie de parcours du treillis (1) : algorithme LS LS (X, Y : ensembles de motifs) si Y =  alors Afficher(X) retour fsi A := Max(Y) Y := Y \ {A} LS(X, Y) Z := X  {A} LS(Z, Y) L’algorithme LS (Lectic Subset) permet d’énumérer les combinaisons des motifs candidats avec un arbre équilibré Ordre lectique : X  lec Y ssi Max  (X \ (X  Y))  Max  (Y \ (X  Y)) {BD}  lec {BC F}

8 15 {} {B C F} {} {B C} {} {B} { } 5 {C} { } {C} {B} 6 7 {B C} { } 8 {F} { } {F} {B C } {F} {B } {B F} { } 12 {C F} { } {C F} {B } {B C F} { } Arborescence générée par LS({  }, {B C F}) Stratégie de parcours du treillis (2) : exemple

9 Vecteurs de contingence Classe d’équivalence d’un littéral YZ : [YZ] = {i  Tid(r) / Y  Tid(i) et Z  Tid(i) =  } TidMotifCible 1B C FT1T1 2 T1T1 3B C ET1T1 4FT1T1 5B D FT2T2 6B F 7B C F 8A E 9B C F 10B F Ex. [B F] = {3} Vecteur de contingence VC de X : ensemble des classes d’équivalence des littéraux du treillis des littéraux associé à X Ex. VC (B F) = {{8}, {4}, {3}, {1,2,5,6,7,9,10} Important : VC (X  A) = (VC(X)  [A])  (VC(X)  [A])  on ne calcule un VC que si nécessaire

10 Vecteurs & Tables de contingence en pratique pour j := 1 à |r| faire TC[VC[j]] := TC[VC[j]] + 1 «Distribution» B FB FB FB FB FB FB FB FB F TC[B F]1117 Tid VC(B) Tid VC(F) Tid VC(B) + VC(F) =:VC(B F) Passage à la TC Ajouts en logique binaire VC’s : vecteurs de taille |r|

11 LHS-Chi2 : algorithme - vérification de la ccam pendant le parcours selon l’ordre lectique - travail sur la bordure positive de la théorie On ne conserve les VC’s des motifs retenus que dans la branche de l’arbre en cours de parcours

12 LHS-Chi2 : application industrielle - travail sur des fichiers de mesures numériques (parfois absentes) fournis par STM et ATMEL Rousset - but : déterminer les principaux paramètres ayant une influence sur le gain (yield) – l’attribut cible – suite au processus global de production - caractéristiques de ces fichiers : plusieurs milliers de colonnes et quelques centaines de lignes seulement (d’où nécessité de prétraitements et de transformation des données pour les adapter à la méthode) - intégration de contraintes (monotones et anti-monotones) spécifiques à ce type d’application

13 LHS-Chi2 : quelques résultats (1) Expérimentations menées sur un fichier STM et un fichier ATMEL avec MinPerc et MinCor fixés, MinSup variable

14 LHS-Chi2 : quelques résultats (2) Fichier STM avec MinPerc variable (échelle log) Nombre de RCD obtenues sur un fichier ATMEL

15 Conclusions & Perspectives - « Nettoyage » / Transformation des données, et interprétation des résultats : nombreuses améliorations possibles - Développement et comparaison avec d’autres méthodes (Clustering, SVM, …) adaptées au contexte - Généralisation des règles par intégration de motifs "littéraux" approche actuelle : A  B  C  D approche envisagée : A  B  CD - Découverte de nouveaux paramètres influant sur le gain - Temps de réponse entre 30 et 70% meilleurs avec LHS-Chi2