1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009
2 Plan Contexte (RCD, Khi2, approche) Stratégie de parcours de l’espace de recherche Vecteurs de contingence Application industrielle, résultats et perspectives Extraction de Règles de Corrélation Décisionnelles
3 Règles d’association et de corrélation Les règles d’association expriment un lien directionnel X Y basé sur la plateforme support / confiance La prise en compte des littéraux permet d’exprimer des règles positives et négatives, comme X Y L’utilisation de la mesure statistique Khi2 définit des contraintes de corrélation (obtention de règles de corrélation) Notre approche : Détection de règles de corrélations décisionnelles règles de corrélation avec attribut cible
4 Khi2 (1) : tableau de contingence TidMotifCible 1B C FT1T1 2 T1T1 3B C ET1T1 4FT1T1 5B D FT2T2 6B F 7B C F 8A E 9B C F 10B F TC(B F) B B∑ ligne F F ∑ colonne Chaque cellule du tableau de contingence TC d’un motif X contient le support d’un littéral YZ du treillis des littéraux associé à X : Exemple de base r de transactions
5 χ2, contrainte de corrélation, est définie par avec E(Y), espérance mathématique de Y Khi2 (2) : définitions et propriétés χ2 (B F) = 1.67 ce qui correspond à un taux de corrélation de 85 % Ex. - La valeur du χ2 est une contrainte monotone (ccm) : si χ2(X Y) MinKhi2, alors χ2(X Y Z) MinKhi2 - La contrainte « MinPerc des cases du TC a le support » est anti-monotone (ccam)
6 Avec les algorithmes par niveaux, et pour un niveau i donné, on a besoin de stocker : - les éléments du niveau - les tableaux de contingence (2*2 i ) si i = 4 et n = 1000, on a besoin de 1,3 To de mémoire (max) Limites des algorithmes par niveaux & Approche développée D’où l’introduction - de l’ordre lectique comme ordre de parcours des candidats (optimisation de leur génération et traitement, même si au final, le nombre de résultats est le même), et - des vecteurs de contingence (VC), alternative aux TC’s : un tel vecteur, au niveau i, se construit à partir de 2 vecteurs déjà calculés aux niveaux (i – 1) et 1
7 Stratégie de parcours du treillis (1) : algorithme LS LS (X, Y : ensembles de motifs) si Y = alors Afficher(X) retour fsi A := Max(Y) Y := Y \ {A} LS(X, Y) Z := X {A} LS(Z, Y) L’algorithme LS (Lectic Subset) permet d’énumérer les combinaisons des motifs candidats avec un arbre équilibré Ordre lectique : X lec Y ssi Max (X \ (X Y)) Max (Y \ (X Y)) {BD} lec {BC F}
8 15 {} {B C F} {} {B C} {} {B} { } 5 {C} { } {C} {B} 6 7 {B C} { } 8 {F} { } {F} {B C } {F} {B } {B F} { } 12 {C F} { } {C F} {B } {B C F} { } Arborescence générée par LS({ }, {B C F}) Stratégie de parcours du treillis (2) : exemple
9 Vecteurs de contingence Classe d’équivalence d’un littéral YZ : [YZ] = {i Tid(r) / Y Tid(i) et Z Tid(i) = } TidMotifCible 1B C FT1T1 2 T1T1 3B C ET1T1 4FT1T1 5B D FT2T2 6B F 7B C F 8A E 9B C F 10B F Ex. [B F] = {3} Vecteur de contingence VC de X : ensemble des classes d’équivalence des littéraux du treillis des littéraux associé à X Ex. VC (B F) = {{8}, {4}, {3}, {1,2,5,6,7,9,10} Important : VC (X A) = (VC(X) [A]) (VC(X) [A]) on ne calcule un VC que si nécessaire
10 Vecteurs & Tables de contingence en pratique pour j := 1 à |r| faire TC[VC[j]] := TC[VC[j]] + 1 «Distribution» B FB FB FB FB FB FB FB FB F TC[B F]1117 Tid VC(B) Tid VC(F) Tid VC(B) + VC(F) =:VC(B F) Passage à la TC Ajouts en logique binaire VC’s : vecteurs de taille |r|
11 LHS-Chi2 : algorithme - vérification de la ccam pendant le parcours selon l’ordre lectique - travail sur la bordure positive de la théorie On ne conserve les VC’s des motifs retenus que dans la branche de l’arbre en cours de parcours
12 LHS-Chi2 : application industrielle - travail sur des fichiers de mesures numériques (parfois absentes) fournis par STM et ATMEL Rousset - but : déterminer les principaux paramètres ayant une influence sur le gain (yield) – l’attribut cible – suite au processus global de production - caractéristiques de ces fichiers : plusieurs milliers de colonnes et quelques centaines de lignes seulement (d’où nécessité de prétraitements et de transformation des données pour les adapter à la méthode) - intégration de contraintes (monotones et anti-monotones) spécifiques à ce type d’application
13 LHS-Chi2 : quelques résultats (1) Expérimentations menées sur un fichier STM et un fichier ATMEL avec MinPerc et MinCor fixés, MinSup variable
14 LHS-Chi2 : quelques résultats (2) Fichier STM avec MinPerc variable (échelle log) Nombre de RCD obtenues sur un fichier ATMEL
15 Conclusions & Perspectives - « Nettoyage » / Transformation des données, et interprétation des résultats : nombreuses améliorations possibles - Développement et comparaison avec d’autres méthodes (Clustering, SVM, …) adaptées au contexte - Généralisation des règles par intégration de motifs "littéraux" approche actuelle : A B C D approche envisagée : A B CD - Découverte de nouveaux paramètres influant sur le gain - Temps de réponse entre 30 et 70% meilleurs avec LHS-Chi2