1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.

1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009

2 Plan Contexte (RCD, Khi2, approche) Stratégie de parcours de l’espace de recherche Vecteurs de contingence Application industrielle, résultats et perspectives Extraction de Règles de Corrélation Décisionnelles

3 Règles d’association et de corrélation Les règles d’association expriment un lien directionnel X  Y basé sur la plateforme support / confiance La prise en compte des littéraux permet d’exprimer des règles positives et négatives, comme X  Y L’utilisation de la mesure statistique Khi2 définit des contraintes de corrélation (obtention de règles de corrélation) Notre approche : Détection de règles de corrélations décisionnelles  règles de corrélation avec attribut cible

4 Khi2 (1) : tableau de contingence TidMotifCible 1B C FT1T1 2 T1T1 3B C ET1T1 4FT1T1 5B D FT2T2 6B F 7B C F 8A E 9B C F 10B F TC(B F) B B∑ ligne F 7 1 8 F 1 1 2 ∑ colonne 8 2 10 Chaque cellule du tableau de contingence TC d’un motif X contient le support d’un littéral YZ du treillis des littéraux associé à X : Exemple de base r de transactions

5 χ2, contrainte de corrélation, est définie par avec E(Y), espérance mathématique de Y Khi2 (2) : définitions et propriétés χ2 (B F) =  1.67 ce qui correspond à un taux de corrélation de 85 % Ex. - La valeur du χ2 est une contrainte monotone (ccm) : si χ2(X Y)  MinKhi2, alors χ2(X Y Z)  MinKhi2 - La contrainte « MinPerc des cases du TC a le support » est anti-monotone (ccam)

6 Avec les algorithmes par niveaux, et pour un niveau i donné, on a besoin de stocker : - les éléments du niveau - les tableaux de contingence (2*2 i ) si i = 4 et n = 1000, on a besoin de 1,3 To de mémoire (max) Limites des algorithmes par niveaux & Approche développée D’où l’introduction - de l’ordre lectique comme ordre de parcours des candidats (optimisation de leur génération et traitement, même si au final, le nombre de résultats est le même), et - des vecteurs de contingence (VC), alternative aux TC’s : un tel vecteur, au niveau i, se construit à partir de 2 vecteurs déjà calculés aux niveaux (i – 1) et 1

7 Stratégie de parcours du treillis (1) : algorithme LS LS (X, Y : ensembles de motifs) si Y =  alors Afficher(X) retour fsi A := Max(Y) Y := Y \ {A} LS(X, Y) Z := X  {A} LS(Z, Y) L’algorithme LS (Lectic Subset) permet d’énumérer les combinaisons des motifs candidats avec un arbre équilibré Ordre lectique : X  lec Y ssi Max  (X \ (X  Y))  Max  (Y \ (X  Y)) {BD}  lec {BC F}

8 15 {} {B C F} {} {B C} {} {B} 1 2 3 4 { } 5 {C} { } {C} {B} 6 7 {B C} { } 8 {F} { } {F} {B C } {F} {B } 9 10 11 {B F} { } 12 {C F} { } {C F} {B } 13 14 {B C F} { } Arborescence générée par LS({  }, {B C F}) Stratégie de parcours du treillis (2) : exemple

9 Vecteurs de contingence Classe d’équivalence d’un littéral YZ : [YZ] = {i  Tid(r) / Y  Tid(i) et Z  Tid(i) =  } TidMotifCible 1B C FT1T1 2 T1T1 3B C ET1T1 4FT1T1 5B D FT2T2 6B F 7B C F 8A E 9B C F 10B F Ex. [B F] = {3} Vecteur de contingence VC de X : ensemble des classes d’équivalence des littéraux du treillis des littéraux associé à X Ex. VC (B F) = {{8}, {4}, {3}, {1,2,5,6,7,9,10} Important : VC (X  A) = (VC(X)  [A])  (VC(X)  [A])  on ne calcule un VC que si nécessaire

10 Vecteurs & Tables de contingence en pratique pour j := 1 à |r| faire TC[VC[j]] := TC[VC[j]] + 1 «Distribution» B FB FB FB FB FB FB FB FB F TC[B F]1117 Tid 12345678910 VC(B)1110111011 Tid 12345678910 VC(F)1101111011 Tid 12345678910 VC(B) + VC(F) =:VC(B F)11 100111 0011 Passage à la TC Ajouts en logique binaire VC’s : vecteurs de taille |r|

11 LHS-Chi2 : algorithme - vérification de la ccam pendant le parcours selon l’ordre lectique - travail sur la bordure positive de la théorie On ne conserve les VC’s des motifs retenus que dans la branche de l’arbre en cours de parcours

12 LHS-Chi2 : application industrielle - travail sur des fichiers de mesures numériques (parfois absentes) fournis par STM et ATMEL Rousset - but : déterminer les principaux paramètres ayant une influence sur le gain (yield) – l’attribut cible – suite au processus global de production - caractéristiques de ces fichiers : plusieurs milliers de colonnes et quelques centaines de lignes seulement (d’où nécessité de prétraitements et de transformation des données pour les adapter à la méthode) - intégration de contraintes (monotones et anti-monotones) spécifiques à ce type d’application

13 LHS-Chi2 : quelques résultats (1) Expérimentations menées sur un fichier STM et un fichier ATMEL avec MinPerc et MinCor fixés, MinSup variable

14 LHS-Chi2 : quelques résultats (2) Fichier STM avec MinPerc variable (échelle log) Nombre de RCD obtenues sur un fichier ATMEL

15 Conclusions & Perspectives - « Nettoyage » / Transformation des données, et interprétation des résultats : nombreuses améliorations possibles - Développement et comparaison avec d’autres méthodes (Clustering, SVM, …) adaptées au contexte - Généralisation des règles par intégration de motifs "littéraux" approche actuelle : A  B  C  D approche envisagée : A  B  CD - Découverte de nouveaux paramètres influant sur le gain - Temps de réponse entre 30 et 70% meilleurs avec LHS-Chi2

1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.

Présentations similaires

Présentation au sujet: "1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.

Présentations similaires

Présentation au sujet: "1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back