Règles significatives Tao-Yuan JEN1, Nicolas SPYRATOS2, Yuzuru TANAKA3 1. LI - Université de Tours - Antenne de Blois, France 2. LRI - Université Paris XI, France 3. Meme Media Laboratory - Hokkaido University, Japon
Motivations 1. Quantité importante de règles 2. Intérêt des règles
Quantité importante de Règles La quantité de règles peut être aussi importante que la quantité de données Exemple Base de données concernant des ponts à Pittsburgh - 108 enregistrements, 13 attributs - près de 1900 règles d'association D ’où le problème : comment extraire les règles intéressantes ?
Intérêt des Règles Est-ce que toutes les règles extraites sont intéressantes? Exemple Règle 1 : (Profession = Etudiant) Ù (Adresse = Blois) => (Internet = Utilise) [confiance : 0.8, support : 0.3] ; Règle 2 : (Profession = Etudiant) Ù (Sexe = M) Ù (Adresse = Blois) => (Internet = Utilise) [confiance : 0.81, support : 0.17].
Préliminaires Soit Q (A1 : dom(A1),…, An : dom(An)) une table, et q une instance de Q Règle d ’association AR dans q : AR : LC => RC [confiance : c, support : s] où LC et RC sont des conjonctions de la forme Ai = vi . ¨ Support de AR : ¨ Confiance de AR :
Etat de l'art ¨ Algorithmes d ’extraction efficaces ¨ Problèmes : manipulation des règles extraites - Langages de requêtes DMQL [Han et al 1996] , MSQL [IV 1999], etc. =>Insuffisants pour l ’extraction de connaissances - Mesures d ’intérêt
Mesures d'intérêt (1) => Absence de relations entre les règles Gain, valeur de Laplace, conviction, intérêt et ordre SC [BA 1999], Indice d'inclusion et intensité d'implication entropique [BGB 2001]. => Absence de relations entre les règles
Mesures d'intérêt (1) Exemple r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r2 : (Pain = achat) Ù (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Intérêt de règles : r1 > r2 > r3 > r4, ou r1 < r2 < r3 < r4
Mesures d'intérêt (2) => Filtrage trop simplifié Sélection par un seuil fixé [HF 1999] => Filtrage trop simplifié Exemple ra : A => C [confiance : 0.8, support : 0.3] rb : A Ù B => C [confiance : 0.86, support : 0.2] rc : X => Z [confiance : 0.90, support : 0.3] rd : X Ù Y => Z [confiance : 0.96, support : 0.2]
Notre proposition Utilise le test d’adéquation - Prise en compte de relations entre règles - Filtrage à partir de seuils variables - Réduction du nombre de règles entre 60 % et 95 %
Test d'adéquation Vérifier une hypothèse relative à l'accord global d'une distribution empirique avec une distribution théorique ou attendue. Exemple Hypothèse nulle H0 : x = y
Conclusion d'un Test d'adéquation Statistique c2 - O : la fréquence observée dans chaque catégorie - F : la fréquence attendue dans chaque catégorie, Rejeter l ’hypothèse nulle si c2 est supérieure ou égale à la valeur critique c2a d ’un seuil de signification a ( a est la probabilité du risque de première espèce )
Conclusion d'un Test d'adéquation Exemple Etant donné a = 0.05 ( c2a= 3.841) Hypothèse nulle H0 : x = y rejetée si c2 ³ 3.841
Test d'adéquation pour les règles d'association Règle 1 : A Ù B => C [confiance : c1, support : s1], Règle 2 : A => C [confiance : c2, support : s2], c2 = pour c2 ¹ 0 et c2 ¹ 1 Rejeter l ’hypothèse nulle si c2 est supérieure ou égale à la valeur critique c2a d’un seuil de signification a
Règles significatives (1) Définition 1 : ra : A => C plus générale que rb : B => C si A Ì B. Exemple r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est plus générale que r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19].
Règles significatives (2) Définition 2 : ra est significative de seuil a par rapport à rb si : 1. rb est plus générale que ra , et 2. est supérieure ou égale à la valeur critique du seuil de signification a du test d'adéquation. Exemple r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est significative de seuil a= 0.05 par rapport à r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3]
Règles significatives (3) Définition 3 : Er : ensemble de règles r : élément de Er r est significative de seuil a pour Er si : - il n'existe pas de règle r' dans Er telle que r' est plus générale que r ou - r est significative de seuil a par rapport à toutes les règles r' dans Er telles que · r' plus générale que r, · r' est significative de seuil a pour Er.
Exemple de règles significatives Er = {r1, r2, r3, r4} r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r2 : (Pain = achat) Ù (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Règles significatives dans Er : {r1, r3} pour a = 0.05
Résultat expérimental
Recherches Futures - Raffinement d ’un ensemble de règles significatives - Algorithme efficace