Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Règles significatives
Tao-Yuan JEN1, Nicolas SPYRATOS2, Yuzuru TANAKA3 1. LI - Université de Tours - Antenne de Blois, France 2. LRI - Université Paris XI, France 3. Meme Media Laboratory - Hokkaido University, Japon
2
Motivations 1. Quantité importante de règles 2. Intérêt des règles
3
Quantité importante de Règles
La quantité de règles peut être aussi importante que la quantité de données Exemple Base de données concernant des ponts à Pittsburgh - 108 enregistrements, 13 attributs - près de 1900 règles d'association D ’où le problème : comment extraire les règles intéressantes ?
4
Intérêt des Règles Est-ce que toutes les règles extraites
sont intéressantes? Exemple Règle 1 : (Profession = Etudiant) Ù (Adresse = Blois) => (Internet = Utilise) [confiance : 0.8, support : 0.3] ; Règle 2 : (Profession = Etudiant) Ù (Sexe = M) Ù (Adresse = Blois) => (Internet = Utilise) [confiance : 0.81, support : 0.17].
5
Préliminaires Soit Q (A1 : dom(A1),…, An : dom(An)) une table, et q une instance de Q Règle d ’association AR dans q : AR : LC => RC [confiance : c, support : s] où LC et RC sont des conjonctions de la forme Ai = vi . ¨ Support de AR : ¨ Confiance de AR :
6
Etat de l'art ¨ Algorithmes d ’extraction efficaces ¨ Problèmes :
manipulation des règles extraites - Langages de requêtes DMQL [Han et al 1996] , MSQL [IV 1999], etc. =>Insuffisants pour l ’extraction de connaissances - Mesures d ’intérêt
7
Mesures d'intérêt (1) => Absence de relations entre les règles
Gain, valeur de Laplace, conviction, intérêt et ordre SC [BA 1999], Indice d'inclusion et intensité d'implication entropique [BGB 2001]. => Absence de relations entre les règles
8
Mesures d'intérêt (1) Exemple r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r2 : (Pain = achat) Ù (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Intérêt de règles : r1 > r2 > r3 > r4, ou r1 < r2 < r3 < r4
9
Mesures d'intérêt (2) => Filtrage trop simplifié
Sélection par un seuil fixé [HF 1999] => Filtrage trop simplifié Exemple ra : A => C [confiance : 0.8, support : 0.3] rb : A Ù B => C [confiance : 0.86, support : 0.2] rc : X => Z [confiance : 0.90, support : 0.3] rd : X Ù Y => Z [confiance : 0.96, support : 0.2]
10
Notre proposition Utilise le test d’adéquation
- Prise en compte de relations entre règles - Filtrage à partir de seuils variables - Réduction du nombre de règles entre 60 % et 95 %
11
Test d'adéquation Vérifier une hypothèse relative à l'accord global
d'une distribution empirique avec une distribution théorique ou attendue. Exemple Hypothèse nulle H0 : x = y
12
Conclusion d'un Test d'adéquation
Statistique c2 - O : la fréquence observée dans chaque catégorie - F : la fréquence attendue dans chaque catégorie, Rejeter l ’hypothèse nulle si c2 est supérieure ou égale à la valeur critique c2a d ’un seuil de signification a ( a est la probabilité du risque de première espèce )
13
Conclusion d'un Test d'adéquation
Exemple Etant donné a = 0.05 ( c2a= 3.841) Hypothèse nulle H0 : x = y rejetée si c2 ³ 3.841
14
Test d'adéquation pour les règles d'association
Règle 1 : A Ù B => C [confiance : c1, support : s1], Règle 2 : A => C [confiance : c2, support : s2], c2 = pour c2 ¹ 0 et c2 ¹ 1 Rejeter l ’hypothèse nulle si c2 est supérieure ou égale à la valeur critique c2a d’un seuil de signification a
15
Règles significatives (1)
Définition 1 : ra : A => C plus générale que rb : B => C si A Ì B. Exemple r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est plus générale que r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19].
16
Règles significatives (2)
Définition 2 : ra est significative de seuil a par rapport à rb si : 1. rb est plus générale que ra , et 2. est supérieure ou égale à la valeur critique du seuil de signification a du test d'adéquation. Exemple r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est significative de seuil a= 0.05 par rapport à r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3]
17
Règles significatives (3)
Définition 3 : Er : ensemble de règles r : élément de Er r est significative de seuil a pour Er si : - il n'existe pas de règle r' dans Er telle que r' est plus générale que r ou - r est significative de seuil a par rapport à toutes les règles r' dans Er telles que · r' plus générale que r, · r' est significative de seuil a pour Er.
18
Exemple de règles significatives
Er = {r1, r2, r3, r4} r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r2 : (Pain = achat) Ù (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Règles significatives dans Er : {r1, r3} pour a = 0.05
19
Résultat expérimental
20
Recherches Futures - Raffinement d ’un ensemble
de règles significatives - Algorithme efficace
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.