Règles significatives

Règles significatives
Tao-Yuan JEN1, Nicolas SPYRATOS2, Yuzuru TANAKA3 1. LI - Université de Tours - Antenne de Blois, France 2. LRI - Université Paris XI, France 3. Meme Media Laboratory - Hokkaido University, Japon

Motivations 1. Quantité importante de règles 2. Intérêt des règles

Quantité importante de Règles
La quantité de règles peut être aussi importante que la quantité de données Exemple Base de données concernant des ponts à Pittsburgh - 108 enregistrements, 13 attributs - près de 1900 règles d'association D ’où le problème : comment extraire les règles intéressantes ?

Intérêt des Règles Est-ce que toutes les règles extraites
sont intéressantes? Exemple Règle 1 : (Profession = Etudiant) Ù (Adresse = Blois) => (Internet = Utilise) [confiance : 0.8, support : 0.3] ; Règle 2 : (Profession = Etudiant) Ù (Sexe = M) Ù (Adresse = Blois) => (Internet = Utilise) [confiance : 0.81, support : 0.17].

Préliminaires Soit Q (A1 : dom(A1),…, An : dom(An)) une table, et q une instance de Q Règle d ’association AR dans q : AR : LC => RC [confiance : c, support : s] où LC et RC sont des conjonctions de la forme Ai = vi . ¨ Support de AR : ¨ Confiance de AR :

Etat de l'art ¨ Algorithmes d ’extraction efficaces ¨ Problèmes :
manipulation des règles extraites - Langages de requêtes DMQL [Han et al 1996] , MSQL [IV 1999], etc. =>Insuffisants pour l ’extraction de connaissances - Mesures d ’intérêt

Mesures d'intérêt (1) => Absence de relations entre les règles
Gain, valeur de Laplace, conviction, intérêt et ordre SC [BA 1999], Indice d'inclusion et intensité d'implication entropique [BGB 2001]. => Absence de relations entre les règles

Mesures d'intérêt (1) Exemple r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r2 : (Pain = achat) Ù (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Intérêt de règles : r1 > r2 > r3 > r4, ou r1 < r2 < r3 < r4

Mesures d'intérêt (2) => Filtrage trop simplifié
Sélection par un seuil fixé [HF 1999] => Filtrage trop simplifié Exemple ra : A => C [confiance : 0.8, support : 0.3] rb : A Ù B => C [confiance : 0.86, support : 0.2] rc : X => Z [confiance : 0.90, support : 0.3] rd : X Ù Y => Z [confiance : 0.96, support : 0.2]

Notre proposition Utilise le test d’adéquation
- Prise en compte de relations entre règles - Filtrage à partir de seuils variables - Réduction du nombre de règles entre 60 % et 95 %

Test d'adéquation Vérifier une hypothèse relative à l'accord global
d'une distribution empirique avec une distribution théorique ou attendue. Exemple Hypothèse nulle H0 : x = y

Conclusion d'un Test d'adéquation
Statistique c2 - O : la fréquence observée dans chaque catégorie - F : la fréquence attendue dans chaque catégorie, Rejeter l ’hypothèse nulle si c2 est supérieure ou égale à la valeur critique c2a d ’un seuil de signification a ( a est la probabilité du risque de première espèce )

Conclusion d'un Test d'adéquation
Exemple Etant donné a = 0.05 ( c2a= 3.841) Hypothèse nulle H0 : x = y rejetée si c2 ³ 3.841

Test d'adéquation pour les règles d'association
Règle 1 : A Ù B => C [confiance : c1, support : s1], Règle 2 : A => C [confiance : c2, support : s2], c2 = pour c2 ¹ 0 et c2 ¹ 1 Rejeter l ’hypothèse nulle si c2 est supérieure ou égale à la valeur critique c2a d’un seuil de signification a

Règles significatives (1)
Définition 1 : ra : A => C plus générale que rb : B => C si A Ì B. Exemple r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est plus générale que r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19].

Définition 2 : ra est significative de seuil a par rapport à rb si : 1. rb est plus générale que ra , et 2. est supérieure ou égale à la valeur critique du seuil de signification a du test d'adéquation. Exemple r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est significative de seuil a= 0.05 par rapport à r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3]

Définition 3 : Er : ensemble de règles r : élément de Er r est significative de seuil a pour Er si : - il n'existe pas de règle r' dans Er telle que r' est plus générale que r ou - r est significative de seuil a par rapport à toutes les règles r' dans Er telles que · r' plus générale que r, · r' est significative de seuil a pour Er.

Exemple de règles significatives
Er = {r1, r2, r3, r4} r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r2 : (Pain = achat) Ù (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Règles significatives dans Er : {r1, r3} pour a = 0.05

Résultat expérimental

Recherches Futures - Raffinement d ’un ensemble
de règles significatives - Algorithme efficace

Règles significatives

Présentations similaires

Présentation au sujet: "Règles significatives"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Règles significatives

Présentations similaires

Présentation au sujet: "Règles significatives"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back