La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Règles significatives Tao-Yuan JEN 1, Nicolas SPYRATOS 2, Yuzuru TANAKA 3 1. LI - Université de Tours - Antenne de Blois, France 2. LRI - Université Paris.

Présentations similaires


Présentation au sujet: "Règles significatives Tao-Yuan JEN 1, Nicolas SPYRATOS 2, Yuzuru TANAKA 3 1. LI - Université de Tours - Antenne de Blois, France 2. LRI - Université Paris."— Transcription de la présentation:

1 Règles significatives Tao-Yuan JEN 1, Nicolas SPYRATOS 2, Yuzuru TANAKA 3 1. LI - Université de Tours - Antenne de Blois, France 2. LRI - Université Paris XI, France 3. Meme Media Laboratory - Hokkaido University, Japon

2 Motivations 1. Quantité importante de règles 2. Intérêt des règles

3 Quantité importante de Règles La quantité de règles peut être aussi importante que la quantité de données Exemple Base de données concernant des ponts à Pittsburgh enregistrements, 13 attributs - près de 1900 règles d'association D où le problème : comment extraire les règles intéressantes ?

4 Intérêt des Règles Est-ce que toutes les règles extraites sont intéressantes? Exemple Règle 1 : (Profession = Etudiant) (Adresse = Blois) => (Internet = Utilise) [confiance : 0.8, support : 0.3] ; Règle 2 : (Profession = Etudiant) (Sexe = M) (Adresse = Blois) => (Internet = Utilise) [confiance : 0.81, support : 0.17].

5 Préliminaires Soit Q (A 1 : dom(A 1 ),…, A n : dom(A n )) une table, et q une instance de Q Règle d association AR dans q : AR : LC => RC [confiance : c, support : s] où LC et RC sont des conjonctions de la forme A i = v i. Support de AR : Confiance de AR :

6 Etat de l'art Algorithmes d extraction efficaces Problèmes : manipulation des règles extraites - Langages de requêtes DMQL [Han et al 1996], MSQL [IV 1999], etc. =>Insuffisants pour l extraction de connaissances - Mesures d intérêt

7 Mesures d'intérêt (1) Gain, valeur de Laplace, conviction, intérêt et ordre SC [BA 1999], Indice d'inclusion et intensité d'implication entropique [BGB 2001]. => Absence de relations entre les règles

8 Mesures d'intérêt (1) Exemple r 1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r 2 : (Pain = achat) (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r 3 : (Pain = achat) (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r 4 : (Pain = achat) (Vin Rouge = achat) (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Intérêt de règles : r 1 > r 2 > r 3 > r 4, ou r 1 < r 2 < r 3 < r 4

9 Mesures d'intérêt (2) Sélection par un seuil fixé [HF 1999] => Filtrage trop simplifié Exemple r a : A => C [confiance : 0.8, support : 0.3] r b : A B => C [confiance : 0.86, support : 0.2] r c : X => Z [confiance : 0.90, support : 0.3] r d : X Y => Z [confiance : 0.96, support : 0.2]

10 Notre proposition Utilise le test dadéquation - Prise en compte de relations entre règles - Filtrage à partir de seuils variables - Réduction du nombre de règles entre 60 % et 95 %

11 Test d'adéquation Vérifier une hypothèse relative à l'accord global d'une distribution empirique avec une distribution théorique ou attendue. Exemple Hypothèse nulle H 0 : x = y

12 Conclusion d'un Test d'adéquation Statistique 2 - O : la fréquence observée dans chaque catégorie - F : la fréquence attendue dans chaque catégorie, Rejeter l hypothèse nulle si 2 est supérieure ou égale à la valeur critique 2 d un seuil de signification est la probabilité du risque de première espèce )

13 Conclusion d'un Test d'adéquation Exemple Etant donné = 0.05 ( 2 = 3.841) Hypothèse nulle H 0 : x = y rejetée si

14 Test d'adéquation pour les règles d'association Règle 1 : A B => C [confiance : c 1, support : s 1 ], Règle 2 : A => C [confiance : c 2, support : s 2 ], pour c 2 0 et c = Rejeter l hypothèse nulle si 2 est supérieure ou égale à la valeur critique 2 dun seuil de signification

15 Règles significatives (1) Définition 1 : r a : A => C plus générale que r b : B => C si A B. Exemple r 3 : (Pain = achat) (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est plus générale que r 4 : (Pain = achat) (Vin Rouge = achat) (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19].

16 Règles significatives (2) Définition 2 : r a est significative de seuil par rapport à r b si : 1. r b est plus générale que r a, et est supérieure ou égale à la valeur critique du seuil de signification du test d'adéquation. Exemple r 3 : (Pain = achat) (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est significative de seuil par rapport à r 1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] 2.

17 Règles significatives (3) Définition 3 : Er : ensemble de règles r : élément de Er r est significative de seuil pour Er si : - il n'existe pas de règle r' dans Er telle que r' est plus générale que r ou - r est significative de seuil par rapport à toutes les règles r' dans Er telles que r' plus générale que r, r' est significative de seuil pour Er.

18 Exemple de règles significatives Er = {r 1, r 2, r 3, r 4 } r 1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r 2 : (Pain = achat) (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r 3 : (Pain = achat) (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r 4 : (Pain = achat) (Vin Rouge = achat) (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Règles significatives dans Er : {r 1, r 3 } pour = 0.05

19 Résultat expérimental

20 Recherches Futures - Raffinement d un ensemble de règles significatives - Algorithme efficace


Télécharger ppt "Règles significatives Tao-Yuan JEN 1, Nicolas SPYRATOS 2, Yuzuru TANAKA 3 1. LI - Université de Tours - Antenne de Blois, France 2. LRI - Université Paris."

Présentations similaires


Annonces Google