Règles significatives

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

L’échantillonnage & Ses Fluctuations
Comparaison d’une moyenne observée à une moyenne théorique
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Risques d’erreur statistique et test statistique
Test statistique : principe
Introduction aux statistiques
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
Echantillonnage Introduction
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Yann Chevaleyre et Jean-Daniel Zucker
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Échantillonnage-Estimation
Les tests d’hypothèses
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
Paul-Marie Bernard Université Laval
L’inférence statistique
Nombre de sujets nécessaires en recherche clinique
Régression linéaire simple
Problème Autre formulation :
Colloque Mathématiques pour lIngénieur et Héritage Poincaré, Nancy / 4-6 septembre 2000 AB, LC ENSM-SE, 3MI Mathématiques et transversalité : comment faire.
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Interprétation des tests statistiques.
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
La puissance statistique
Les modèles linéaires (Generalized Linear Models, GLM)
Modèles de décisions financières
TEST d’ADEQUATION A UNE LOI EQUIREPARTIE
1 - Programme de Seconde (juin 2009) Statistique et probabilités
On cherche des renseignements sur p.
Probabilités et Statistiques Année 2009/2010
Seconde partie - cours n°3 Théorie des tests
Joseph CHONG, Mauduit Pergent
Rappels de statistiques descriptives
PRINCIPE DES TESTS D’HYPOTHÈSE
Théorème de la limite centrale l’inférence statistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
Micro-intro aux stats.
ANOVA à 1 facteur en groupes de mesure indépendants
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Problème Autre formulation :
L’erreur standard et les principes fondamentaux du test de t
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Quelques commentaires sur les tests statistiques
ou comment savoir si les différences observées sont significatives
Initiation aux bases de données et à la programmation événementielle
Analyse des semis de point
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
Probabilités et statistique MQT-1102
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
ETUDES PRONOSTIQUES Pr Ganry.
Introduction aux statistiques Intervalles de confiance
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Transcription de la présentation:

Règles significatives Tao-Yuan JEN1, Nicolas SPYRATOS2, Yuzuru TANAKA3 1. LI - Université de Tours - Antenne de Blois, France 2. LRI - Université Paris XI, France 3. Meme Media Laboratory - Hokkaido University, Japon

Motivations 1. Quantité importante de règles 2. Intérêt des règles

Quantité importante de Règles La quantité de règles peut être aussi importante que la quantité de données Exemple Base de données concernant des ponts à Pittsburgh - 108 enregistrements, 13 attributs - près de 1900 règles d'association D ’où le problème : comment extraire les règles intéressantes ?

Intérêt des Règles Est-ce que toutes les règles extraites sont intéressantes? Exemple Règle 1 : (Profession = Etudiant) Ù (Adresse = Blois) => (Internet = Utilise) [confiance : 0.8, support : 0.3] ; Règle 2 : (Profession = Etudiant) Ù (Sexe = M) Ù (Adresse = Blois) => (Internet = Utilise) [confiance : 0.81, support : 0.17].

Préliminaires Soit Q (A1 : dom(A1),…, An : dom(An)) une table, et q une instance de Q Règle d ’association AR dans q : AR : LC => RC [confiance : c, support : s] où LC et RC sont des conjonctions de la forme Ai = vi . ¨ Support de AR : ¨ Confiance de AR :

Etat de l'art ¨ Algorithmes d ’extraction efficaces ¨ Problèmes : manipulation des règles extraites - Langages de requêtes DMQL [Han et al 1996] , MSQL [IV 1999], etc. =>Insuffisants pour l ’extraction de connaissances - Mesures d ’intérêt

Mesures d'intérêt (1) => Absence de relations entre les règles Gain, valeur de Laplace, conviction, intérêt et ordre SC [BA 1999], Indice d'inclusion et intensité d'implication entropique [BGB 2001]. => Absence de relations entre les règles

Mesures d'intérêt (1) Exemple r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r2 : (Pain = achat) Ù (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Intérêt de règles : r1 > r2 > r3 > r4, ou r1 < r2 < r3 < r4

Mesures d'intérêt (2) => Filtrage trop simplifié Sélection par un seuil fixé [HF 1999] => Filtrage trop simplifié Exemple ra : A => C [confiance : 0.8, support : 0.3] rb : A Ù B => C [confiance : 0.86, support : 0.2] rc : X => Z [confiance : 0.90, support : 0.3] rd : X Ù Y => Z [confiance : 0.96, support : 0.2]

Notre proposition Utilise le test d’adéquation - Prise en compte de relations entre règles - Filtrage à partir de seuils variables - Réduction du nombre de règles entre 60 % et 95 %

Test d'adéquation Vérifier une hypothèse relative à l'accord global d'une distribution empirique avec une distribution théorique ou attendue. Exemple Hypothèse nulle H0 : x = y

Conclusion d'un Test d'adéquation Statistique c2 - O : la fréquence observée dans chaque catégorie - F : la fréquence attendue dans chaque catégorie, Rejeter l ’hypothèse nulle si c2 est supérieure ou égale à la valeur critique c2a d ’un seuil de signification a ( a est la probabilité du risque de première espèce )

Conclusion d'un Test d'adéquation Exemple Etant donné a = 0.05 ( c2a= 3.841) Hypothèse nulle H0 : x = y rejetée si c2 ³ 3.841

Test d'adéquation pour les règles d'association Règle 1 : A Ù B => C [confiance : c1, support : s1], Règle 2 : A => C [confiance : c2, support : s2], c2 = pour c2 ¹ 0 et c2 ¹ 1 Rejeter l ’hypothèse nulle si c2 est supérieure ou égale à la valeur critique c2a d’un seuil de signification a

Règles significatives (1) Définition 1 : ra : A => C plus générale que rb : B => C si A Ì B. Exemple r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est plus générale que r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19].

Règles significatives (2) Définition 2 : ra est significative de seuil a par rapport à rb si : 1. rb est plus générale que ra , et 2. est supérieure ou égale à la valeur critique du seuil de signification a du test d'adéquation. Exemple r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] est significative de seuil a= 0.05 par rapport à r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3]

Règles significatives (3) Définition 3 : Er : ensemble de règles r : élément de Er r est significative de seuil a pour Er si : - il n'existe pas de règle r' dans Er telle que r' est plus générale que r ou - r est significative de seuil a par rapport à toutes les règles r' dans Er telles que · r' plus générale que r, · r' est significative de seuil a pour Er.

Exemple de règles significatives Er = {r1, r2, r3, r4} r1 : (Pain = achat) => (Fromage = achat) [confiance : 0.8, support : 0.3] r2 : (Pain = achat) Ù (Lait = achat) => (Fromage = achat) [confiance : 0.83, support : 0.27] r3 : (Pain = achat) Ù (Vin Rouge = achat) => (Fromage = achat) [confiance : 0.9, support : 0.2] r4 : (Pain = achat) Ù (Vin Rouge = achat) Ù (Vin Blanc = achat) => (Fromage = achat) [confiance : 0.91, support : 0.19] Règles significatives dans Er : {r1, r3} pour a = 0.05

Résultat expérimental

Recherches Futures - Raffinement d ’un ensemble de règles significatives - Algorithme efficace