Télécharger la présentation
Publié parAnselme Leriche Modifié depuis plus de 10 années
1
Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel
Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire d’Informatique Fondamentale Marseille
2
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel
3
1. Nécessité d’un espace de recherche pour le data mining multidimensionnel
Problème de la transformation d’une relation d’attributs catégories en une relation binaire Treillis des parties : une structure mal adaptée au contexte multidimensionnel Non préservation de la complexité des algorithmes par niveaux Casali, Cicchetti, Lakhal : Treillis Relationnel
4
Exemple: Casali, Cicchetti, Lakhal : Treillis Relationnel 4 Entrée
Plat principal Dessert Quantité Salade composée Agneau Glace 3 Bœuf 2 Fruit Jambon 1 Melon Casali, Cicchetti, Lakhal : Treillis Relationnel
5
Treillis des attributs binaires :
Mais toutes les solutions ne sont pas valides Casali, Cicchetti, Lakhal : Treillis Relationnel
6
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel
7
2. Treillis relationnel r : relation de schéma
2.1 Espace multidimensionnel tuple = élément de space(r) = motif multidimensionnel ex: <S,ALL,ALL> et <S,A,ALL> 2.2 Ordre de généralisation On munit space(r) de l’ordre de généralisation g ex: <S,ALL,ALL> g <S,A,ALL> Casali, Cicchetti, Lakhal : Treillis Relationnel
8
2.3 Opérateurs de base ? ALL (a) La Somme
Casali, Cicchetti, Lakhal : Treillis Relationnel
9
(b) Le Produit Casali, Cicchetti, Lakhal : Treillis Relationnel
10
2.4 Caractérisation du treillis relationnel
Théorème: soit r une relation d’attributs catégories sur L’ensemble ordonné (space(r), g) est un treillis complet, atomique, co-atomique et gradué, appelé treillis relationnel et noté RL(r), dans lequel : Casali, Cicchetti, Lakhal : Treillis Relationnel
11
2.5 Treillis relationnel vs Treillis des parties
Casali, Cicchetti, Lakhal : Treillis Relationnel
12
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel
13
3. Treillis relationnel contraint
3.1 Définition des contraintes Une contrainte cont est anti-monotone w.r.t. g ssi Une contrainte cont est monotone w.r.t. g ssi Casali, Cicchetti, Lakhal : Treillis Relationnel
14
3.2 Structure convexe « garantie »
Théorème: le treillis relationnel contraint est un espace convexe (représentable par bordures) dans lequel la borne maximale S+cont et la borne minimale G+cont sont: 1. Si cont = cmc, G+ = min ({t RL(r) : cmc(t)} ) et S+=<Ø,…Ø> 2. Si cont = camc, G+=<ALL,…,ALL> et S+ = max({t RL(r) : camc(t)}) 3. Si cont = chc, G+ = min({t RL(r) :chc(t)}) et S+ = max({t RL(r) : chc(t)}) Casali, Cicchetti, Lakhal : Treillis Relationnel
15
3.3 Exemples de contraintes
(a) Fréquence Freq(t) minfreq est une contrainte anti-monotone et Freq(t) maxfreq est une contrainte monotone. (b) Fréquence de la disjonction Freq(vt) minfreq est une contrainte monotone et Freq(vt) maxfreq est une contrainte anti-monotone. Casali, Cicchetti, Lakhal : Treillis Relationnel
16
3.4 Exactitude des solutions
(a) freq(t) 3/11 (contrainte anti-monotone) E PP D Q S A G 3 B 2 F J 1 M Algorithme par niveau binaire donne le même résultat ? Casali, Cicchetti, Lakhal : Treillis Relationnel
17
(b) freq(t) 4/11 (contrainte monotone)
PP D Q S A G 3 B 2 F J 1 M Si algorithme (cadre binaire) => SJ fait partie des résultats. Solution possible: ajouter la contrainte freq(t)>0. Mais freq(<J,B,?>)=0 et <J,B,?> vérifie la contrainte. Casali, Cicchetti, Lakhal : Treillis Relationnel
18
(c) freq(Vt) 6/11 (contrainte anti-monotone)
PP D Q S A G 3 B 2 F J 1 M Freq(V<J,?,F>) = 5/11 mais Freq(<J,?,F>) = 0 Donc la contrainte Freq(t) > 0 ne permet pas d’obtenir l’ensemble des solutions d’un problème de data mining multidimensionnel en utilisant les techniques de data mining binaire. Casali, Cicchetti, Lakhal : Treillis Relationnel
19
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel
20
4. Treillis relationnel vs Datacube
Datacube est un problème de data mining multidimensionnel dont l’espace de recherche est le treillis relationnel. RL(r) = Datacube( ) + ordre de généralisation + opérateurs Produit et Somme Ordre de généralisation et opérateurs de base permettent la navigation dans le Datacube Casali, Cicchetti, Lakhal : Treillis Relationnel
21
Premiers résultats (VLDB’02) :
Projet similaire Laksmanan, Pei, Han pour l’extraction des connaissances (sémantiques) dans le Datacube. Premiers résultats (VLDB’02) : Cube Quotient : Treillis des classes d’équivalences selon des fonctions agrégatives. Ce cube (réduit) permet la navigation comme dans le Datacube. Casali, Cicchetti, Lakhal : Treillis Relationnel
22
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel
23
5. Perspectives Treillis relationnel fermé Espace de version
Espace de version émergent ( 2 Datacubes) Représentations concises/condensées du treillis relationnel contraint Casali, Cicchetti, Lakhal : Treillis Relationnel
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.