Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire d’Informatique Fondamentale Marseille
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 2
1. Nécessité d’un espace de recherche pour le data mining multidimensionnel Problème de la transformation d’une relation d’attributs catégories en une relation binaire Treillis des parties : une structure mal adaptée au contexte multidimensionnel Non préservation de la complexité des algorithmes par niveaux Casali, Cicchetti, Lakhal : Treillis Relationnel 3
Exemple: Casali, Cicchetti, Lakhal : Treillis Relationnel 4 Entrée Plat principal Dessert Quantité Salade composée Agneau Glace 3 Bœuf 2 Fruit Jambon 1 Melon Casali, Cicchetti, Lakhal : Treillis Relationnel 4
Treillis des attributs binaires : Mais toutes les solutions ne sont pas valides Casali, Cicchetti, Lakhal : Treillis Relationnel 5
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 6
2. Treillis relationnel r : relation de schéma 2.1 Espace multidimensionnel tuple = élément de space(r) = motif multidimensionnel ex: <S,ALL,ALL> et <S,A,ALL> 2.2 Ordre de généralisation On munit space(r) de l’ordre de généralisation g ex: <S,ALL,ALL> g <S,A,ALL> Casali, Cicchetti, Lakhal : Treillis Relationnel 7
2.3 Opérateurs de base ? ALL (a) La Somme Casali, Cicchetti, Lakhal : Treillis Relationnel 8
(b) Le Produit Casali, Cicchetti, Lakhal : Treillis Relationnel 9
2.4 Caractérisation du treillis relationnel Théorème: soit r une relation d’attributs catégories sur .L’ensemble ordonné (space(r), g) est un treillis complet, atomique, co-atomique et gradué, appelé treillis relationnel et noté RL(r), dans lequel : Casali, Cicchetti, Lakhal : Treillis Relationnel 10
2.5 Treillis relationnel vs Treillis des parties Casali, Cicchetti, Lakhal : Treillis Relationnel 11
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 12
3. Treillis relationnel contraint 3.1 Définition des contraintes Une contrainte cont est anti-monotone w.r.t. g ssi Une contrainte cont est monotone w.r.t. g ssi Casali, Cicchetti, Lakhal : Treillis Relationnel 13
3.2 Structure convexe « garantie » Théorème: le treillis relationnel contraint est un espace convexe (représentable par bordures) dans lequel la borne maximale S+cont et la borne minimale G+cont sont: 1. Si cont = cmc, G+ = min ({t RL(r) : cmc(t)} ) et S+=<Ø,…Ø> 2. Si cont = camc, G+=<ALL,…,ALL> et S+ = max({t RL(r) : camc(t)}) 3. Si cont = chc, G+ = min({t RL(r) :chc(t)}) et S+ = max({t RL(r) : chc(t)}) Casali, Cicchetti, Lakhal : Treillis Relationnel 14
3.3 Exemples de contraintes (a) Fréquence Freq(t) minfreq est une contrainte anti-monotone et Freq(t) maxfreq est une contrainte monotone. (b) Fréquence de la disjonction Freq(vt) minfreq est une contrainte monotone et Freq(vt) maxfreq est une contrainte anti-monotone. Casali, Cicchetti, Lakhal : Treillis Relationnel 15
3.4 Exactitude des solutions (a) freq(t) 3/11 (contrainte anti-monotone) E PP D Q S A G 3 B 2 F J 1 M Algorithme par niveau binaire donne le même résultat ? Casali, Cicchetti, Lakhal : Treillis Relationnel 16
(b) freq(t) 4/11 (contrainte monotone) PP D Q S A G 3 B 2 F J 1 M Si algorithme (cadre binaire) => SJ fait partie des résultats. Solution possible: ajouter la contrainte freq(t)>0. Mais freq(<J,B,?>)=0 et <J,B,?> vérifie la contrainte. Casali, Cicchetti, Lakhal : Treillis Relationnel 17
(c) freq(Vt) 6/11 (contrainte anti-monotone) PP D Q S A G 3 B 2 F J 1 M Freq(V<J,?,F>) = 5/11 mais Freq(<J,?,F>) = 0 Donc la contrainte Freq(t) > 0 ne permet pas d’obtenir l’ensemble des solutions d’un problème de data mining multidimensionnel en utilisant les techniques de data mining binaire. Casali, Cicchetti, Lakhal : Treillis Relationnel 18
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 19
4. Treillis relationnel vs Datacube Datacube est un problème de data mining multidimensionnel dont l’espace de recherche est le treillis relationnel. RL(r) = Datacube( ) + ordre de généralisation + opérateurs Produit et Somme Ordre de généralisation et opérateurs de base permettent la navigation dans le Datacube Casali, Cicchetti, Lakhal : Treillis Relationnel 20
Premiers résultats (VLDB’02) : Projet similaire Laksmanan, Pei, Han pour l’extraction des connaissances (sémantiques) dans le Datacube. Premiers résultats (VLDB’02) : Cube Quotient : Treillis des classes d’équivalences selon des fonctions agrégatives. Ce cube (réduit) permet la navigation comme dans le Datacube. Casali, Cicchetti, Lakhal : Treillis Relationnel 21
Plan Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel Treillis relationnel contraint Treillis relationnel vs Datacube Perspectives Casali, Cicchetti, Lakhal : Treillis Relationnel 22
5. Perspectives Treillis relationnel fermé Espace de version Espace de version émergent ( 2 Datacubes) Représentations concises/condensées du treillis relationnel contraint Casali, Cicchetti, Lakhal : Treillis Relationnel 23