La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

JIRC09 / NEGRE Elsa Exploration collaborative de cubes de données NEGRE Elsa Université François Rabelais Tours JIRC09 22 Janvier 2010.

Présentations similaires


Présentation au sujet: "JIRC09 / NEGRE Elsa Exploration collaborative de cubes de données NEGRE Elsa Université François Rabelais Tours JIRC09 22 Janvier 2010."— Transcription de la présentation:

1 JIRC09 / NEGRE Elsa Exploration collaborative de cubes de données NEGRE Elsa Université François Rabelais Tours JIRC09 22 Janvier 2010

2 JIRC09 / NEGRE Elsa 2/30 Plan 1.Contexte / Problématique 2.BD multidimensionnelles 3.Intuitions 4.Recommandation de requêtes 5.Expérimentations et Résultats 6.Conclusion et Perspectives

3 JIRC09 / NEGRE Elsa 3/30 Contexte / Problématique Problématique : Comment aider lutilisateur à avancer dans son exploration du cube de données en lui proposant des requêtes pertinentes ? Contexte : – Informations Exploration de cubes de données – Plusieurs utilisateurs

4 JIRC09 / NEGRE Elsa 4/30 Plan 1.Contexte / Problématique 2.BD multidimensionnelles 3.Intuitions 4.Recommandation de requêtes 5.Expérimentations et Résultats 6.Conclusion et Perspectives 2.BD multidimensionnelles

5 JIRC09 / NEGRE Elsa 5/30 Modélisation des bases de données multidimensionnelles Dimension (D) sort(TEMPS)={DateV, Mois, Trimestre, Année, AllT} Fait (F) sort(VENTES)={Immatriculation, DateV, CodeVille, NomM, Valeur} Cube N-dimensionnel, C = MesVentes = Schéma en étoile inspiré par [Golfarelli + :IJCIS98] 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

6 JIRC09 / NEGRE Elsa 6/30 Le langage MDX [Microsoft:1998] Requête : {Rouge} X {Centre, Limousin} X π Année (Temps) X {Montant} Références : {,, } Résultat : 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

7 JIRC09 / NEGRE Elsa 7/30 Analyse multidimensionnelle Interrogation : Quelles sont les mauvaises ventes ? Réponse : Les véhicules réalisant des mauvaises ventes sont les véhicules rouges et les véhicules bleus dans la ville de Tours. Session danalyse [Sarawagi:VLDB00] : s 1 = q 1 q 2 q 3 – q 1 = Ventes dans les départements de la région Centre, quels que soient les véhicules et les informations temporelles – q 2 = Ventes dans les villes dIndre-et-Loire, quels que soient les véhicules et les informations temporelles – q 3 = Ventes de véhicules selon leur couleur dans les villes dIndre-et-Loire, quelles que soient les informations temporelles 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

8 JIRC09 / NEGRE Elsa 8/30 Environnement 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

9 JIRC09 / NEGRE Elsa 9/30 Plan 1.Contexte / Problématique 2.BD multidimensionnelles 3.Intuitions 4.Recommandation de requêtes 5.Expérimentations et Résultats 6.Conclusion et Perspectives 3.Intuitions

10 JIRC09 / NEGRE Elsa 10/30 Intuitions RI Web Usage Mining e-commerce Utiliser les comportements connus d'une population pour envisager les futures actions d'un utilisateur particulier et Rechercher, par comparaison, les utilisateurs ayant des comportements semblables OLAP Exploitation des précédentes sessions des autres utilisateurs pour générer des recommandations 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives Filtrage collaboratif en :

11 JIRC09 / NEGRE Elsa 11/30 Problèmes / Solutions Problèmes : 1.Comment déterminer la similarité entre deux sessions/séquences de requêtes ? 2.Comment déterminer la similarité entre deux requêtes ? 3.Dans quel ordre présenter les requêtes recommandées ? Solutions : 1.Distance entre séquences de requêtes 2.Distance entre requêtes 3.Ordonnancement de requêtes 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

12 JIRC09 / NEGRE Elsa 12/30 Plan 1.Contexte / Problématique 2.BD multidimensionnelles 3.Intuitions 4.Recommandation de requêtes 1.Jkjhkjhk 2.Kjkjjk 3.Kjkjk 5.Expérimentations et Résultats 6.Conclusion et Perspectives 4.Recommandation de requêtes a.Distances entre sessions b.Cadre générique de génération de recommandations c.Instanciations du cadre

13 JIRC09 / NEGRE Elsa 13/30 Distances entre références Références : – r 1 : – r 2 : – r 3 : Tours IndreEtLoire Vendome Blois LoirEtCher AllG Bordeaux Gironde Centre Aquitaine Distance de Hamming : simplicité dutilisation mais grossière – d h (r 1,r 2 ) = compare(Blois,Tours) + 0 = 1 – d h (r 1,r 3 ) = compare(Blois,Vendome) + 0 = 1 Distance basée sur le plus court chemin : prise en compte des hiérarchies : compliquée mais fine – d sp (r 1,r 2 ) = d m (Blois,Tours) + 0 = 4 – d sp (r 1,r 3 ) = d m (Blois,Vendome) + 0 = 2 d h (r 1,r 2 ) = d h (r 1,r 3 ) et d sp (r 1,r 2 ) d sp (r 1,r 3 ) 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

14 JIRC09 / NEGRE Elsa 14/30 Distance de Hausdorff Requêtes : – q 1 : Montant des ventes de véhicules rouges à Blois quelle que soit lannée : { } = {r 1 1 } – q 2 : Montant des ventes de véhicules rouges ou bleus à Tours en 2008 : {, } = {r 2 1, r 2 2 } Distance de Hausdorff entre requêtes : = 7 r11r11 r21r21 r22r22 q1q1 q2q Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

15 JIRC09 / NEGRE Elsa 15/30 Distance entre sessions (1) Sessions : s 1 : q 3 s 2 : q 1 q 2 Distance de Levenshtein entre sessions d Levenshtein (s 1, s 2 ) = d Levenshtein (q 3, q 1 q 2 ) – Opérations : Substitution dune requête q par une requête q Insertion (suppression) dune requête – Possibilités : e 1 : q 3 q 1 (q 1 q 2 ) e 2 : q 3 Ø q 1 (q 1 q 2 ) – Coût Si chaque opération vaut 1 coût(e 1 ) = 2 < coût(e 2 ) = 3 – Distance entre sessions = coût minimal d Levenshtein (s 1, s 2 ) = 2 subst(q 3,q 1 )ajout(q 2 ) ajout(q 1 )ajout(q 2 )suppr(q 3 ) 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

16 JIRC09 / NEGRE Elsa 16/30 Dans notre contexte : – Coût des opérations : Substitution dune requête q par une requête q = d H (q,q) Ajout (suppression) de requête = α – Exemple : Sessions : – s 1 : q 3 – s 2 : q 1 q 2 e 1 : q 3 q 1 (q 1 q 2 ) d Levenshtein (s 1, s 2 ) = coût(e 1 ) = d H (q 1,q 3 ) + α Distance entre sessions (2) subst(q 3,q 1 )ajout(q 2 ) 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

17 JIRC09 / NEGRE Elsa 17/30 Présentation du cadre MatchRep 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

18 JIRC09 / NEGRE Elsa 18/30 ClusterH K-médoïdes Médoïde du successeur Suffixes de g c d H (q 3,q 4 ) < d H (q 3,q 5 ) [Hamming] Classes : c 1 ={q 1 }, c 2 ={q 2,q 2 2,q 3,q 3 2 }, c 3 ={q 4 }, c 4 ={q 5,q 6 } 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

19 JIRC09 / NEGRE Elsa 19/30 EdSP Identité Dernier Distance de Levenshtein 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

20 JIRC09 / NEGRE Elsa 20/30 Plan 1.Contexte / Problématique 2.BD multidimensionnelles 3.Intuitions 4.Recommandation de requêtes 5.Expérimentations et Résultats 1.Jjhhj 2.Kjkjkjk 6.Conclusion et Perspectives 5.Expérimentations et Résultats a.Le système b.Notre générateur c.Les tests

21 JIRC09 / NEGRE Elsa 21/30 Le système 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

22 JIRC09 / NEGRE Elsa 22/30 Notre générateur – Le cube Base de données FoodMart (OLAP Mondrian [Pentaho:2009] ) – Les sessions : 300 références max. par requête MDX X sessions Y requêtes max. par session Z dimensions pour le pool de départ – Propriétés : Variation de la densité des logs générés grâce à Z Obtention des requêtes successives grâce aux opérateurs de Sarawagi (Diff, Relax, Excep) 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

23 JIRC09 / NEGRE Elsa 23/30 Analyse de performance Observations – Augmentation linéaire du temps avec la taille des logs – Temps acceptable < 1 sec. (sauf EdSP) 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

24 JIRC09 / NEGRE Elsa 24/30 Validation croisée (1) Log Sessions courantes de taille n Log initial s c = q 1 … q n-1 ? (q at ) q rec = q at ? 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

25 JIRC09 / NEGRE Elsa 25/30 Validation croisée (2) Exemple : – q at = { } – q rec h = { } – Précision(q rec h ) = 2/4 = 1/2 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

26 JIRC09 / NEGRE Elsa 26/30 Validation croisée (3) Observations : – x% des sessions ont une F-mesure y – F-mesure augmente lorsque la densité augmente – ClusterH : performances moins bonnes pour densité faible – Distance de Hamming favorisée par calcul de rappel/précision

27 JIRC09 / NEGRE Elsa 27/30 Plan 1.Contexte / Problématique 2.BD multidimensionnelles 3.Intuitions 4.Recommandation de requêtes 5.Expérimentations et Résultats 6.Conclusion et Perspectives

28 JIRC09 / NEGRE Elsa 28/30 Conclusion Recommandation de requêtes MDX – Méthode collaborative de guidage de lutilisateur pour lexploration de gros volumes de données Prétraitement du log de requêtes Génération de requêtes candidates Ordonnancement des recommandations candidates – 4 instanciations Expérimentations : RecoOLAP – Comparaison des différentes instanciations – Efficacité de notre technique 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

29 JIRC09 / NEGRE Elsa 29/30 Perspectives (1) Améliorer les performances du système Dautres types de recommandations – Exemple : Sessions ne différant que dune sélection Recommandation 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

30 JIRC09 / NEGRE Elsa 30/30 Perspectives (2) Expérimentations sur données réelles – IRSA (Institut interRégional pour la SAnté) – Elaboration des sessions en cours Contribution à un système collaboratif de gestion de requêtes – Plateforme de génération de recommandations – Adapter lapproche aux besoins des utilisateurs Diverses méthodes de calcul de sessions / requêtes candidates Prendre en compte les valeurs des mesures [Giacometti + :DOLAP09] Diverses techniques (collaborative, contenu [Chatzopoulou + :SSDBM09], prise en compte du contexte et du profil de lutilisateur [Jerbi + :ICEIS09, Bellatreche + :DOLAP05, Golfarelli + :SSDBM09] ) – Possibilités sophistiquées de gestion de requêtes [Khoussaïnova + :CIDR09] 1. Introduction 2. BDM 3. Intuitions 4. Recommandation 5. Expérimentations 6. Conclusion et Perspectives

31 JIRC09 / NEGRE Elsa 31/30 Merci de votre attention

32 JIRC09 / NEGRE Elsa 32/30 ANNEXES

33 JIRC09 / NEGRE Elsa 33/30 Défaveur de SP La requête attendue – q at = { } Les recommandations – q reco h = { } – q reco sp = { } Raisons – d H h (q at, q reco h ) = = 2 – d H sp (q at, q reco sp ) = = 3 Précision = – Précision(q reco h ) = 2/4 = 1/2 – Précision(q reco sp ) = 1/4

34 JIRC09 / NEGRE Elsa 34/30 BD : Recommandation vs. Personnalisation Personnalisation : – ajout de conditions de sélection en fonction du profil de lutilisateur. La requête personnalisée est incluse dans la requête initiale. Q : ventes de véhicules à Tours en 2007 Q* : ventes de véhicules bleus ou rouges à Tours en 2007 Recommandation : La requête recommandée est : – soit une requête issue dun ensemble de requêtes, – soit une requête calculée. La requête recommandée nest pas forcément incluse dans la requête initiale. Q : ventes de véhicules à Tours en 2007 Q* : ventes de véhicules en région Centre en 2008

35 JIRC09 / NEGRE Elsa 35/30 Combinaisons


Télécharger ppt "JIRC09 / NEGRE Elsa Exploration collaborative de cubes de données NEGRE Elsa Université François Rabelais Tours JIRC09 22 Janvier 2010."

Présentations similaires


Annonces Google