Riadh Ben Messaoud Kamel Aouiche Cécile Favre EDA'05 Une approche de construction d’espaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire ERIC – Université Lyon 2 5 avenue Pierre Mendès–France 69676, Bron Cedex – France http://eric.univ-lyon2.fr
Contexte et problématique OLAP : navigation et exploration des données pour extraire des informations pertinentes Forte composante visuelle dans l’OLAP La représentation multidimensionnelle des données Eparsité dans la représentation des données La forte dimensionnalité Eparsité plus importante Ordre classique des modalités Distribution aléatoire du nuage des faits R. Ben Messaoud, K. Aouiche et C. Favre
Contexte et problématique Améliorer la visualisation des données : Regrouper les faits dans l’espace de représentation Arranger l’ordre des modalités 2 6 3 1 7 5 4 8 A C E G H D B K L J I F 1 2 3 4 5 6 7 8 A B C D E F G H I J K L R. Ben Messaoud, K. Aouiche et C. Favre
Plan Travaux connexes Notre approche : méthode de construction de représentations multidimensionnelles Critère d’évaluation des représentations des données multidimensionnelles Étude de cas : application aux données bancaires Expérimentations Conclusion et perspectives R. Ben Messaoud, K. Aouiche et C. Favre
Travaux connexes Deux points de vue : Administrateur Optimiser le stockage Vitter et al., Barbará et Sullivan, Schanmugasundaram et al., Sismanis et al., Feng et al., Lakshmanan et al., Li et al. Améliorer le temps de réponse aux requêtes Ross et Srivastava Utilisateur Améliorer la visualisation et la navigation dans le cube de données Choong et al. R. Ben Messaoud, K. Aouiche et C. Favre
Notre approche Arranger l’ordre des modalités des dimensions du cube de données pour améliorer sa visualisation Utiliser les résultats de l’Analyse des Correspondances Multiples (ACM) Pourquoi l’ACM ? Principe de l’ACM : Entrée : tableau individus/variables (faits/modalités des dimensions) Sortie : axes d’analyse composites Construction d’un plan propice à l’analyse dans lequel sont projetés les individus L’ACM est une méthode factorielle adaptée aux grands volumes de données qualitatives R. Ben Messaoud, K. Aouiche et C. Favre
Notre approche Dimensions Mesures 1 Choix des dimensions et des mesures par l’utilisateur selon les besoins de son analyse Aplatissement du cube de données sous forme d’un tableau disjonctif complet 1 R. Ben Messaoud, K. Aouiche et C. Favre
Notre approche 1 A 1 B C D E F A 1 B C D E F G 1 2 3 4 5 6 7 8 9 Aplatissement du cube de données sous forme d’un tableau disjonctif complet 1 2 3 4 5 6 8 7 9 A 1 B C D E F D1 A 1 B C D E F G D2 1 2 3 4 5 6 7 8 9 R. Ben Messaoud, K. Aouiche et C. Favre
Notre approche 2 2 Application de l’ACM Dimensions Mesures R. Ben Messaoud, K. Aouiche et C. Favre
Notre approche 2 Application de l’ACM Construction d’axes factoriels ajustant au mieux le nuage des individus (faits) et des variables (modalités) Chaque axe factoriel est associé à une valeur propre représente la part de l’axe dans l’inertie totale du nuage des individus Chaque variable (modalité) a une contribution relative dans la construction de l’axe Contribution d’une dimension dans la construction de l’axe R. Ben Messaoud, K. Aouiche et C. Favre
Notre approche 3 Arrangement des modalités Dimensions Mesures R. Ben Messaoud, K. Aouiche et C. Favre
Notre approche 3 Arrangement des modalités Associer à chaque dimension un axe factoriel Pour chaque dimension, choisir l’axe qui a été le mieux expliqué par ses modalités Maximiser Chercher l’indice qui vérifie l’équation : Trier les projections des modalités de sur l’axe Utiliser ce tri pour ordonner les modalités de la dimension R. Ben Messaoud, K. Aouiche et C. Favre
Notre approche Dimensions Mesures R. Ben Messaoud, K. Aouiche et C. Favre
Critère d’évaluation Mesurer la qualité de la représentation des données Homogénéité de la répartition des cellules dans un cube Voisinage géométrique des cellules Mesure de similarité entre les cellules Voisinage de la cellule A A Similarité de deux cellules voisines Similarité = 1, si les 2 cellules sont pleines A Similarité = 0, sinon Δ(A) = + 1 + 0 + 0 + 1 + 1 + 1 + 0 = 4 Indice d’homogénéité : Calculer le gain en homogénéité fourni par la méthode R. Ben Messaoud, K. Aouiche et C. Favre
Étude de cas Jeu de données bancaires fourni par le Crédit Lyonnais Le cube contient n=311 959 faits Un fait correspond au comportement d’achats des clients R. Ben Messaoud, K. Aouiche et C. Favre
Études de cas D1 : Catégorie socio-professionnelle, D2 : Produit Taux d’éparsité = 64% D1 Gain en homogénéité = 16,38% D2 Cube arrangé (IH=20,60%) Cube initial (IH=17,75%) R. Ben Messaoud, K. Aouiche et C. Favre
Évolution de l'indice d'homogénéité en fonction de l'éparsité Expérimentations Évolution de l'indice d'homogénéité en fonction de l'éparsité Indice d’homogénéité Éparsité Décroissance de l’indice d’homogénéité en fonction de l’éparsité L’indice d’homogénéité du cube arrangé est toujours supérieur à celui du cube initial R. Ben Messaoud, K. Aouiche et C. Favre
Évolution du gain en homogénéité en fonction de l'éparsité Expérimentations Évolution du gain en homogénéité en fonction de l'éparsité Gain en homogénéité Éparsité Gain en homogénéité toujours positif Tendance croissante du gain en homogénéité en fonction de l’éparsité Fléchissements possibles dus à la nature des données R. Ben Messaoud, K. Aouiche et C. Favre
Conclusion Solution au problème de la visualisation des données dans un cube éparse basée sur l’exploitation des résultats d’une analyse factorielle Organisation des modalités des dimensions en fonction des résultats d’une ACM Pas de diminution de l’éparsité mais organisation de celle-ci Indice de qualité des représentations multidimensionnelles Plus l’éparsité est importante, plus notre approche est pertinente R. Ben Messaoud, K. Aouiche et C. Favre
Perspectives Étude de complexité de notre approche Étude de la possibilité de rendre la méthode incrémentale Introduction des valeurs des mesures Dans la méthode Dans l’indice d’homogénéité Utilisation de notre méthode pour détecter les parties du cube à matérialiser Exploitation de notre approche dans le cadre de l’entreposage virtuel de données R. Ben Messaoud, K. Aouiche et C. Favre
Merci de votre attention R. Ben Messaoud, K. Aouiche et C. Favre