Riadh Ben Messaoud Kamel Aouiche Cécile Favre

Slides:



Advertisements
Présentations similaires
La Méthode de Simplexe Standardisation
Advertisements

Notions de fonction Initiation.
Approche graphique du nombre dérivé
Segmentation du marché des matières premières
L’analyse du risque par les sensibilités aux facteurs
Yacine DIAGNE GUEYE ENDA ENERGIE
Caractériser les précipitations intenses du MRCC
Formation en Analyse des Données
C1 Bio-statistiques F. KOHLER
DEME - La méthode d’enquête – introduction
Chapitre 8: La gestion de l’offre
Directeur de Thèse : Pr. Witold Litwin
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
Fusion de données SENSO
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
Ordonnancement des mouvements de deux robots
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Analyse Factorielle des Correspondances
Les résultats Le tri à plat
Expertise et formation du lméca ESIA / Université de Savoie
Sélection automatique d’index et de vues matérialisées
Améliorer les performances du chiffrage à flot SYND
Un système de médiation basé sur les ontologies
Les résultats Le tri croisé
Monique THONNAT et Nathanaël ROTA Projet ORION
PBST*: une nouvelle variante des SDDS
Séminaire dAnalyses comparatives et enquête sociologique Séances 8 et 9 Lanalyse des résultats.
Application des algorithmes génétiques
Dynamique dopinions sur réseaux Amblard F.*, Deffuant G.* *C emagref-LISC.
Auto-organisation dans les réseaux ad hoc
Frédéric Amblard, Guillaume Deffuant – Cemagref LISC 22 Octobre 2002 – Table ronde Simulation AFH Nantes SimExplorer: un outil logiciel daide à lexploration.
Tice (logiciels) et aide personnalisée.
Journée ds-catia 09/11/06 – IUT de Nantes
OLAP : Un pas vers la navigation
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Fractions - Puissances C. TERPEREAU – P. TERPEREAU
Université Mouloud Mammeri de Tizi-Ouzou
Cloud Computing et mesures de performances
Tableaux de distributions
Tableaux de distributions
DataLab® Toute la connaissance client en quelques minutes
Introduction à la Théorie géométrique de la diffraction
1 Enseigner les mathématiques grâce à lenvironnement Cabri UREM UNIVERSITE LIBRE DE BRUXELLES 18 Avril 2007 Enseigner les mathématiques grâce à lenvironnement.
Séminaire d’Analyses comparatives et enquête sociologique
Courbes de Bézier.
Universté de la Manouba
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Modèle d’entrepôt de données à base de règles
Projet d’Ingénierie du Logiciel - Prise en main du robot humanoïde NAO
LE CHOIX EN CONTEXTE D’INCERTITUDE
Travaux de thèse de Julien FRANCOIS
Excel (Partie 2).
Méthode de modélisation multidimensionnelle
Révision Quadratique, trinôme Linéaire, binôme 3x2 + 3x + 2
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
L'application Social Buddies Powered by V2.5 ( )
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.
La technologie en 6ème Quelles compétences à acquérir ?
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Frédéric Amblard*, Guillaume Deffuant**,
Sériation et traitement de données archéologiques
Intégration des Tableaux Multidimensionnels en Pig pour
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
Vaissie p. – MONGE A. - HUSSON F.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Transcription de la présentation:

Riadh Ben Messaoud Kamel Aouiche Cécile Favre EDA'05 Une approche de construction d’espaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire ERIC – Université Lyon 2 5 avenue Pierre Mendès–France 69676, Bron Cedex – France http://eric.univ-lyon2.fr

Contexte et problématique OLAP : navigation et exploration des données pour extraire des informations pertinentes Forte composante visuelle dans l’OLAP La représentation multidimensionnelle des données Eparsité dans la représentation des données La forte dimensionnalité Eparsité plus importante Ordre classique des modalités Distribution aléatoire du nuage des faits R. Ben Messaoud, K. Aouiche et C. Favre

Contexte et problématique Améliorer la visualisation des données :  Regrouper les faits dans l’espace de représentation  Arranger l’ordre des modalités 2 6 3 1 7 5 4 8 A C E G H D B K L J I F 1 2 3 4 5 6 7 8 A B C D E F G H I J K L R. Ben Messaoud, K. Aouiche et C. Favre

Plan Travaux connexes Notre approche : méthode de construction de représentations multidimensionnelles Critère d’évaluation des représentations des données multidimensionnelles Étude de cas : application aux données bancaires Expérimentations Conclusion et perspectives R. Ben Messaoud, K. Aouiche et C. Favre

Travaux connexes Deux points de vue : Administrateur Optimiser le stockage Vitter et al., Barbará et Sullivan, Schanmugasundaram et al., Sismanis et al., Feng et al., Lakshmanan et al., Li et al. Améliorer le temps de réponse aux requêtes Ross et Srivastava Utilisateur Améliorer la visualisation et la navigation dans le cube de données Choong et al. R. Ben Messaoud, K. Aouiche et C. Favre

Notre approche Arranger l’ordre des modalités des dimensions du cube de données pour améliorer sa visualisation Utiliser les résultats de l’Analyse des Correspondances Multiples (ACM) Pourquoi l’ACM ? Principe de l’ACM : Entrée : tableau individus/variables (faits/modalités des dimensions) Sortie : axes d’analyse composites Construction d’un plan propice à l’analyse dans lequel sont projetés les individus L’ACM est une méthode factorielle adaptée aux grands volumes de données qualitatives R. Ben Messaoud, K. Aouiche et C. Favre

Notre approche Dimensions Mesures 1 Choix des dimensions et des mesures par l’utilisateur selon les besoins de son analyse Aplatissement du cube de données sous forme d’un tableau disjonctif complet 1 R. Ben Messaoud, K. Aouiche et C. Favre

Notre approche 1 A 1 B C D E F A 1 B C D E F G 1 2 3 4 5 6 7 8 9 Aplatissement du cube de données sous forme d’un tableau disjonctif complet 1 2 3 4 5 6 8 7 9 A 1 B C D E F D1 A 1 B C D E F G D2 1 2 3 4 5 6 7 8 9 R. Ben Messaoud, K. Aouiche et C. Favre

Notre approche 2 2 Application de l’ACM Dimensions Mesures R. Ben Messaoud, K. Aouiche et C. Favre

Notre approche 2 Application de l’ACM Construction d’axes factoriels ajustant au mieux le nuage des individus (faits) et des variables (modalités) Chaque axe factoriel est associé à une valeur propre représente la part de l’axe dans l’inertie totale du nuage des individus Chaque variable (modalité) a une contribution relative dans la construction de l’axe Contribution d’une dimension dans la construction de l’axe R. Ben Messaoud, K. Aouiche et C. Favre

Notre approche 3 Arrangement des modalités Dimensions Mesures R. Ben Messaoud, K. Aouiche et C. Favre

Notre approche 3 Arrangement des modalités Associer à chaque dimension un axe factoriel Pour chaque dimension, choisir l’axe qui a été le mieux expliqué par ses modalités Maximiser Chercher l’indice qui vérifie l’équation : Trier les projections des modalités de sur l’axe Utiliser ce tri pour ordonner les modalités de la dimension R. Ben Messaoud, K. Aouiche et C. Favre

Notre approche Dimensions Mesures R. Ben Messaoud, K. Aouiche et C. Favre

Critère d’évaluation Mesurer la qualité de la représentation des données Homogénéité de la répartition des cellules dans un cube Voisinage géométrique des cellules Mesure de similarité entre les cellules Voisinage de la cellule A A Similarité de deux cellules voisines  Similarité = 1, si les 2 cellules sont pleines A  Similarité = 0, sinon Δ(A) = + 1 + 0 + 0 + 1 + 1 + 1 + 0 = 4 Indice d’homogénéité : Calculer le gain en homogénéité fourni par la méthode R. Ben Messaoud, K. Aouiche et C. Favre

Étude de cas Jeu de données bancaires fourni par le Crédit Lyonnais Le cube contient n=311 959 faits Un fait correspond au comportement d’achats des clients R. Ben Messaoud, K. Aouiche et C. Favre

Études de cas D1 : Catégorie socio-professionnelle, D2 : Produit Taux d’éparsité = 64% D1 Gain en homogénéité = 16,38% D2 Cube arrangé (IH=20,60%) Cube initial (IH=17,75%) R. Ben Messaoud, K. Aouiche et C. Favre

Évolution de l'indice d'homogénéité en fonction de l'éparsité Expérimentations Évolution de l'indice d'homogénéité en fonction de l'éparsité Indice d’homogénéité Éparsité Décroissance de l’indice d’homogénéité en fonction de l’éparsité L’indice d’homogénéité du cube arrangé est toujours supérieur à celui du cube initial R. Ben Messaoud, K. Aouiche et C. Favre

Évolution du gain en homogénéité en fonction de l'éparsité Expérimentations Évolution du gain en homogénéité en fonction de l'éparsité Gain en homogénéité Éparsité Gain en homogénéité toujours positif Tendance croissante du gain en homogénéité en fonction de l’éparsité Fléchissements possibles dus à la nature des données R. Ben Messaoud, K. Aouiche et C. Favre

Conclusion Solution au problème de la visualisation des données dans un cube éparse basée sur l’exploitation des résultats d’une analyse factorielle Organisation des modalités des dimensions en fonction des résultats d’une ACM Pas de diminution de l’éparsité mais organisation de celle-ci Indice de qualité des représentations multidimensionnelles Plus l’éparsité est importante, plus notre approche est pertinente R. Ben Messaoud, K. Aouiche et C. Favre

Perspectives Étude de complexité de notre approche Étude de la possibilité de rendre la méthode incrémentale Introduction des valeurs des mesures Dans la méthode Dans l’indice d’homogénéité Utilisation de notre méthode pour détecter les parties du cube à matérialiser Exploitation de notre approche dans le cadre de l’entreposage virtuel de données R. Ben Messaoud, K. Aouiche et C. Favre

Merci de votre attention R. Ben Messaoud, K. Aouiche et C. Favre