Panorama de travaux autour de l’intégration de données spatio-temporelles dans les hypercubes Anne Tchounikine, Maryvonne Miquel, Robert Laurini, Taher Ahmed, Sandro Bimonte, Virginie Baillot LIRIS – UMR CNRS 5205 Laboratoire d'InfoRmatique en Images et Systèmes d'information prenom.nom@insa-lyon.fr
Nos thématiques de recherche Environnemental Médical Acquisition des données Nettoyage, correction, filtrage Réconciliation syntaxique, sémantique Agrégation Modélisation multidimensionnelle Stockage Optimisation, indexation Maintenance Modèles d’analyse Algèbre OLAP Fouille de données Interface Spatio-temporel Grille de calcul
Spatial OLAP Définition Motivation Plateforme visuelle supportant l’analyse et l’exploration rapides et faciles des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation via un affichage cartographique, tabulaire ou en diagramme statistique [Bédard] Motivation 80% ~ des données transactionnelles contiennent une information spatiale L’exploitation de cette information passe par : Sa représentation graphique La prise en compte d’opérateurs spécifiques (spatiaux) …qui augmentent les capacités décisionnelles : Information synthétique, visuelle Analyse de l’influence des facteurs géographiques, environnementaux
SOLAP Dimension spatiale Mesure spatiale Problématiques Ex : nb de patients de profil (…) présentant la pathologie (…) par région Mesure spatiale Ex : ensemble des régions où apparaissent des profils de patients (…) Problématiques Définition de modèles/des algèbres intégrant : des mesures spatiales des dimensions spatiales des données continues (2) Interface navigation cartographique adaptée (3) représentation cartographique du résultat des référentiels instables (1) des données hétérogènes des opérateurs spatiaux
Dimension spatiale Classe Localisation Hôpital Médicaments Produit code type nom type Localisation Hôpital num hôpital nom hôpital Nb lits… Médicaments Produit code produit nom produit… Région num région nom région Département num dept nom departement Nombre d’unités Conso Temps Mois code mois Année code année
Mesure spatiale Surveillance Pathologie Incidence Temps Jour Mois dept nom … Incidence intervalle Surveillance Jour code jour Temps Mois code mois dept nombre depts
Référentiel instable : dimension spatiale évolutive (1) Problématique L’hétérogénéité des données est aussi liée à leur structuration La nature et l’organisation des données évoluent au cours du temps Un référentiel unique ne s’impose pas toujours Les informations liées à l’évolution temporelle des données font partie du processus décisionnel Exemples Dimensions non spatiales Organisation d’un service, nomenclature,… Dimensions spatiales Découpage politique (RFA/RDA, Europe…)… Découpage multi-critères (foresterie*, ...)… *[M. Miquel, Y. Bédard, A. Brisebois. Conception d'entrepôts de données géospatiales à partir de sources hétérogènes, exemple d'application en foresterie. Revue ISI-NIS, Special Issue Data warehousing, Volume 7-n°3/2002]
Modèle multidimensionnel m3 Version de membre Évolution des instances d’une dimension Dimension évolutive Évolution de la structure hiérarchique des membres Relations de mapping Conservation des liens de transitions entre versions de membre Indice de confiance Description de la confiance associée aux mappings Version de structure État valide et invariant de la structure multidimensionnelle sur un intervalle de temps Modes temporels de présentation Modes qui peuvent être choisis pour représenter les résultats de requêtes multidimensionnelles Table de faits intégrant les différents modes temporels de présentation Construite automatiquement à partir d’une table de fait traditionnelle, des dimensions et des relations de mapping [M. Body, M. Miquel, Y. Bédard, A. Tchounikine, “Handling Evolutions in Multidimensional Structure” IEEE International Conference on Data Engineering, ICDE, March 5-8 2003, Bangalore, Inde]
Entrepôt de données continues (2) Problématique Observer les phénomènes naturels naturellement Besoin d’analyser les données à des granularités spatiales et temporelles très fines Problème des valeurs manquantes
Entrepôt de données continues Espace d’étude Capteurs de pollution input cube discret Base de données cube continu application de méthodes d’interpolation spatiales et temporelles temps valeurs résultat observées estimées [T. Ahmed. Multidimensional Structures Dedicated to Continuous Spatio-temporal Phenomena. Proceeding of the 22nd British National Conference on Databases (BNCOD), 2005]
Interface de navigation : GéOlap (3) Fonctionnalités Fenêtre pour la selection des mesures et des dimensions Fenêtres multi-modales synchronisées tabulaire, graphique, cartographique opérateurs classiques OLAP disponibles sur chaque mode
GéOlap
Gé-W-Olap Client web Serveur .net S O A P H T P H T P S O A P XML-A discover, execute H T P S O A P XML-A Web form XML Ms Analysis Services
Mesure spatiale et objet spatial complexe (multi-facettes) Pathologie nom … Incidence intervalle Surveillance Jour code jour Temps Mois code mois Département map nom dept population superficie classe SP dept nombre depts
Représentation visuelle Principes de « la graphique » [J. Bertin] Les propriétés du Z Superposer des images graphiques correspond visuellement à superposer des photographies : les clichés se mélangent et les images se détruisent. L'image n'a que trois dimensions. Comment représenter plusieurs caractères sur une « carte » c'est-à-dire sur un XY fixe et cependant séparer leurs imamges ? C'est le problème de la sélectivité des variables visuelles. 12 Ordre (O) Les variables de l'image sont ordonnées (ceci est avant cela). Comme le plan, la taille transcrit de plus des proportions (Q) (ceci est n fois cela). Dans toute combinaison de variables, taille et valeur imposent leur ordre (variation d'intensité lumineuse) aux autres variables. Taille et valeur sont dites dissociatives. 13 Association ( ) Les autres variables sont à visibilité constante et ne perturbent aucune combinaison. Elles sont dites associatives (ceci peut être vu semblable à cela). Elles servent à séparer des images élémentaires. 14 Sélection ( ) Toutes les variables sont sélectives (ceci est différent de cela) mais elles le sont plus ou moins. Seul le plan possède toutes les propriétés perceptives
Extension de l’algèbre OLAP aux opérateurs SIG roll-up clipping select drill-down distance … min, max, sum, count, .. … rotate touch group-by where Opérateurs OLAP Opérateurs SIG Opérateurs SQL Opérateurs SOLAP
Conclusions Richesses des problématiques et des applications Modèles, algèbres, stockage et optimisation, hétérogénéités des sources, interface … Santé, phénomènes naturels, environnement, gestion du risque/prévention, … Objet spatial Différentes « facettes » géométrique, descriptive, métrique discret, continu Différentes représentations cartographiques zonal, ponctuel, linéaire variables visuelles représentation multiple et généralisation Solutions non spécifiques Objet spatial vs objet « complexe » Objet spatial vs objet multimedia Objet spatial vs objet multi-représentation