La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Omar Boussaid – Riadh Ben Messaoud – Rémy Choquet – Stéphane Anthoard Laboratoire ERIC, Université Lyon 2 Campus Porte des Alpes, 69676 Bron Cedex

Présentations similaires


Présentation au sujet: "Omar Boussaid – Riadh Ben Messaoud – Rémy Choquet – Stéphane Anthoard Laboratoire ERIC, Université Lyon 2 Campus Porte des Alpes, 69676 Bron Cedex"— Transcription de la présentation:

1 Omar Boussaid – Riadh Ben Messaoud – Rémy Choquet – Stéphane Anthoard Laboratoire ERIC, Université Lyon 2 Campus Porte des Alpes, Bron Cedex - / Conception et construction dentrepôts en XML EDA - Versailles, juin 2006

2 2 EDA, Versailles 19 juin 2006 Motivation Exemple Exemple : dossier dun patient ( informations générales sur le patient : age, sexe, etc, + images de scanner, des interrogatoires sous forme denregistrements sonores + compte-rendus manuscrits de médecins ) XML représente les données de façon semi-structurée. XML représente les données de façon semi-structurée. Il est alors nécessaire de les structurer et de les homogénéiser. Sa capacité dauto-description et sa structure arborescente donne à ce formalisme une grande flexibilité et une puissance suffisante pour décrire des données complexes, hétérogènes et réparties Données complexes : formats différents, supports différents.

3 3 EDA, Versailles 19 juin 2006 Motivation

4 4 Plan Plan 1.Motivation 2.Etat de lart 3.Notre approche X-Warehousing 4.Formalisation 5.Construction dun cube XML 6.Implémentation 7.Etude de cas 8.Conclusion et prespectives

5 5 EDA, Versailles 19 juin 2006 Etat de lart Baril et Bellahsène (2000) : Dawax, Modèle de vues (View Manager) Park et al. (2005) : XML-OLAP Rusu et al. (2005) : Entrepôts XML Nassis et al. (2004) :approche OO, repository xFacts et Dimensions virtuelles Trujillo et al. (2004) : lapproche orientée objet(OO) Rajugan et al. (2003) : utilisation des packages UML Hümmer et al. (2003) : Xcube Golfarelli et al. (2001) : Modèle Dimensionnel de Faits ; arbres dattributs Pokorny (2001) : XML Stars schema

6 6 EDA, Versailles 19 juin 2006 Etat de lart Deux approches différentes : 1°) Stockage physique des documents XML dans des ED. Les documents XML alimentent alors les ED et XML est considéré comme une technologie efficace supportant des données faiblement structurées et adaptée à linteropérabilité et à léchange des données. 2°) Utilisation du formalisme XML pour concevoir des ED. Selon les modèles multidimensionnels classiques tels que les schémas en étoile ou en flocons de neige.

7 7 EDA, Versailles 19 juin 2006 Lapproche X-Warehousing Lapproche X-Warehousing Contexte général de notre approche

8 8 EDA, Versailles 19 juin 2006 Formalisation Définition : Schéma en étoile XML (F,D) Soit (F,D) un schéma en étoile, où : Fm{F.M q, 1 q m} F est un ensemble de faits ayant m mesure {F.M q, 1 q m} et D = {D s, 1 s r}rD s n s {D s.A i, 1 i n s }. D = {D s, 1 s r} un ensemble de r dimension où chaque D s contient un ensemble de n s attributs {D s.A i, 1 i n s }. Schéma en étoileXML(F,D) Le Schéma en étoile XML de (F,D) est un schéma XML tel que : F – F définit lélément racine dans le schéma XML ; q {1,...,m}, F.M q – q {1,...,m}, F.M q définit un attribut XML inclus dans lélément racine ; s {1,..., r}, D s F – s {1,..., r}, D s est un sous éléments XML de lélément racine XML. Il y a autant de sous éléments XML que de dimensions liées à lensemble des faits F ; s {1,..., r} i {1,..., n s }D s A i D s – s {1,..., r} et i {1,..., n s }, D s.A i définit un attribut XML inclus dans lélément XML D s.

9 9 EDA, Versailles 19 juin 2006 Description dun cube par un schéma XML

10 10 EDA, Versailles 19 juin 2006 Formalisation Définition Dimension Hiérarchisée XML : dimension hiérarchiséeXML Soit H = {D 1,...,D t,...,D l } une dimension hiérarchisée. La dimension hiérarchisée XML est une partie dun schéma XML tel que : – D 1 définit un élément XML ; – t {2,..., l }, D t définit un sous élément XML de lélément XML D t1 ; – t {1,..., l }, chaque attribut dans D t définit un attribut XML inclus dans lélément XML D t. Définition Dimension Hiérarchisée XML : dimension hiérarchiséeXML Soit H = {D 1,...,D t,...,D l } une dimension hiérarchisée. La dimension hiérarchisée XML est une partie dun schéma XML tel que : – D 1 définit un élément XML ; – t {2,..., l }, D t définit un sous élément XML de lélément XML D t1 ; – t {1,..., l }, chaque attribut dans D t définit un attribut XML inclus dans lélément XML D t. Définition Modèle en flocons de neige XML : Soit (F,H), un modèle en flocons de neige où F est un ensemble de faits ayant m mesures {F.M q, q m} et H = {H s, s r} est un ensemble de r hiérarchies indépendantes. Le modèle en flocons de neige XML de (F,H) est un schéma XML tel que : – F définit lélément XML racine du schéma XML ; – q {1,...,m}, F.M q définit un attribut XML inclus dans lélément racine XML ; – s {1,..., r}, H s définit autant de fois des dimensions hiérarchisées XML, comme des sous éléments de lélément XML racine quelle est liée à lensemble de faits F. Définition Modèle en flocons de neige XML : Soit (F,H), un modèle en flocons de neige où F est un ensemble de faits ayant m mesures {F.M q, q m} et H = {H s, s r} est un ensemble de r hiérarchies indépendantes. Le modèle en flocons de neige XML de (F,H) est un schéma XML tel que : – F définit lélément XML racine du schéma XML ; – q {1,...,m}, F.M q définit un attribut XML inclus dans lélément racine XML ; – s {1,..., r}, H s définit autant de fois des dimensions hiérarchisées XML, comme des sous éléments de lélément XML racine quelle est liée à lensemble de faits F.

11 11 EDA, Versailles 19 juin 2006 Exemple dun fait XML

12 12 EDA, Versailles 19 juin 2006 Construction des cubes XML MCM : besoins danalyses Documents XML Algorithmes dappriement basés sur des opérations de fusion par élagage et de fusion par greffe Notion darbre dattributs (Golfarelli et al. 1998, Golfarelli er Rizzi 1999, Golfarelli et al. 2001

13 13 EDA, Versailles 19 juin 2006 Construction des cubes XML Fusion des arbres dattributs : MCM : besoins danalyses arbre dattributs Documents XML arbre dattributs dun cube XML Schéma XML dun cube XML Opérations de fusion des arbres dattributs Notion de contenu minimal

14 14 EDA, Versailles 19 juin 2006 Construction des cubes XML Fusion des arbres dattributs Fusion par élagage (pruning) : supprimer des parties des 2 arbres. - : sommets communs conservés dans larbre fusionné. - : sont élagués avec les sous-arbres associés cercles blancs cercles noirs Fusion par greffe (grafting) : sous-arbres communs nayant pas la même structure de relations. - : certains sommets non communs sont éliminés et - : sommets identiques et leurs relations sont maintenus dans larbre fusionné. Les descendants dun sommet éliminé sont conservés dans larbre fusionné. cercles blancs cercles noirs

15 15 EDA, Versailles 19 juin 2006 Construction des cubes XML Contenu minimal dun document XML Le document XML doit contenir suffisamment d information pour répondre aux besoins danalyse de lutilisateur : contrôle sur larbre dattributs. (obligatoiresoptionnels) Lutilisateur définit les éléments ( mesures, dimension, hiérarchis et leurs attributs ) dans le MCM nécessaires ou pas (obligatoires ou optionnels) pour ses objectifs danalyse. Le contenu minimal dun document XML corresponds donc à la partie obligatoire de larbre dattributs associé au MCM.

16 16 EDA, Versailles 19 juin 2006 Implémentation

17 17 EDA, Versailles 19 juin 2006 Implémentation Function WriteTreeDeep(document,tree) root=GetRootElement(document) nodeList=GetNodes(tree,root) While Not(end(nodeList)) Graphe.AddVertex(nodeList.name) Call Function ReadTreeDeep(nodeList.name,tree) End While End Function Function ReadTreeDeep(root,tree) nodeList=GetNodes(tree,root) While Not(end(nodeList)) Graphe.AddVertex(nodeList.name) Call Function ReadTreeDeep(nodeList.name,tree) End While End Function - Fonctions recursives WriteTreeDeep et ReadTreeDeep pour manipuler les arbres dattributs

18 18 EDA, Versailles 19 juin 2006 Implémentation Function MergeTree(tree1,tree2) tree3=DuplicateTree(tree1) While Not(end(nodeList(tree3))) vertex1=GetVertex(tree3) While Not(end(nodeList(tree2))) vertex2=GetVertex(tree2) If vertex2=vertex1 Then vertex1.arc = 0 End While Tree3=WriteTree(tree3) End Function - Fonction MergeTree pour fusionner deux arbres dattributs

19 19 EDA, Versailles 19 juin 2006 Etude de cas : Contexte Etude de cas : Contexte DDSM ( Digital Database for Screening Mammography ) : une BD complexes dossiers de patients ; Un volume total de 230,9 Go DDSM ( Digital Database for Screening Mammography ) : une BD complexes (2 604 dossiers de patients ; Un volume total de 230,9 Go) Un dossier est composé de : 1 fichier.ics décrivant en format ASCII, les informations générales dun dossier de patient. 4 fichiers images.LJPEG (LOSSLESS JPEG) des radios numérisées. Chaque radio présente une angle de vue du sein : Left_CC, Left_MLO, Right_CC, Right_MLO (CC: Cranio-Caudal ; MLO: Medio-Latral Oblique). Pour chaque radio présentant une ou des zones anormales, est associé un fichier.OVERLAY en format ASCII, décrivant une anomalie du sein. 1 fichier image.16_PGM regroupant les 4 radios et présentant un aperçu rapide pour la visualisation dun dossier de patient.

20 20 EDA, Versailles 19 juin 2006 Etude de cas : Contexte Etude de cas : Contexte

21 21 EDA, Versailles 19 juin 2006 Etude de cas : Corpus XML Etude de cas : Corpus XML http ://eric.univ-lyon2.fr/rbenmessaoud/ ?page=donnees§ion=3 Documents XML ( http ://eric.univ-lyon2.fr/rbenmessaoud/ ?page=donnees§ion=3 )

22 22 EDA, Versailles 19 juin 2006 Etude de cas : Modèle Conceptuel des besoins Etude de cas : Modèle Conceptuel des besoins Cas des Régions suspectées

23 23 EDA, Versailles 19 juin 2006 Étude de cas : arbres dattributs - Arbre dattributs des documents XML en entrée - Arbre dattributs associé au MCM des Régions suspectes.

24 24 EDA, Versailles 19 juin 2006 Etude de cas : Modèle logique du cube XML.Schéma XML du cube Régions susupectes :

25 25 EDA, Versailles 19 juin 2006 ….. ….. Etude de cas : Modèle logique du cube XML

26 26 EDA, Versailles 19 juin 2006.Schéma XML du cube Régions susupectes : Etude de cas : Modèle logique du cube XML

27 27 EDA, Versailles 19 juin 2006 Conclusion et perspectives Une formalisation des schémas en étoile ou en flocons de neige en XML. ( utilisation des arbre dattributs, Golfarelli et al., 2001a,b) méthodologie basée sur le formalisme XML pour entreposer des données complexes. Exprimer un niveau dabstraction intéressant pour préparer les données à lanalyse. Alimenter une structure multidimensionnelle à laide de documents XML. Une application Java qui produit un modèle logique et un modèle physique pour un cube composé de documents XML homogènes Une étude de cas sur les régions suspectes sur des mammographies a montré lintérêt de notre approche sur des applications réelles Conclusion :

28 28 EDA, Versailles 19 juin 2006 Conclusion et perspectives Perspectives : Interrogation du cube XML : une extension du langage XQuery est nécessaire pour permettre de réaliser lopération du Group-by. Mesures non numériques : recours à des opérateurs appropriés. Lexemple de lopérateur OpAC ( Ben Messaoud et al., 2004), Une étude de performance des requêtes OLAP dans le cadre de cube XML Problème de mise à jour du cube XML lors des changements dans les données sources ou des besoins danalyse de lutilisateur Modèle physique du cube XML


Télécharger ppt "Omar Boussaid – Riadh Ben Messaoud – Rémy Choquet – Stéphane Anthoard Laboratoire ERIC, Université Lyon 2 Campus Porte des Alpes, 69676 Bron Cedex"

Présentations similaires


Annonces Google