La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Conception et optimisation dun entrepôt de données médicales María Trinidad SERNA-ENCINAS Michel ADIBA Laboratoire LSR-IMAG Juin 2005.

Présentations similaires


Présentation au sujet: "Conception et optimisation dun entrepôt de données médicales María Trinidad SERNA-ENCINAS Michel ADIBA Laboratoire LSR-IMAG Juin 2005."— Transcription de la présentation:

1 Conception et optimisation dun entrepôt de données médicales María Trinidad SERNA-ENCINAS Michel ADIBA Laboratoire LSR-IMAG Juin 2005

2 Plan Conception du schéma Projet ADELEM Sources et indicateurs Schéma pour ADELEM Algorithme pour la sélection des vues à matérialiser Algorithme Greedy Notre proposition Conclusions

3 Le projet ADELEM Le Laboratoire TIMC LOrganisation Mondiale de la Santé Le laboratoire de Biométrie et Biologie Évolutive Le laboratoire LSR Le projet ADELEM Le projet ADELEM consiste en la mise au point d'outils logiciels nécessaires à l'aide à la décision logistique et médicale.

4 Laboratoire de Biométrie et Biologie de Lyon Indicateur doffre de soins : le nombre de lits par établissement Laboratoire De Biométrie Et Biologie De Lyon Année : 2000 Source : Ministère de La Santé

5 Problématique Données: Publiques concernant la santé: RSA, RHA, FINESS, CIM10 Démographiques: RP90 et RP99 Géographiques: GéoFLCP, HEXAPOSTE, Inventaire Communal (1988) Sources de données hétérogènes, distribuées et certaines dentre elles sont externes au domaine médical proprement dit. Nature des données: type, format, sémantique, confidentialité, degré de fiabilité et de confiance, informations manquantes ou incomplètes, …

6 Sources de données Sources Tableau Historique

7 Typage des indicateurs Indicateurs doffre (géographiques - spatio- temporels) Localiser sur une carte tous les établissements de court séjour en faisant apparaître leur capacité en nombre de lits MCO (Médecine-Chirurgie-Obstétrie) Indicateurs de consommation, de besoin et de flux (temporels) Nombre de séjours par établissement durant lannée 2000 Nouveaux indicateurs (temporels) Nombre de personnes de plus de 60 ans par maladie et par établissement

8 Schéma en constellation Projet ADELEM

9 SM = (C s, D s, H s, R) C s = {Prise_MCO, Population, Prise_SSR} D s = {Etablissement, CIM10, Temps, Mode_sortie, Age, Zone_geo, Poids_naissance, RP99, Semaine_debut, Semaine_fin} H s = {H_Geo, H_Temps} R = {C_Cube, C_Dimension, C_Hiérarchie} C s = (c n, M, D) c n = Prise_MCO M = {CompteDuree_sejour, SommeDuree_sejour} D = {Etablissement, CIM10, Temps, Mode_sortie, Age, Zone_geo, Poids_naissance} Description du schéma (1/2)

10 D s = (d n, P, H) dn = Etablissement P = {Cle_Finess, Raison_Sociale, Adresse, Codepostal, CA1.. CA7, CMO1.. CMO7, NLA, NLO, Commune, Departement} H = {H_Geo} H s = (h n, L, <} h n = H_Geo L = {Commune, Departement, Region, Pays} < = {(Commune, Departement), (Departement, Region), (Region, T)} Description du schéma (2/2)

11 Plan Conception du schéma Projet ADELEM Sources et indicateurs Schéma pour ADELEM Algorithme pour la sélection des vues à matérialiser Algorithme Greedy Notre proposition Conclusions

12 Matérialisation du cube Tables du schéma ADELEM_MCO (nb de n-uplets): Prise_MCO (53799) fait Etablissement (5079) dimension CIM10 (17788) dimension Temps (12) dimension Mode_sortie (5) dimension Construction dun entrepôt avec un échantillon de 10% des données réelles. Taille du cube = 16 vues (2 n où n est le nombre de dimensions) Utilisation dOracle9i, Entreprise Edition

13 Treillis du cube ECTM V1 CTM V5 ETM V4 ECM V3 ECT V2 CT V9 ET V7 EC V6 T V14 C V13 E V12 ALL V16 TM V11 CM V10 EM V8 M V15 90M61K346K 60K25K216K90K60 5K18K 47K18K60333K 14K K8K48 195K K Coût de calcul (gauche) (produit des cardinalités approximatives des relations de base) Coût de stockage (droite) (représenté par le nombre de n-uplets du résultat) 90M CC(V6) = (5K * 18K) 90M 12 CC(V2) = (5K*18K)+ (14K+12) 5 90M CC(V1) = (5K*18K)+ (14K*12)+ (47K*5) 4 Dim 3 Dim 2 Dim 1 Dim 0 Dim

14 Sélection des vues à matérialiser Algorithme Greedy[HRU95] Quelques notations: C(v) = Coût de stockage de la vue v. = Relation de dépendance. S = Ensemble de vues sélectionnées. B(v,S) = Bw : Bénéfice de la vue v relative à S w v Bw Bw = C(v) – C(u) si u est la vue de coût minimal dans S, telle que w u et C(v) < C(u), Bw = 0, sinon.

15 Application de lalgorithme Greedy aux données ADELEM 1ère Choix est V4 (Coût (V4) – Coût(V1) * 8) = 53K*8 = 424K, où 8 représente le nombre de vues dépendante de V4 (V4, V7, V8, V11, V12, V14, V15, V16) 2ème Choix est V3 = 144k (36K*4 (V3, V6, V10, V13)), les autres vues dépendantes de V3 ne sont pas prises en compte, car elles donnent un gain plus élevé avec la vue V4. S = {V1, V4, V3, V5, V10, V9, V2, V6}

16 Ensemble ordonné des vues sélectionnées Y : Coût de calcul et de stockage X : sept premières vues ordonnées par rapport à leur coût de calcul

17 Algorithme Greedy Avantages: Simplicité Certaine efficacité (coût de stockage) Inconvénient majeur: Pas des paramètres, comme: fréquence de la requête, fréquence des mises à jour, coût de maintenance ou de calcul. Dans notre expérimentation, à partir du 6ème choix, il sélectionne les vues plus coûteuses (V2 et V6). Ceci nous motive pour un mécanisme de sélection plus efficace.

18 Bg = Bénéfice de Greedy Fréquence dutilisation (fq) fq(v) = nombre de relations dépendantes de la vue v (complexité) B(v, S) = Bg * fq(v) - (CC(v) + PC(v)) CC(v) = Coût de calcul divisé par le nombre de relations dépendantes de v. Exple. CC(V2) = ((5K*18K) + (14K*12))/8 90M/8 =11M où 8 = nombre total des relations dépendantes de V2 PC(v) = Probabilité de changement des relations de base multiplié par le coût de calcul Hypothèse de 20% de changement des éléments du schéma Exple. V2 a 3 dimensions et 30 attributs qui peuvent changer PC(V2) = (3300/36*.20)*11M = 2M B(V2,S) = Bg * fq(V2) – (CC(V2) + PC(V2)) Algorithme proposé Paramètres

19 Application de notre algorithme 1ère Choix est V4 (Bg*fq) – ((CC(v)/fq) + PC(v)) = 3M (53K * 8)*8 – ((61K/8) * 1.18) où 8 représente le nombre de vues dépendante de V4 (V4, V7, V8, V11, V12, V14, V15, V16) 2ème Choix est V5 = 626K (21K*4*8)- ((346K/8)*1.06), où 4 est (V3, V6, V10, V13), les autres vues dépendantes de V5 ne sont pas prises en compte, car elles donnent un gain plus élevé avec la vue V4. S = {V1, V4, V5, V10, V11, V8, V15, V14}

20 Ensemble ordonné des vues sélectionnées Y : Coût de calcul et de stockage X : sept premières vues ordonnées par rapport à leur coût de calcul

21 Notre algorithme donne de meilleurs résultats pour notre cas expérimental. Vues sélectionnées: 3 Dim 2 meilleures vues (V4 et V5) 2 Dim 3 meilleures vues (V8, V10 et V11) 1 Dim 2 meilleures vues (V14 et V15) Faiblesses: Absence du coût dévaluation dune requête par rapport au type dopération (Select, Project ou Join) Nous ne prenons pas en compte les restrictions éventuelles sur lespace de stockage Résultats

22 Plan Conception du schéma Projet ADELEM Sources et indicateurs Schéma pour ADELEM Algorithme pour la sélection des vues à matérialiser Algorithme Greedy Notre proposition Conclusions

23 Bilan du travail réalisé Description du schéma conçu Algorithme pour la sélection des vues à matérialiser Paramètres: fréquence dutilisation, coût de calcul et probabilité de changement des relations de base Faiblesse: Absence du coût dévaluation dune requête par rapport au type dopération (Select, Project ou Join) Nous ne prenons pas en compte les restrictions éventuelles sur lespace de stockage Expérimentation sur Oracle9 i

24 Questions?

25 Application de lalgorithme Greedy aux données ADELEM 1ère Choix est V4 (Coût (V4) – Coût(V1)) = 424K (53K * 8) où 8 représente le nombre de vues dépendante de V4 (V4, V7, V8, V11, V12, V14, V15, V16) 2ème Choix est V3 = 144k (36K*4 (V3, V6, V10, V13)), les autres vues dépendantes de V3 ne sont pas prises en compte, car elles donnent un gain plus élevé avec la vue V4.

26 Application de notre algorithme 1ère Choix est B(V4,S) = Bg * fq(V4) – (CC(V4) + PC(V4)) = 3M (424K*8) – ((61K/8)*1.18) où 8 représente le nombre de vues dépendante de V4 (V4, V7, V8, V11, V12, V14, V15, V16) 2ème Choix est V5 = 626K (21K*4*8)-((346K/8)*1.06), où 4 est (V3, V6, V10, V13), les autres vues dépendantes de V5 ne sont pas prises en compte, car elles donnent un gain plus élevé avec la vue V4.


Télécharger ppt "Conception et optimisation dun entrepôt de données médicales María Trinidad SERNA-ENCINAS Michel ADIBA Laboratoire LSR-IMAG Juin 2005."

Présentations similaires


Annonces Google