Conception et optimisation d’un entrepôt de données médicales

Slides:



Advertisements
Présentations similaires
MEDIVISE Le Logiciel par excellence SIMPLE et Efficace
Advertisements

Coordination régionale en SSR et « Trajectoire »
Création de la base du SI Idée de départ : créer plusieurs couches de données avec chacune un intérêt propre et indépendante. Chaque couche doit pouvoir.
M. Michel*, X. Cailleux, N. Corvaisier
Projections démographiques
Centre Régional de Ressources pour l'optimisation du management et des organisations Mise en place d'un comité directeur avec les médecins responsables.
QUELS TABLEAUX DE BORD POUR MANAGER LES PÔLES ?
9èmes JIQH Un défi : améliorer la prise en charge des personnes âgées
JIQH 2011 Liens entre indicateurs, PEP et certification Analyse et perspectives P. Loirat Conseiller médical du Directeur de la DAQSS.
La multidisciplinarité DES: 21 mars Peut-on nous obliger à être meilleurs? 2- La place du radiologue.
Animation pédagogique Quimper VI
La gestion des risques en établissement de santé : proposition d’organisation
Titre Analyse des moyens et des activités des établissements de santé
Master MLPS : le profil 5 décembre 2007
Santé Publique et Prise en Charge Psychosociale du VIH Séminaire : « Accès aux soins et aux traitements, la question des ressources humaines » G. Raguin.
SROS 3 - VOLET REANIMATION. n L analyse de l existant s est effectuée à partir d enquêtes spécifiques qui portaient sur : - l activité et le fonctionnement.
FILIERES GERIATRIQUES
Orientations en attente pour les patients hospitalisés à l’AP-HP (Enquête un jour donné) Des solutions innovantes Journée thématique FHF AP-HP 26.
Expérimentation d’un modèle d’implantation HAD au niveau de trois territoires de santé d’Ile de France (75.2, 93.1, 94.1)
La Transfusion Sanguine en France
Schéma Régional Organisation Sanitaire Volet SSR
Points clé des échanges
Volet médecine du Schéma régional d’organisation des soins Démographie
LE POLE D’ACTIVITE UNE ORGANISATION AU SERVICE DE
Analyse et traitement de données de grande taille en imagerie médicale Cybèle Ciofolo-Veit Philips Research Paris - Medisys Conférence Mathématiques.
Bénéfice du DMP ? Le double point de vue du Médecin Généraliste et
Prévisions des ventes :
Recherche-Action concernant le recueil informatisé des besoins de formation à l’aide d’un outil auto-administré: le Bilan Professionnel Personnalisé de.
Présentation Ce diaporama présente dans les grandes lignes les fonctionnalités du logiciel Trajectoire dans sa version actuelle et ses versions futures.
Cellule Régionale de Coordination en SSR
Dossier informatisé EPSMR.
Informatisation du laboratoire d’Environnement-Hygiène
Anne Tchounikine, Maryvonne Miquel, Robert Laurini,
Les systèmes d'information géographique servent principalement à :
Présentation de l’Hospitalisation à domicile
Mesures de performance organisationnelle Cours ICO 810 Professeur: Michel Pérusse Hiver 2005 Session 9.
Schéma de Laswell Planifier systématiquement d ’une production multimédia Harold Laswell 1915 : US cherche expressément une méthode susceptible de.
Universté de la Manouba
Projet région Thématique prioritaire n°10 Calculs Scientifiques Logiciels Rhône-Alpes : Grille pour le Traitement dInformations Médicales (RAGTIME ?)
Parcours de santé Point détape sur laccompagnement des coordinations territoriales dappui dans les territoires ARS / ORU CCOP du 27 janvier 2014.
1 Analyse et développement de modèles qualitatifs et quantitatifs de planification d’activités pour les services : application aux pratiques d’Hospitalisation.
Les données médicales et leurs utilisations
1 Pilotage de l’activité des établissements de santé Réunion de concertation du 4 mars 2011.
Mise en œuvre d’un SIH reconnu HIMSS 6
Docteur Christophe SCHMITT CH de Jury lès Metz
Direction générale de la santé Le champ de la santé publique Un diagnostic partagé sur la santé en France Mo I-1-1.
Exemple de programme de santé publique
La Thèse de médecine Générale. Thèse de médecine générale Concerne des patients suivis en soins primaires Concerne des pathologies auxquelles le MG est.
Votre confiance nous engage Un autre regard sur les enjeux de santé et de société Amélioration du parcours d’un patient âgé sur un territoire : exemple.
T2A dans établissements privés : la convergence public - privé est-elle possible ? Séminaire DES - Caen -19 juin 2006 LAOUENAN Cédric.
H. Charreire La santé publique en mouvement Centre de ressource en SMS d’Ile-de-France ENS Cachan, 28 janvier 2010 L’accès aux soins périnatals dans des.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Le programme national de lutte contre la tuberculose Journée DES Nicolas Griffon 22/01/08.
Geoconnexions Demande de subvention pour le développement d’Atlas régionaux.
L’expérience du CH de Mulhouse
Urgences Delafontaine
Auteur Fonction Date Offre Insee Observation du domaine médico-social.
Certification des comptes des établissements publics de santé
Présentation de l’inter Clud Vendée
SEQUENCE 6: ECONOMIE DE LA SANTE
1 1 Bilan d’étape Réorientation des CH ex Hôpitaux locaux.
Premiers cours : démarrer
Cours 11 Entrepôts de données
«Pour l’amélioration de la qualité, la gestion des risques et l’évaluation en Loire Atlantique et Vendée Satisfaction du Patient en SSR 1 Insérer la date.
Apport de l'informatique à la pratique anesthésique Dr Chandeclerc Clinique Saint-André - ARSA Vandoeuvre-les-Nancy.
EpiClin 2011 du 5 au 6 mai LE PMSI ET LA SURVEILLANCE DES BACTÉRIES MULTI-RÉSISTANTES : L’EXEMPLE DES STAPHYLOCOCCUS AUREUS RÉSISTANT À LA MÉTICILLINE.
LES CONTRACTUELS AU CENTRE HOSPITALIER DE LA COTE BASQUE LES CONTRACTUELS AU CENTRE HOSPITALIER DE LA COTE BASQUE Julien ROSSIGNOL, Directeur Adjoint,
ÉTUDES Une solution technique possible pour dématérialiser la prescription d'examens de biologie par un cabinet médical.
Prédiction du niveau de certification des établissements de santé Soutenance de stage 12 septembre 2012 Benjamin Robillard.
Hôpital de semaine de Médecine au Centre Hospitalier d’ARRAS
Transcription de la présentation:

Conception et optimisation d’un entrepôt de données médicales María Trinidad SERNA-ENCINAS Michel ADIBA Laboratoire LSR-IMAG Juin 2005

Plan Conception du schéma Projet ADELEM Sources et indicateurs Schéma pour ADELEM Algorithme pour la sélection des vues à matérialiser Algorithme Greedy Notre proposition Conclusions

Le projet ADELEM Le projet ADELEM Le projet ADELEM consiste en la mise au point d'outils logiciels nécessaires à l'aide à la décision logistique et médicale. Le Laboratoire TIMC Le laboratoire de Biométrie et Biologie Évolutive Le projet ADELEM Le laboratoire LSR L’Organisation Mondiale de la Santé

Laboratoire de Biométrie et Biologie de Lyon Année : 2000 Source : Ministère de La Santé Indicateur d’offre de soins : le nombre de lits par établissement

Problématique Données: Publiques concernant la santé: RSA, RHA, FINESS, CIM10 Démographiques: RP90 et RP99 Géographiques: GéoFLCP, HEXAPOSTE, Inventaire Communal (1988) Sources de données hétérogènes, distribuées et certaines d’entre elles sont externes au domaine médical proprement dit. Nature des données: type, format, sémantique, confidentialité, degré de fiabilité et de confiance, informations manquantes ou incomplètes, …

Sources de données Sources Tableau Historique

Typage des indicateurs Indicateurs d’offre (géographiques - spatio-temporels) Localiser sur une carte tous les établissements de court séjour en faisant apparaître leur capacité en nombre de lits MCO (Médecine-Chirurgie-Obstétrie) Indicateurs de consommation, de besoin et de flux (temporels) Nombre de séjours par établissement durant l’année 2000 Nouveaux indicateurs (temporels) Nombre de personnes de plus de 60 ans par maladie et par établissement

Schéma en constellation Projet ADELEM

Description du schéma (1/2) SM = (Cs, Ds, Hs, R) Cs = {Prise_MCO, Population, Prise_SSR} Ds = {Etablissement, CIM10, Temps, Mode_sortie, Age, Zone_geo, Poids_naissance, RP99, Semaine_debut, Semaine_fin} Hs = {H_Geo, H_Temps} R = {C_Cube, C_Dimension, C_Hiérarchie} Cs = (cn, M, D) cn = Prise_MCO M = {CompteDuree_sejour, SommeDuree_sejour} D = {Etablissement, CIM10, Temps, Mode_sortie, Age, Zone_geo, Poids_naissance}

Description du schéma (2/2) Ds = (dn, P, H) dn = Etablissement P = {Cle_Finess, Raison_Sociale, Adresse, Codepostal, CA1 .. CA7, CMO1 .. CMO7, NLA, NLO, Commune, Departement} H = {H_Geo} Hs = (hn, L, <} hn = H_Geo L = {Commune, Departement, Region, Pays} < = {(Commune, Departement), (Departement, Region), (Region, T)}

Plan Conception du schéma Projet ADELEM Sources et indicateurs Schéma pour ADELEM Algorithme pour la sélection des vues à matérialiser Algorithme Greedy Notre proposition Conclusions

Matérialisation du cube Tables du schéma ADELEM_MCO (nb de n-uplets): Prise_MCO (53799) fait Etablissement (5079) dimension CIM10 (17788) dimension Temps (12) dimension Mode_sortie (5) dimension Construction d’un entrepôt avec un échantillon de 10% des données réelles. Taille du cube = 16 vues (2n où n est le nombre de dimensions) Utilisation d’Oracle9i, Entreprise Edition

Treillis du cube Coût de stockage (droite) Coût de calcul (gauche) 5 90M CC(V1) = (5K*18K)+ (14K*12)+ (47K*5) ECTM V1 4 Dim 3 Dim 2 Dim 1 Dim 0 Dim 47K 18K 603 33K 14K 184 58 26K 8K 48 19 5K 12 4 1 54K 90M 12 CC(V2) = (5K*18K)+ (14K+12) CTM V5 ETM V4 ECM V3 ECT V2 90M 61K 346K 60K 25K 216K 90K 60 CT V9 ET V7 EC V6 T V14 C V13 E V12 ALL V16 TM V11 CM V10 EM V8 M V15 90M CC(V6) = (5K * 18K) 5K 18K Coût de calcul (gauche) (produit des cardinalités approximatives des relations de base) Coût de stockage (droite) (représenté par le nombre de n-uplets du résultat)

Sélection des vues à matérialiser Algorithme Greedy[HRU95] Quelques notations: C(v) = Coût de stockage de la vue v.  = Relation de dépendance. S = Ensemble de vues sélectionnées. B(v,S) =  Bw : Bénéfice de la vue v relative à S w  v Bw Bw = C(v) – C(u) si u est la vue de coût minimal dans S, telle que w  u et C(v) < C(u), Bw = 0, sinon.

Application de l’algorithme Greedy aux données ADELEM 1ère Choix est V4 (Coût (V4) – Coût(V1) * 8) = 53K*8 = 424K, où 8 représente le nombre de vues dépendante de V4 (V4, V7, V8, V11, V12, V14, V15, V16) 2ème Choix est V3 = 144k (36K*4 (V3, V6, V10, V13)), les autres vues dépendantes de V3 ne sont pas prises en compte, car elles donnent un gain plus élevé avec la vue V4. S = {V1, V4, V3, V5, V10, V9, V2, V6}

Ensemble ordonné des vues sélectionnées Y : Coût de calcul et de stockage X : sept premières vues ordonnées par rapport à leur coût de calcul

Algorithme Greedy Avantages: Inconvénient majeur: Simplicité Certaine efficacité (coût de stockage) Inconvénient majeur: Pas des paramètres, comme: fréquence de la requête, fréquence des mises à jour, coût de maintenance ou de calcul. Dans notre expérimentation, à partir du 6ème choix, il sélectionne les vues plus coûteuses (V2 et V6). Ceci nous motive pour un mécanisme de sélection plus efficace.

Algorithme proposé Paramètres Bg = Bénéfice de Greedy Fréquence d’utilisation (fq) fq(v) = nombre de relations dépendantes de la vue v (complexité) B(v, S) = Bg * fq(v) - (CC(v) + PC(v)) CC(v) = Coût de calcul divisé par le nombre de relations dépendantes de v. Exple. CC(V2) = ((5K*18K) + (14K*12))/8  90M/8 =11M où 8 = nombre total des relations dépendantes de V2 PC(v) = Probabilité de changement des relations de base multiplié par le coût de calcul Hypothèse de 20% de changement des éléments du schéma Exple. V2 a 3 dimensions et 30 attributs qui peuvent changer PC(V2) = (3300/36*.20)*11M = 2M B(V2,S) = Bg * fq(V2) – (CC(V2) + PC(V2))

Application de notre algorithme 1ère Choix est V4 (Bg*fq) – ((CC(v)/fq) + PC(v)) = 3M (53K * 8)*8 – ((61K/8) * 1.18) où 8 représente le nombre de vues dépendante de V4 (V4, V7, V8, V11, V12, V14, V15, V16) 2ème Choix est V5 = 626K (21K*4*8)-((346K/8)*1.06), où 4 est (V3, V6, V10, V13), les autres vues dépendantes de V5 ne sont pas prises en compte, car elles donnent un gain plus élevé avec la vue V4. S = {V1, V4, V5, V10, V11, V8, V15, V14}

Ensemble ordonné des vues sélectionnées Y : Coût de calcul et de stockage X : sept premières vues ordonnées par rapport à leur coût de calcul

Résultats Notre algorithme donne de meilleurs résultats pour notre cas expérimental. Vues sélectionnées: 3 Dim  2 meilleures vues (V4 et V5) 2 Dim  3 meilleures vues (V8, V10 et V11) 1 Dim  2 meilleures vues (V14 et V15) Faiblesses: Absence du coût d’évaluation d’une requête par rapport au type d’opération (Select, Project ou Join) Nous ne prenons pas en compte les restrictions éventuelles sur l’espace de stockage

Plan Conception du schéma Projet ADELEM Sources et indicateurs Schéma pour ADELEM Algorithme pour la sélection des vues à matérialiser Algorithme Greedy Notre proposition Conclusions

Bilan du travail réalisé Description du schéma conçu Algorithme pour la sélection des vues à matérialiser Paramètres: fréquence d’utilisation, coût de calcul et probabilité de changement des relations de base Faiblesse: Absence du coût d’évaluation d’une requête par rapport au type d’opération (Select, Project ou Join) Nous ne prenons pas en compte les restrictions éventuelles sur l’espace de stockage Expérimentation sur Oracle9i

Questions?

Application de l’algorithme Greedy aux données ADELEM 1ère Choix est V4 (Coût (V4) – Coût(V1)) = 424K (53K * 8) où 8 représente le nombre de vues dépendante de V4 (V4, V7, V8, V11, V12, V14, V15, V16) 2ème Choix est V3 = 144k (36K*4 (V3, V6, V10, V13)), les autres vues dépendantes de V3 ne sont pas prises en compte, car elles donnent un gain plus élevé avec la vue V4.

Application de notre algorithme 1ère Choix est B(V4,S) = Bg * fq(V4) – (CC(V4) + PC(V4)) = 3M (424K*8) – ((61K/8)*1.18) où 8 représente le nombre de vues dépendante de V4 (V4, V7, V8, V11, V12, V14, V15, V16) 2ème Choix est V5 = 626K (21K*4*8)-((346K/8)*1.06), où 4 est (V3, V6, V10, V13), les autres vues dépendantes de V5 ne sont pas prises en compte, car elles donnent un gain plus élevé avec la vue V4.