Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données.

Name: Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données.
Uploaded: 2017-12-08T20:27:37+00:00
Duration: PTM16S6
Channel: Charles Charbonneau
Description: Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données.

Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données médico-administratives M. DJENNAOUI, G. FICHEUR, E. AERNOUT, R. BEUSCART, E. CHAZARD CHRU Lille, Service de l’information et des archives médicales, EA 2694, Lille Congrès Conjoint ADELF ÉMOIS 2015

Introduction Base nationale PMSI MCO
Issue du recueil en continu de l’activité des établissements de santé dans le cadre de la tarification à l’activité Disponible pour exploitation  Data reuse Bases disponibles 2005 à 2013 150 millions de séjours  Big data Procédures de chaînage anonyme  Identifiant patient anonyme +++ => Potentiel d’analyse accru Qualité des données vraisemblablement à partir de

Introduction Data mining
Extraction à partir d’importantes quantités de données brutes d’informations inédites et pertinentes en vue d’une utilisation Méthodes d’apprentissage Adaptée au big data Intérêt croissant dans les données de santé (analyse des parcours de soin)

Objectif Construire par data mining à partir des enregistrements de la base nationale PMSI MCO des règles de prédiction de codes diagnostiques applicables dans le cadre du contrôle qualité des données médico-administratives Séjour 1 I50 Séjour 2 I50 (confiance) ? Séjour 1 I50 + DZQM006 Séjour 2 I50 (confiance >> ?) ?

Matériels et Méthodes Apprentissage Validation Règles sélectionnées
Base Nationale Codes à prédire I50 CH Test Règles sélectionnées I50 => I50 DZQM006 + I50 => I50 Séjours à contrôler Data mining Filtre statistique Validation experte Règles validées DZQM005 + I50 => I50

Matériels et Méthodes Apprentissage Codes à prédire I50

{ Matériels et Méthodes Sélection des codes à prédire
Caractéristiques requises Complications et morbidités associées CMA Fréquents Chroniques (règles séquentielles +++) Etude Valodiag [Ficheur G, Genty M, Chazard E, Flament C, Beuscart R. Méthode automatisée calculant la valeur moyenne d’un diagnostic]  Classement des diagnostics Prédiction sur les catégories de codes à 3 caractères I50 « Insuffisance cardiaque »  I500 «Insuffisance cardiaque congestive » I501 « Insuffisance ventriculaire gauche » I509 « Insuffisance cardiaque, sans précision » {

Matériels et Méthodes Codes à prédire E11 « Diabète type 2 »
I48 « Fibrillation atriale » I50 « Insuffisance cardiaque »

Matériels et Méthodes Apprentissage Data mining Codes à prédire
Base Nationale Codes à prédire I50 Data mining

Matériels et Méthodes Construction des règles par data mining
Echantillon d’apprentissage Base nationale PMSI MCO 2007 à 2010 Identifiant chronologique de séjour Identifiant d’établissement (numéro FINESS) Identifiant patient (numéro de chaînage anonyme) Age et sexe du patient GHM Durée de séjour (durée PMSI = nombre de nuitées) Diagnostics Actes Mois et année de sortie

Echantillon d’apprentissage Tirage au sort Critères d’inclusion Au moins deux séjours par patient Au moins un séjour dans le CH test Code ciblé présent dans au moins un séjour

Ensemble d’apprentissage T
Matériels et Méthodes Construction des règles par data mining Ensemble d’apprentissage T Séjour 1 : I48 E11 DERP003 Séjour 2 : I50 DZQM006 Séjour 3 : I10 I69 …... Base Nationale

Règles de prédiction DZQM006 => I50 DZQM006 = Motif prédictif I50 = Item prédit Règles séquentielles  Facteur temporel +++ Principe de précédence  Motif prédictif précède l’item prédit dans le temps Séjour 1 DZQM006 Séjour 2 I50

Support = Nombre de transactions contenant le motif divisé par le nombre de transactions contenues dans la base transactionnelle Confiance = Nombre de transactions contenant le motif prédictif et l’item prédit divisé par le nombre de transactions contenant le motif prédictif

Seuils de support (minSupp) et de confiance (minConf) au préalable minSupp = % minConf = 50 % R© version , algorithme SPADE, package arulesSequences

Matériels et Méthodes Apprentissage Règles sélectionnées Data mining
Base Nationale Codes à prédire I50 Règles sélectionnées I50 => I50 DZQM006 + I50 => I50 Data mining Filtre statistique

Matériels et Méthodes Sélection des règles
Production de règles triviales Filtre statistique Produit (support * confiance) +++ Compromis fréquence / fiabilité

Base Nationale Codes à prédire I50 CH Test Règles sélectionnées I50 => I50 DZQM006 + I50 => I50 Séjours à contrôler Data mining Filtre statistique

Matériels et Méthodes Contrôle et validation des règles
Validation à partir des courriers de sortie Base de test indépendante (centre hospitalier test) Appréciation de la valeur des règles en termes de recodage des codes ciblés Pour chaque règle prédictive  Extraction de séjours à contrôler

Base Nationale Codes à prédire I50 CH Test Règles sélectionnées I50 => I50 DZQM006 + I50 => I50 Séjours à contrôler Data mining Filtre statistique Validation experte Règles validées DZQM005 + I50 => I50

Matériels et Méthodes Contrôle et validation des règles
Motif prédictif présent au niveau du séjour 1 et le code prédit absent au niveau du séjour 2 DZQM006 ≠> I50 Proportion de séjours recodés Pathologies chroniques  Code prédit présent au niveau du séjour 1 et absent au niveau du séjour 2 I50 ≠> I50 Lift (VPP règle/VPP CMA) Validation

Résultats Echantillon d’apprentissage Patients Séjours Nombre 12125
Patients Séjours Nombre 12125 59170 Age moyen (ans) 51 50.7 Sexe Homme 5134 (42.3 %) 26866 (45.4 %) Femme 6991 (57.7 %) 32304 (54.6 %) Nombre moyen séjours par patient 5 Durée moyenne séjour PMSI (jours) 4.4 Nombre moyen diagnostics par séjour 4 Nombre moyen actes par séjour Echantillon d’apprentissage

Règles séquentielles sélectionnées
Résultats Codes prédits Motifs prédictifs Libellés Confiance E11 Diabète type 2 55 % E11 + I10 + DZQM006 Diabète type 2 Hypertension artérielle Echographie cardiaque 71 % E11 + I10 + I48 Diabète type 2 Hypertension artérielle Fibrillation atriale 72 % I48 Fibrillation atriale 51 % I48 + I10 + E78 Fibrillation atriale Hypertension artérielle Dyslipidémie 60 % I48 + I10 + Z95 Fibrillation atriale Hypertension artérielle Présence d'implants cardiovasculaires I48 + I69 Fibrillation atriale Séquelles d'infarctus cérébral 62 % I50 Insuffisance cardiaque 37 % I50 + I10 + I48 Insuffisance cardiaque Hypertension artérielle Fibrillation atriale 50 % Règles séquentielles sélectionnées

Insuffisance cardiaque Contrôle et validation des règles séquentielles
Résultats Motifs prédictifs Libellés N séjours contrôlés (432) % séjours recodés Lift E11 Diabète type 2 117 53 % (reference) E11 + I10 + DZQM006 Diabète type 2 Hypertension artérielle Echographie cardiaque 32 69 % 1.30 E11 + I10 + I48 Diabète type 2 Hypertension artérielle Fibrillation atriale 20 75 % 1.42 169 I48 Fibrillation atriale 92 30 % I48 + I10 + E78 Fibrillation atriale Hypertension artérielle Dyslipidémie 16 25 % 0.83 I48 + I10 + Z95 Fibrillation atriale Hypertension artérielle Présence d'implants cardiovasculaires 25 24 % 0.80 I48 + I69 Fibrillation atriale Séquelles d'infarctus cérébral 23 39 % 156 I50 Insuffisance cardiaque 70 21 % I50 + I10 + I48 Insuffisance cardiaque Hypertension artérielle Fibrillation atriale 37 1.00 107 Contrôle et validation des règles séquentielles

Discussion Validation de trois règles de prédiction construites par data mining à partir des enregistrements de la base nationale PMSI MCO {Diabète type 2 + Hypertension artérielle + Echographie cardiaque} => Diabète type 2 {Diabète type 2 + Hypertension artérielle + Fibrillation atriale} => Diabète type 2 {Fibrillation atriale + Séquelles d’infarctus cérébral} => Fibrillation atriale Valides, fiables et simples d’application Confiance > 0.6 et lift ≥ 1.30 Méthodes de data mining  Approche originale Validation à partir des courriers de sortie  Objective avec mise à l’épreuve en situation réelle de recodage Règles séquentielles Rentabilisation  Amélioration du codage sur plusieurs séjours Parcours de soin  Financement au parcours +++ Anonymat et confidentialité

Discussion Base nationale
Qualité des données tributaire du codage  Amélioration Chaînage des séjours imparfait  Marginal Catégories de codes à 3 caractères  Perte d’informations Robustesse Information satisfaisante et concordante Niveaux de sévérité identiques Pas de règles validées pour code I50 Moins fréquent Règles de codage ambiguës Evaluation des règles +++ Capacité de recodage  Valorisation ? Conditions d’application des CMA

Conclusion Résultats surprenants  Qualité du codage ?
Taille de l’échantillon (années > 2010) Autres méthodes (NoSQL) Autres codes (pathologies aiguës) Intégration à un environnement de contrôle qualité  Evaluation réelle des capacités de valorisation

Merci de votre attention

Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données.

Présentations similaires

Présentation au sujet: "Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données.

Présentations similaires

Présentation au sujet: "Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back