Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données médico-administratives M. DJENNAOUI, G. FICHEUR, E. AERNOUT, R. BEUSCART, E. CHAZARD CHRU Lille, Service de l’information et des archives médicales, EA 2694, Lille Congrès Conjoint ADELF ÉMOIS 2015
Introduction Base nationale PMSI MCO Issue du recueil en continu de l’activité des établissements de santé dans le cadre de la tarification à l’activité Disponible pour exploitation Data reuse Bases disponibles 2005 à 2013 150 millions de séjours Big data Procédures de chaînage anonyme Identifiant patient anonyme +++ => Potentiel d’analyse accru Qualité des données vraisemblablement à partir de 2007-2008
Introduction Data mining Extraction à partir d’importantes quantités de données brutes d’informations inédites et pertinentes en vue d’une utilisation Méthodes d’apprentissage Adaptée au big data Intérêt croissant dans les données de santé (analyse des parcours de soin)
Objectif Construire par data mining à partir des enregistrements de la base nationale PMSI MCO des règles de prédiction de codes diagnostiques applicables dans le cadre du contrôle qualité des données médico-administratives Séjour 1 I50 Séjour 2 I50 (confiance) ? Séjour 1 I50 + DZQM006 Séjour 2 I50 (confiance >> ?) ?
Matériels et Méthodes Apprentissage Validation Règles sélectionnées Base Nationale Codes à prédire I50 CH Test Règles sélectionnées I50 => I50 DZQM006 + I50 => I50 Séjours à contrôler Data mining Filtre statistique Validation experte Règles validées DZQM005 + I50 => I50
Matériels et Méthodes Apprentissage Codes à prédire I50
{ Matériels et Méthodes Sélection des codes à prédire Caractéristiques requises Complications et morbidités associées CMA Fréquents Chroniques (règles séquentielles +++) Etude Valodiag [Ficheur G, Genty M, Chazard E, Flament C, Beuscart R. Méthode automatisée calculant la valeur moyenne d’un diagnostic] Classement des diagnostics Prédiction sur les catégories de codes à 3 caractères I50 « Insuffisance cardiaque » I500 «Insuffisance cardiaque congestive » I501 « Insuffisance ventriculaire gauche » I509 « Insuffisance cardiaque, sans précision » {
Matériels et Méthodes Codes à prédire E11 « Diabète type 2 » I48 « Fibrillation atriale » I50 « Insuffisance cardiaque »
Matériels et Méthodes Apprentissage Data mining Codes à prédire Base Nationale Codes à prédire I50 Data mining
Matériels et Méthodes Construction des règles par data mining Echantillon d’apprentissage Base nationale PMSI MCO 2007 à 2010 Identifiant chronologique de séjour Identifiant d’établissement (numéro FINESS) Identifiant patient (numéro de chaînage anonyme) Age et sexe du patient GHM Durée de séjour (durée PMSI = nombre de nuitées) Diagnostics Actes Mois et année de sortie
Matériels et Méthodes Construction des règles par data mining Echantillon d’apprentissage Tirage au sort Critères d’inclusion Au moins deux séjours par patient Au moins un séjour dans le CH test Code ciblé présent dans au moins un séjour
Ensemble d’apprentissage T Matériels et Méthodes Construction des règles par data mining Ensemble d’apprentissage T Séjour 1 : I48 E11 DERP003 Séjour 2 : I50 DZQM006 Séjour 3 : I10 I69 …... Base Nationale
Matériels et Méthodes Construction des règles par data mining Règles de prédiction DZQM006 => I50 DZQM006 = Motif prédictif I50 = Item prédit Règles séquentielles Facteur temporel +++ Principe de précédence Motif prédictif précède l’item prédit dans le temps Séjour 1 DZQM006 Séjour 2 I50
Matériels et Méthodes Construction des règles par data mining Support = Nombre de transactions contenant le motif divisé par le nombre de transactions contenues dans la base transactionnelle Confiance = Nombre de transactions contenant le motif prédictif et l’item prédit divisé par le nombre de transactions contenant le motif prédictif
Matériels et Méthodes Construction des règles par data mining Seuils de support (minSupp) et de confiance (minConf) au préalable minSupp = 0.075 % minConf = 50 % R© version 3.0.2., algorithme SPADE, package arulesSequences
Matériels et Méthodes Apprentissage Règles sélectionnées Data mining Base Nationale Codes à prédire I50 Règles sélectionnées I50 => I50 DZQM006 + I50 => I50 Data mining Filtre statistique
Matériels et Méthodes Sélection des règles Production de règles triviales Filtre statistique Produit (support * confiance) +++ Compromis fréquence / fiabilité
Matériels et Méthodes Apprentissage Validation Règles sélectionnées Base Nationale Codes à prédire I50 CH Test Règles sélectionnées I50 => I50 DZQM006 + I50 => I50 Séjours à contrôler Data mining Filtre statistique
Matériels et Méthodes Contrôle et validation des règles Validation à partir des courriers de sortie Base de test indépendante (centre hospitalier test) Appréciation de la valeur des règles en termes de recodage des codes ciblés Pour chaque règle prédictive Extraction de séjours à contrôler
Matériels et Méthodes Apprentissage Validation Règles sélectionnées Base Nationale Codes à prédire I50 CH Test Règles sélectionnées I50 => I50 DZQM006 + I50 => I50 Séjours à contrôler Data mining Filtre statistique Validation experte Règles validées DZQM005 + I50 => I50
Matériels et Méthodes Contrôle et validation des règles Motif prédictif présent au niveau du séjour 1 et le code prédit absent au niveau du séjour 2 DZQM006 ≠> I50 Proportion de séjours recodés Pathologies chroniques Code prédit présent au niveau du séjour 1 et absent au niveau du séjour 2 I50 ≠> I50 Lift (VPP règle/VPP CMA) Validation
Résultats Echantillon d’apprentissage Patients Séjours Nombre 12125 Patients Séjours Nombre 12125 59170 Age moyen (ans) 51 50.7 Sexe Homme 5134 (42.3 %) 26866 (45.4 %) Femme 6991 (57.7 %) 32304 (54.6 %) Nombre moyen séjours par patient 5 Durée moyenne séjour PMSI (jours) 4.4 Nombre moyen diagnostics par séjour 4 Nombre moyen actes par séjour Echantillon d’apprentissage
Règles séquentielles sélectionnées Résultats Codes prédits Motifs prédictifs Libellés Confiance E11 Diabète type 2 55 % E11 + I10 + DZQM006 Diabète type 2 Hypertension artérielle Echographie cardiaque 71 % E11 + I10 + I48 Diabète type 2 Hypertension artérielle Fibrillation atriale 72 % I48 Fibrillation atriale 51 % I48 + I10 + E78 Fibrillation atriale Hypertension artérielle Dyslipidémie 60 % I48 + I10 + Z95 Fibrillation atriale Hypertension artérielle Présence d'implants cardiovasculaires I48 + I69 Fibrillation atriale Séquelles d'infarctus cérébral 62 % I50 Insuffisance cardiaque 37 % I50 + I10 + I48 Insuffisance cardiaque Hypertension artérielle Fibrillation atriale 50 % Règles séquentielles sélectionnées
Insuffisance cardiaque Contrôle et validation des règles séquentielles Résultats Motifs prédictifs Libellés N séjours contrôlés (432) % séjours recodés Lift E11 Diabète type 2 117 53 % (reference) E11 + I10 + DZQM006 Diabète type 2 Hypertension artérielle Echographie cardiaque 32 69 % 1.30 E11 + I10 + I48 Diabète type 2 Hypertension artérielle Fibrillation atriale 20 75 % 1.42 169 I48 Fibrillation atriale 92 30 % I48 + I10 + E78 Fibrillation atriale Hypertension artérielle Dyslipidémie 16 25 % 0.83 I48 + I10 + Z95 Fibrillation atriale Hypertension artérielle Présence d'implants cardiovasculaires 25 24 % 0.80 I48 + I69 Fibrillation atriale Séquelles d'infarctus cérébral 23 39 % 156 I50 Insuffisance cardiaque 70 21 % I50 + I10 + I48 Insuffisance cardiaque Hypertension artérielle Fibrillation atriale 37 1.00 107 Contrôle et validation des règles séquentielles
Discussion Validation de trois règles de prédiction construites par data mining à partir des enregistrements de la base nationale PMSI MCO {Diabète type 2 + Hypertension artérielle + Echographie cardiaque} => Diabète type 2 {Diabète type 2 + Hypertension artérielle + Fibrillation atriale} => Diabète type 2 {Fibrillation atriale + Séquelles d’infarctus cérébral} => Fibrillation atriale Valides, fiables et simples d’application Confiance > 0.6 et lift ≥ 1.30 Méthodes de data mining Approche originale Validation à partir des courriers de sortie Objective avec mise à l’épreuve en situation réelle de recodage Règles séquentielles Rentabilisation Amélioration du codage sur plusieurs séjours Parcours de soin Financement au parcours +++ Anonymat et confidentialité
Discussion Base nationale Qualité des données tributaire du codage Amélioration Chaînage des séjours imparfait Marginal Catégories de codes à 3 caractères Perte d’informations Robustesse Information satisfaisante et concordante Niveaux de sévérité identiques Pas de règles validées pour code I50 Moins fréquent Règles de codage ambiguës Evaluation des règles +++ Capacité de recodage Valorisation ? Conditions d’application des CMA
Conclusion Résultats surprenants Qualité du codage ? Taille de l’échantillon (années > 2010) Autres méthodes (NoSQL) Autres codes (pathologies aiguës) Intégration à un environnement de contrôle qualité Evaluation réelle des capacités de valorisation
Merci de votre attention