Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCôme Théodore Lavoie Modifié depuis plus de 8 années
1
Appariement de la base de données PMSI-MCO à celle des causes médicales de décès via le SNIIR-AM Séminaire Appariements sécurisés 19 janvier 2012 Agathe Lamarche-Vadel Grégoire Rey Eric Jougla 1
2
Cadre du projet XIXème s. : 1 ères utilisations de la mortalité hospitalière pour évaluer la qualité des soins An. 2000 : indicateurs/établissement produits en routine dans qq pays (RU,EU, All, Hol …) Fin 2008 : demande du Président de la République de disposer d’indicateurs de mortalité en établissements de santé en France 2009 : instruction des aspects méthodologiques (pilotage DREES, en lien DGOS et HAS) -> nécessité d’inclure les décès après la sortie 27/10/2010 : signature d’une convention de partenariat scientifique sur trois ans entre DREES - CNAMTS - CépiDc visant à évaluer la faisabilité d’indicateur de mortalité faisant suite à une hospitalisation 2
3
Appariement nécessaire à la réalisation du projet AMPHI Projet nommé AMPHI : Analyse de la Mortalité Post-Hospitalière à la recherche d’Indicateurs de mortalité représentatifs de la qualité des soins Nécessite l’appariement au niveau individuel – des données hospitalières : PMSI-MCO – aux données de causes médicales de décès Absence d’identifiant direct dans la base CépiDc -> appariement indirect Via le SNIIRAM qui chaine le PMSI avec des données administratives individuelles AM Date de décès pour les bénéficiaires du Régime Général (hors SLM) -> restriction de l’étude au RG (~70% de la population française ) Mois et année de naissance Lieu de domicile ‘en code INSEE’ 3
4
Appariement nécessairement sécurisé Données individuelles doublement sensibles : – Données de santé à caractère personnel : diagnostics hospitaliers, actes … du PMSI-MCO – Causes médicales de décès confidentielles Données individuelles indirectement identifiantes : – Dates de soins / de naissance / de décès – Lieux de soins / de résidence Etude expérimentale autorisée par l’IDS et la CNIL – Après mise en place d’un protocole sécurisé particulier – Restrictive : PMSI MCO 2008-2009, CMUC et décès 2008-2010 – Non généralisable 4
5
Méthodes (1) Appariement indirect portant sur les variables communes aux deux bases : Sexe - mois et année de naissance - jour, mois et année de décès - dpt et commune de domicile La variable commune de domicile du SNIIRAM a posé plusieurs difficultés : – de nombreuses valeurs manquantes (16% en 2008, 4% en 2009) – un mélange de codes Insee et de codes postaux Appariement uniquement avec le logiciel automatique – Premier appariement : sexe, mois et année de naissance, jour mois et année de décès, département de domicile. – Deuxième appariement : idem + la commune de domicile Appariement avec traitements spécifiques de la commune de domicile 5
6
Méthodes (2) Expression des résultats d’appariement Le résultat d’une tentative d’appariement d’un cas de décès du SNIIRAM à la base CépiDc sur un ensemble défini de variables d’appariement est dit : Non trouvé si 2 variables au moins discordent ou Partiel si une seule variable dicorde … Total si toutes les variables concordent … et Unique … pour une seule observation de la base CépiDc Multiple … pour plus d’une observation de la base CépiDc Donc 5 résultats possibles : Non trouvé – Total unique – Total multiple – Partiel unique – Partiel multiple Règle de décision : sont considérés comme appariés les ‘Total unique’ et les ‘Partiel Unique’ 6
7
Résultat du 1 er appariement : (sexe – m/a naissance – j/m/a décès – depdom) 7
8
Résultat du 2ème appariement : (sexe–m/a naissance–j/m/a décès–depdom comdom) 8
9
Méthodes (3) Stratégie d’appariement en deux temps avec traitements spécifiques de la commune de domicile 1 er temps : appariement sur les variables : sexe - mois et année de naissance - jour, mois et année de décès – département de domicile 2 ème temps : utilisation de la variable commune de domicile pour -départager les doublons (Total et partiels multiples) Parmi les doublons de la base CépiDc Repérer ceux dont le code (insee) de commune de domicile correspond au code (insee ou postal) de domicile du cas Considérer le cas apparié si la comdom d’un seul des doublons correspond -trancher les cas douteux (Partiels uniques) Exclure ceux dont la commune diverge Sauf si la divergence portait déjà sur le département de domicile 9
10
10 Méthodes (4) Stratégie d’appariement en deux temps
11
Résultat de la stratégie en deux temps avec prise en compte spécifique de la variable commune de domicile 11 20082009Total N%N%N% Non apparié178255,0%187145,1%365395,1% dontanciennement Non Trouvé8650,2%10550,3%19200,3% Partiel unique9940,3%10050,3%19990,3% Total ou Partiel multiple159664,5%166544,6%326204,5% Apparié33986495,0%34634694,9%68621094,9% dontanciennement Partiel unique21670,6%24390,7%46060,6% Total ou Partiel multiple79942,2%91972,5%171912,4% Total unique32970392,2%33471091,7%66441391,9% Total 357689100,0%365060100,0%722749100,0%
12
Résultats (4) Représentativité de l’appariement Par sexe : pas de différence notable Par âge : Taux d’appariement ≥ 94% pour toutes les classes d’âge sauf < 1 an : 93% et 1-20 ans : 93% Par département de domicile : Taux d’appariement ≥ 92% pour tous les départements sauf : - ceux de la région parisienne, en particulier Paris : 86% - domiciliation à l’étranger : 27% 12
13
Résultats (5) Taux d’appariement par département de domicile 13
14
Résultats (6) Par département : taux d’appariement en fonction du pourcentage de résidents étrangers 14 A l'échelle des départements de domicile, le taux d’appariement est inversement associé au % de résidents de nationalité étrangère.
15
Conclusion Réalisation effective et taux d’appariement de 94,9% satisfaisants. Variables d’appariement disponibles globalement suffisantes pour discriminer les observations aux âges élevés. Problème de faible taux d’appariement à Paris et région parisienne 15
16
Appariement : perspectives L’utilisation de variables supplémentaires devrait améliorer ce résultat. Cependant, la qualité des différentes données d’état civil est vraisemblablement corrélée. Paradoxe : avec la méthode déterministe utilisée, plus le nombre de variables est élevé, plus la probabilité d’apparier les données diminue Possibilité de faux appariés : Erreur dans le RG correspondant à un unique (hors RG dans la base CépiDc) Partiels uniques même règle pour toutes les variables Appariement probabiliste 16
17
Appariement probabiliste ≠ appariement déterministe (exact) Méthode de Fellegi et Sunter Considère comme appariées des observations j et k maximisant le rapport Dépendant des poids : Détermination d’un seuil à partir duquel le couple est considéré apparié
18
Appariement probabiliste En pratique, poids inconnus Méthode d’estimation des poids EM (Expectation, Maximisation) Utilisation du logiciel FRIL Hypothèse d’indépendance conditionnelle, calcul des poids séparés pour chaque variable i : Nb d’observations élevés : comparaison par bloc (par exemple par date de décès)
19
Appariement probabiliste Plusieurs problèmes : -Pas d’ensemble d’apprentissage -Hypothèse d’indépendance fausse -Choix des blocs ne permet pas une erreur sur les variables de base, mais sinon temps de calcul trop élevé -Pas de mesure de la qualité de l’appariement (pas de référence) -Seuils à déterminer -Résultats obtenus incohérents pour l’instant
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.