Probabilistic Record Linkage (PRL)
Base SAMU Base hôpital Base unique Enrichissement des bases locales Combiner plusieurs ensembles de données en un seul RL : objectif
Marie Dupond F 05/05/44 18/11/08 fracture fémur,... Données SAMU Marie Dupond F 05/05/45 18/11/08 cim10 ccam Données hôpital Utiliser des propriétés statistiques des variables communes (nom, prénom...) pour calculer la probabilité que 2 enregistrements concernent le même patient. PRL : méthode
Pour une variable Deux propriétés statistiques Fiabilité Pouvoir discriminant Pour calculer la cote d'un appariement
PRL : fiabilité probabilité d'agrément sur un appariement. (# sensibilité) F = 1 – taux d'erreur taux d'erreur : déterminé à partir d'une analyse manuelle des données ou de recherches précédentes (erreurs de saisie) Ex: variable = nom de famille taux erreur = 5% nom SAMU = nom hospfiabilité F = 0.95 nom SAMU nom hospfiabilité 1- F = 0.05
PRL : pouvoir discriminant probabilité d'un agrément sur un non appariement. P = 1 / nombre valeurs possibles Ex : Variable = mois de naissance (en chiffres) 12 valeurs possibles mois SAMU = mois hospP = 1 / 12 = mois SAMU mois hospP = 0.917
PRL : fiabilité x pouvoir discriminant Mois de naissance 12 valeurs possibles Taux d'erreur = 5% 2 possibilités : agrément mois SAMU = mois hosp :1 mois SAMU mois hosp :18
PRL : en pratique SAMU Hôpital Si 1 enregistrement de la base hôpital s'apparie à 1(et 1 seul) enregistrement de la base SAMU qui contient enregistrements : Cote d'appariement de 2 enregistrements = 1 contre
PRL : agrément sur le prénom F = 0.90 P = 0.01 prénoms identiques : agrément sur le prénom = 90:1 Cote d'appariement = 1 / x 90/1 = 1 contre Marie Dupond F 05/05/44 18/11/08 fracture fémur,... Données SAMU Marie Dupond F 05/05/45 18/11/08 cim10 ccam Données hôpital
PRL : agrément sur le nom F = 0.90 P = noms identiques : agrément sur le nom = 22:1 Cote d'appariement = 1 / x 22 / 1 = 1 contre 51 Marie Dupond F 05/05/44 18/11/08 fracture fémur,... Données SAMU Marie Dupond F 05/05/45 18/11/08 cim10 ccam Données hôpital
PRL : agrément sur le sexe F = 0.99 P = 0.5 sexes identiques ratio : agrément sur le sex = 2 : 1 Cote d'appariement = 1 / 51 x 2 / 1 = 1 contre 25
PRL : agrément sur la date de naissance Jour : F = 0.99P = 0.03 (1/30) jours identiques : agrément sur le jour = 30 : 1 Mois : F = 0.99P = 0.08 (1/12) mois identiques : agrément sur le mois = 12 : 1 Année : F = 0.99P = 0.01 années différentes agrément sur lannée = 0.01 / 0.99 = 1 : 99 Cote d'appariement = 1 / 25 x 4 = 1 contre 6
PRL : validation Sensibilité Spécificité Courbes ROC Valeurs seuils
PRL : agrément sur 2 enregistrements Cote = 1 contre 6 3 classes en fonction de valeurs seuils Cote > S1appariement oui Cote < S2appariement non - S2 < cote < S1 appariement ?