Discrimination Validation Système de classification: affecte un sujet à la classe 0 ou à la classe 1 Diagnostic: 0 = non malade; 1= malade Pronostic: 0 = non événement (good outcome); 1= événement (poor outcome) Problème : Résultat observé binaire Risque prédit: probabilité p entre 0 et 1 à laquelle on applique un seuil pour prendre la décision de classification (ex: Dg positif si p > 0.5) Indicateurs: Sensibilité, Spécificité, Valeurs prédictives, aire sous la courbe ROC Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
Discrimination Validation M+: événement M-: non événement P: positifs (p > S) N: Négatifs (p < S) VP: vrais positifs FP: faux positifs VN: vrais négatifs FN: faux négatifs M+ M- P VP FP N FN VN VN FN VP FP Non événement négatif positif Seuil S 0 0.5 1 Probabilité p Sensibilité = VP/ M+ Spécificité = VN / M- VPP = VP /P Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
Discrimination (…) Validation Risque = probabilité p1 estimée, évaluée par rapport à un résultat observé (0 ou 1) M+ M- p1> S VP FP p1 <= S FN VN Seuil = 0.2 1 C index = 0.8 C index = 0.55 (…) Seuil = 0.4 Seuil = 0.6 M+ M- p1> S VP FP p1 <= S FN VN 0.8 Seuil =0.4 Seuil =0.6 Pour être discriminent, il suffit que le modèle permette une approximation de p1 qui soit juste par rapport à 0 ou 1: du moment que les classes 0 et 1 sont bien séparée, on ne s’intéresse pas à la valeur précise de p1 0.6 0.4 Sensibilité Seuil =0.2 0.2 0.2 0.4 0.6 0.8 1 1- Spécificité (taux de faux positifs) Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
Signification de l’aire sous la courbe ROC Discrimination Validation Signification de l’aire sous la courbe ROC 1 Discrimination parfaite: C index = 1 Exemple: C index = 0.8 Pas de discrimination: C index = 0.5 0.8 0.6 0.4 Sensibilité 0.2 0.2 0.4 0.6 0.8 1 1- Spécificité (taux de faux positifs) Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
Discrimination Validation Interprétation du C index Estimations p du modèle de prédiction Pour les Malades Pour les non malades 0.7 . 0.1 0.6 . 0.3 0.2 . 0.7 0.5 . 0.4 0.2 0.8 Paires concordante ex-aequo discordante …On envisage toutes les paires possibles: Test similaire: Test de Mann Withney U Wilcoxon Rank test Concordantes + ½ ex-aequo C index = ---------------------------------------- Toutes les paires Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
Calibration Validation Dans quelle mesure le risque prédit est-il proche du risque réel (virtuel) ? Test de Hosmer et Lemeshow Test de qualité de l’ajustement (« Goodness of fit ») Décomposition de la covariance Histogramme des taux d’événements observés par décile de risque prédit (représentation graphique du test de qualité de l’ajustement) Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
Calibration/Discrimination Validation Seuil S (sur le risque prédit) Positif Négatif Moyennement discriminant Bien calibré Risque « réel » 1 Seuil théorique = 0.5 Risque prédit: Bas Moyen Elevé Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
Calibration/Discrimination Validation Seuil S (sur le risque prédit) Positif Négatif Bien Discriminant Mal calibré Risque « réel » 1 Seuil théorique = 0.5 Risque prédit: Bas Moyen Elevé Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
(nombre d’événements observés par décile de risque prédit) Calibration Validation Dans quelle mesure le risque prédit est-il proche du risque réel (virtuel) ? (nombre d’événements observés par décile de risque prédit) Observed event rate Predicted event rate Events 1 3 5 7 9 11 13 15 17 19 Patients 20 20 20 20 20 20 20 20 20 20 /décile 0.2 0.4 0.6 0.8 1 Bien calibré 8 9 14 6 17 10 12 8 8 8 13 22 27 19 25 22 24 20 17 11 0.2 0.4 0.6 0.8 1 Mal calibré D’après Diamond, J Clin Epidemiol 1992;45:85-9 Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)
Predictive performance Results Concerning predictive performance , no one did better than the reference logistice regression model. There is not much to say and I won ’t lose my time describing the overlapping colors... Santé Publique et Informatique Médicale (SPIM-Broussais-Hôtel-Dieu, Paris VI)