Les tests diagnostiques. Dépistage / Confirmation Pr. F. Kohler Francois.kohler@univ-lorraine.fr 2013/2014
Le problème de la décision Problème général Le juge : Risque de condamner un innocent Risque de laisser échapper un coupable Le médecin : Risque de dire à la personne qu’elle n’est pas malade et de ne pas traiter le malade Risque de dire à la personne qu’elle est malade et traiter à tort la personne saine.
Les tests diagnostiques Sont des outils d’aide à la décision médicale au même titre que les tests statistiques sont des outils de décision dans l’incertain Peuvent reposer sur : La présence ou l’absence d’un signe Babinski +, processus expansif sur une radio…. Une valeur numérique comparée à une limite Taux de glycémie
Caractéristiques intrinsèques du test Elles ne dépendent pas de la prévalence de la maladie Elles concernent : La reproductibilité du test Les valeurs diagnostiques du test Sensibilité, spécificité Rapports de vraisemblance Indices Elles sont influencées par : Le stade de la maladie Les conditions de réalisation du test
Reproductibilité du test Plus un examen est reproductible plus il est fiable La reproductibilité peut être mesurée par le coefficient de Kappa
Kappa Exemple : 100 lames d’anatomopathologie Chaque lame est lue par 2 médecins Le critère de jugement est binaire : présence de cancer Oui/Non => 4 combinaisons possibles Résumées dans un tableau de contingence à 4 cases
Kappa Médecin 1 Cancer + Cancer - Total Médecin 2 18 (A) 2 (B) 80 (C+D) 22 (A+C) 78 (B+D) 100 (N =A+B+C+D) Kappa Concordance observée = concordance réelle + concordance aléatoire. p0 = (A+D)/N = 0,94 (94%) Concordance aléatoire est calculée sous l'hypothèse d'indépendance des jugements des 2 médecins Effectifs théorique = Total ligne * Total colonne / N A’ = (A+B)*(A+C)/N et D’ = (C+D)*(B+D)/N pc = A’+D’/N =[(22*20)/100 + (78*80)/100]/100 = 0, 668 (66,8%) On admet que la concordance est : bonne si Kappa > 0,6 mauvaise si Kappa < 0,3 intermédiaire entre les deux.
Etude de la reproductibilité Etudes comparatives avec répétition de mesures 2 ou plusieurs répétitions dans des conditions maximales d’indépendances des réalisations Aveugle Lots Conditions de réalisation …
Quelques points Identification de la maladie Pour évaluer le pourcentage de tests positifs chez les malades et de tests négatifs chez les non malades, il faut avoir un examen de référence. Gold Standard 2 types de tests diagnostiques : Examens avec réponses Positif/Négatif (recherche de BK dans les crachats/tuberculose) Examens avec réponses quantitatives (glycémie/diabète) => Problème du seuil
Sensibilité, Spécificité, Rapports de vraisemblance Leurs déterminations nécessitent de disposer d’un groupe de malades et d’un groupe non atteint de la maladie Attention au Gold Standard qui lui aussi n’est pas « parfait » Sont indépendants de la prévalence Dépendent : Du stade de la maladie Des conditions de réalisation du test
Exemple de la fièvre Typhoïde
Sensibilité et Spécificité Aucun test n’est parfait Faux négatifs et Faux positifs Sensibilité : % de tests positifs chez les malades Se = VP/(VP+FN) Spécificité : % de tests négatifs chez les non malades Sp = VN/(VN+FP) Malade Non Malade Test + VP FP Test - FN VN Total VP+FN VN+FP VP : Vrai positif VN : vrai négatif FP : Faux positif FN : Faux négatif
Rappel sur la précision d’un pourcentage Le pourcentage observé, p, dans l’échantillon est le meilleur estimateur du pourcentage dans la population On peut construire autour du pourcentage un intervalle de confiance, en général à 95%, tel que celui-ci contienne 95 fois sur 100 le pourcentage de la population Si les conditions sont remplies (n*p et n*(1-p) >5) 𝐼𝐶=𝑝 ±2∗√ 𝑝∗(1−𝑝) 𝑁
Rapports de vraisemblance et Indice de Youden Le test idéal sensibilité = 1 et spécificité = 1 n’existe pas Rapports de vraisemblance RV+ : L = Un sujet a L fois plus de chance d'avoir le test positif s'il est atteint de la maladie que dans le cas contraire RV- : Indice de Youden : Y = Se + Sp – 1
Variations du seuil Chez les malades, les valeurs sont plus élevées que chez les non malades (Diabète) Un augmentation de la valeur de la limite va : Augmenter la spécificité Diminuer la sensibilité Chez les malades, les valeurs sont moins élevées que chez les non malades (Hypothyroïdie) Un augmentation de la valeur de la limite va : Diminuer la spécificité Augmenter la sensibilité
Variation du seuil A chaque limite, on a une valeur de spécificité et de sensibilité => Courbe ROC Test : A : aucun intérêt D : le meilleur test Aire sous la courbe ROC : AROC Sert à comparer les tests Receiver Operating Characteristic (détection des avions ennemis par les radars pendant la seconde guerre mondiale)
Valeur diagnostique d’un test La valeur diagnostique d'un test est d'autant plus grande que l'indice de Youden est plus proche de 1. L'apport diagnostique d'un résultat positif du test est d'autant plus grand que le RV+ (L) est plus élevé. L'apport diagnostique d'un résultat négatif d'autant plus grand que le RV- est plus petit et proche de zéro. B.Grenier
Règle de Sackett Si un test a une spécificité élevée, un résultat positif confirme l’hypothèse diagnostique. Si un test a une sensibilité élevée, un résultat négatif élimine le diagnostic. Donc : En dépistage on prend un test à sensibilité élevée (on privilégie la sensibilité sur la spécificité) suivi d’un test de confirmation. En confirmation diagnostique, on privilégie la spécificité.
Performances extrinsèques d’un test Valeurs prédictives positives et négative. La fréquence de la maladie (prévalence) dans la population est la probabilité pré-test. La fréquence de la maladie dans les personnes ayant un test positif est la valeur prédictive positive (VPP). C’est la probabilité post-test. Valeur prédictive négative (VPN) = Fréquence des non malades chez les sujets ayant un test négatif
Détermination des valeurs prédictives Il faut connaitre 3 éléments : Sensibilité Spécificité Prévalence Méthodes : Arbre des probabilités Théorème de Bayes Reconstitution d’un tableau à 4 cases
Arbre des probabilité et Théorème de Bayes Test Négatif Malade Non Malade Prévalence 1 - Prévalence Test Positif Sensibilité 1 - Sensibilité 1 - Spécificité Spécificité
Reconstruction du tableau à 4 cases Exemple : prévalence = 6%, Se = 98%, SP = 95% L = 0,98/(1-0,95)= 19,6 On prend arbitrairement 1000 sujets d’où VP+FN = 1000*0,06 = 60 VN+FP = 940 VP = 60*0,98 = 58,8 VN = 940*0,95 = 893 FP et FN par différences Malade Non Malade Total Test + 58,8 47 105,8 Test - 1,2 893 894,2 60 940 1000 VPP = 58,8/105,8 = 0,556 = 55,6% VPN = 893/894,4 = 0,999 = 99,9%
prévalence = 6%, Se = 98%, SP = 95% L = 0,98/(1-0,95)= 19,6 Source HAS
VPP, VPN et prévalence Pour une sensibilité donnée, VPP et VPN varient en fonction de la prévalence. Prévalence augmente : VPP augmente VPN diminue
VPP, VPN et la prévalence Prévalence du paludisme 90% en Afrique 0,001 (1 pour mille) en France. Un test biologique est utilisé pour le diagnostic avec une sensibilité de 95% et une spécificité de 85%. => L = 6,3 l =0,05 Quelles seront les probabilités pour des patients africains et français d’avoir le paludisme quand le test est positif et inversement de ne pas avoir la maladie quand le test est négatif ?
Gain diagnostique d’un test Gain diagnostique positif C’est la différence entre la probabilité pré-test (prévalence) de la maladie et la probabilité post-test (valeur prédictive positive) Gain positif = VPP – prévalence
Test et Re Test En population générale, la fréquence de la maladie est de 6%, on fait un test diagnostic A qui a une sensibilité de 98% et une spécificité de 95%. VPP = 55,6% On envoie les sujets positifs au centre de référence où l’on fait le même test VPP = (0,556*0,98)/((0,556*0,98)+ (1-0,556)*(1-0,95))= 96,1%
Résumé : Facteurs influençant les caractéristiques d’un test Pour la sensibilité et la spécificité : Le stade de la maladie et les conditions de réalisation Exemple ; fièvre typhoïde et test de Vidal et Felix, test de dépistage du VIH… Pour les VPP et VPN : La sensibilité et la spécificité la prévalence de la maladie La prévalence : connaissances épidémiologique du lieu d’exercice Test et re test : si on envoie les sujets positifs faire une deuxième fois le test on modifie la prévalence (dans le groupe + c’est la VPP du premier test) et de ce fait lors de la répétition la VPP de la répétition sera augmentée de manière importante et la VPN diminuée.
Influence du Gold Standard Conséquences d’un gold standard (GS) « pas si en or » que cela… Exemple : la prévalence de la maladie est de 0,10 (10%) Le gold standard n’est pas parfait… Il a une sensibilité de 0, 95 (95%) et une spécificité de 0,90 (90%) Le nouveau test a une sensibilité de 0,98 (98%) et une spécificité de 0,95 (95%) La réalité : Malade Non Malade Gold standard + 9 500 9 000 Nouveau test + 9 800 4 500 Gold standard - 500 81 000 Nouveau test - 200 85 500 Total 10 000 90 000
Suite Dans la pratique, la prévalence n’est pas connue et l’on considère comme malade tous ceux qui ont un gold standard positif. Le Gold standard fait croire que sur les 100 000 personnes il y a 18 500 « malades »= 9500 (vrais malades) + 9000 (non réellement malades), parmi lesquels le nouveaux test donne : 9500 * 0,98 (= 9310 )+ 9000 * 0,05 (= 450) = 9760 Tests positifs 9500 * 0,02 (= 190) + 9000 * 0,95 (= 8550) = 8740 Tests négatifs Le Gold standard fait croire sur les 100 000 personnes qu’il y 81000 (vrais non malade) + 500 (faux non malade) = 81 500 « non malades » parmi lesquels le nouveaux test donne : 81000 * 0,02 (=4050) + 500 * 0,98 (=490) = 4540 Tests positifs 81000 * 0,95 (=76950) + 500 *0,02 (= 10) = 76960 Tests négatifs
Résultats de l’étude face au gold standard Le nouveau test apparaît avec les caractéristiques suivantes : Malade (GS+) Non Malade (GS-) Total Nouveau Test + 9 760 4 540 14 300 Nouveau Test - 8 740 76 960 85 700 18 500 81 500 100 000 Sensibilité = 0,52 (52%) Spécificité = 0,94 (94%) Véritable sensibilité = 0,98 (98%) Véritable spécificité = 0,95 (95%) Attention : tout ce qui est jaune et qui brille n’est pas de l’or… le nouveau test pourrait apparaître comme moins performant qu’un autre vis-à-vis ce GS alors que ce serait l’inverse.
« Bilan de plusieurs tests indépendants » Cas fréquent : On réalise une batterie de n tests indépendants les uns des autres Batterie de biologie, de tests cutanés… Chaque test a ses caractéristiques intrinsèques Dans la batterie un test au moins est positif. Quelle est la probabilité chez un sujet sain d’avoir au moins un test positif dans cette batterie de n tests ?
Suite Exemple simplifié pour comprendre : On réalise une batterie de 40 tests cutanés diagnostiques d’allergie. Les tests sont indépendants les uns des autres Chaque test a une spécificité de 95% Chez un sujet sain quelle est la probabilité d’avoir au moins un test positif dans cette batterie ?
Suite Le nombre de tests positifs dans la batterie : Suit une loi binomiale Varie de 0 à N Pour un test la probabilité d’avoir un test positif si l’on n’est pas malade (FP) = 1-spécificité = 0,05 La probabilité d’avoir 0 test positif dans cette batterie de 40 tests est de : La probabilité d’avoir au moins un test positif est de : P(0 test positif) = 0,95 40 =0,13 P(au moins un test positif) =1−0,13=0,87
Suite Conclusions Dans cet exemple, il y a 87% de chances d’avoir un test positif chez un sujet sain dans cette batterie de 40 tests Si l’on avait seulement 10 tests dans la batterie cette probabilité serait de 40% Dans la réalité, il faudrait tenir compte de la spécificité de chacun des tests mais dans l’exemple celle-ci est bonne (95%) => Prudence
Méthodes d’étude des caractéristiques des tests diagnostiques Principes généraux quelques soit l’étude Chaque sujet doit avoir le test à évaluer et le « gold standard » Une étude faite uniquement chez des malades ne permettra que d’obtenir la sensibilité Etude en population générale Etude « Cas/Témoins »
Etude en population générale Echantillon représentatif : Tirage au sort des sujets Permet d’évaluer la prévalence de la maladie, les caractéristiques intrinsèques et extrinsèques du test Lecture directe sur la tableau à 4 cases des VPP et VPN Mais : La prévalence étant en générale faible, on aura grand nombre de sujets « non malades » => Grande précision sur la spécificité et peu de malades => Faible précision sur la sensibilité. Les résultats ne seront généralisables que : Si la prévalence dans le groupe cible est identique à celle du groupe d’étude Si le stade de la maladie et les conditions de réalisation du test sont identiques dans le groupe cible et le groupe d’étude
Etude Cas/Témoin 2 groupes : un groupe de malades et un de « non malades » d’effectifs identiques Permet d’évaluer les caractéristiques intrinsèques du test avec la même précision pour la sensibilité et la spécificité Mais : Ne permet pas de « lire » directement les caractéristiques extrinsèques. VVP et VPN seront calculées pour différentes prévalence par le théorème de Bayes Les résultats ne seront généralisables que si le stade de la maladie et les conditions de réalisation du test sont identiques dans le groupe cible et le groupe d’étude
Dépistage
Dépistage Définition (OMS) : Le dépistage consiste à identifier présomptivement à l’aide de tests, d’examens ou d’autres techniques (questionnaires…) susceptibles d’une application rapide les sujets atteint d’une maladie ou d’une anomalie passées jusque là inaperçues Les tests de dépistage doivent permettre de différencier les personnes apparemment en bonne santé mais qui sont probablement atteintes d’une maladie et celles qui en sont exemptes. Les tests de dépistage n’ont pas pour objet de poser un diagnostic.
Dépistage / Confirmation diagnostique La personne ne se plaint de rien, la maladie n’est pas perceptible mais : Elle est présente à une stade précoce : Anomalies à la mammographie. = Diagnostic précoce Elle n’est pas présente mais on détecte un facteur de risque majeure : présence de mutations de BRCA1, BRCA2 et cancer du sein. Confirmation diagnostique Il y a un point d’appel ou un test de dépistage positif;
Principales différences entre test de dépistage et test diagnostique Examen diagnostique Il est une étape avant le diagnostic de certitude Il est appliqué aux personnes apparemment indemnes de la maladie recherchée Il est pratiqué sur des groupes d’individus à haut risque Il ne constitue pas une aide à la décision thérapeutique Il doit donner une certitude diagnostique (examens spécifiques) Il est appliqué aux personnes présentant des troubles définis Il est essentiellement individuel Il est éventuellement utilisé en seconde ligne après un test de dépistage Il débouche sur une décision thérapeutique D’après Durand-Zaleski, 2000 (2).
Dépistage individuel / Dépistage collectif Dépistage = Action médicale délibérée et volontariste. Une proposition faite au patient. Le patient doit être informé aussi précisément que possible des conséquences qui peuvent découler du dépistage. Conséquence d’une annonce qui peut être vraie ou fausse (loi du 4 mars 2002) Annoncer une maladie alors qu’elle n’est pas présente ou au contraire rassurer alors que la personne est malade L’angoisse de l’incertitude On doit confirmer le diagnostique Et proposer un traitement
Conditions de Mise en œuvre d’un dépistage collectif Problème important de santé publique Fréquence (prévalence) élevée, gravité Histoire naturelle et épidémiologie connues Temps de latence suffisamment long avec : Maladie décelable pendant la phase de latence bénéfice d’un traitement précoce par rapport à un traitement plus tardif Qualité du test de dépistage Sensibilité, Spécificité, VPN : Privilégier la sensibilité sur la spécificité, VPN élevée. Coût, faible risque, rapidité Acceptabilité par la population Auto prélévement par pipette versus frottis cervicovaginaux Existence de traitements efficaces Bon rapport Coût / Bénéfice Coût du dépistage/coût global des soins médicaux Efficacité, Bénéfices > Risques Continuité dans l’action : « pas une fois pour toute » (OMS)
Les différents types de dépistages systématique dit « de masse » : la population recrutée est non sélectionnée. Dans le cas particulier du critère d’âge, le dépistage est considéré comme généralisé à l’ensemble de la tranche d’âge considérée ; sélectif ou ciblé : la population recrutée est sélectionnée sur des critères préalablement définis (facteurs de risque mis en évidence par des études contrôlées) ; multiple : il consiste en la recherche simultanée de plusieurs affections par l’utilisation simultanée de plusieurs tests de dépistage organisé ou communautaire : la population est recrutée dans la communauté. Le dépistage est proposé dans le cadre de campagnes de dépistage et il s’appui sur la participation volontaire des sujets ; opportuniste : la population est recrutée pour le dépistage lors d’un recours au soins : hospitalisation, visite médicale, centre de santé ou de dépistage, médecin du travail ; Source HAS
Bénéfices et risques Les bénéfices du dépistage : Amélioration du pronostic : baisse de la mortalité ou de la morbidité Traitements moins radicaux, moins lourds Économies de ressources Réassurance si test négatif
Dépistage : Relation Médecin - Malade Le médecin ne doit pas sous-estimer les conséquences psychologiques que peut avoir la découverte d'une affection non suspectée. Le médecin est légitimement satisfait d'accroître les chances de guérison du patient grâce à cette action. Le patient peut vivre la déconvenue et l'anxiété d'être atteint d'une maladie, sans toujours percevoir le bénéfice probable d'un traitement précoce Un résultat négatif peut exposer à une fausse sécurité pour le patient et des conduites à risque
Confirmation diagnostique On soupçonne l’existence d’une maladie Du fait de la présence de signes et symptômes Du fait d’un dépistage positif Ou on hésite entre plusieurs maladies candidates Répétition des tests : Tests en série Test en parallèle
Bénéfices et risques Risques liés aux tests de dépistage Risques lié au test de dépistage lui même Risques liés aux Faux positifs Traitements parfois inutiles Conséquences psychologiques, sociales, économiques Risques liés aux traitements Risques liés aux Faux négatifs Fausse réassurance
Examen de santé périodique et dépistage Source OMS
Organisation des services de soins et développement économique Source OMS
Quelques définitions Evaluation externe de la qualité (EEQ) Programme qui permet aux laboratoires ou aux centres de dépistage d’évaluer la qualité de leurs résultats soit en les comparant avec ceux d’autres laboratoires, par l’analyse de panels de contrôle des compétences, Soit en procédant à une nouvelle vérification à l’aveugle. Cette évaluation comprend également une évaluation sur place du laboratoire pour déterminer la performance des tests et des opérations de dépistage.
Quelques définitions Panel de référence Collection de sérums Echantillons aliquotés (200 à 500 microlitres) et stables de sérum ou de plasma qui ont été fortement caractérisés; points limite, sous-type, titre, etc. connus. Collection de sérums Source d’échantillons de sérum d’où est extrait un panel à des fins d’évaluation.
Quelques définitions Méthode de référence Algorithme défini par un pays pour déterminer le statut sérologique réel d’un échantillon. Laboratoire national de référence(LNR) Laboratoire reconnu au niveau national qui dispose des capacités et installations d’analyse appropriées pour réaliser ou permettre l’accès à des tests de confirmation capables de déterminer la sérologie réelle.
Méthode d’évaluation de l’efficacité du dépistage Critère de jugement Mortalité, morbidité spécifique de la maladie dépistée Essai randomisé Facteurs influant le résultat Qualité du test de dépistage Régularité du dépistage effectué par chaque personne Exhaustivité du suivi Intérêt en terme de bénéfice du traitement précoce
Difficultés méthodologiques Comparaison de mortalité avant/après dépistage Interprétation difficile : témoin historique Cassure de la courbe après introduction du dépistage Comparaison de la prévalence Mauvaise méthode. Le dépistage précoce d’une maladie peut en augmenter la prévalence, en augmentant la durée pendant laquelle les sujets se savent malades Pb du « stock » de malades disponible Comparaison de la survie après diagnostic Mauvaise méthode Biais de déplacement de l’origine et d’avance au diagnostic Sélection des cas de meilleur pronostic Biais de surdiagnostic Biais de sélection : volontariat du dépisté
Avance au diagnostic : lead time bias ED sera toujours supérieur à CD Dr Catherine Arnaud
sélection des cas de meilleur pronostic : length time bias Le dépistage va surtout découvrir les cas de meilleur pronostic Cas diagnostiqués hors dépistage = cas incident Cas dépisté = cas prévalant Les maladies a évolution lente ont en général un pronostic meilleur. Les phases précliniques et cliniques sont proportionnelles Les cas prévalents sont donc en moyenne d’évolution plus lente que les cas incidents
Surdiagnostic Le dépistage peut révéler des affections qui n’auraient pas évolué et n’auraient jamais été diagnostiquées en l’absence de dépistage. La meilleure survie de telles affections ne reflète en rien l’efficacité du dépistage mais à nouveau un biais de sélection de formes de bon pronostic
Biais lié au volontariat Le dépistage est proposé à la totalité d’une population cible, mais seule une partie des personnes sollicitées va réaliser le test. Les sujets qui volontairement acceptent de se plier aux contraintes d’examens périodiques de dépistage peuvent avoir un meilleur état de santé initial et une incidence pathologique plus faible que les sujet qui le refusent, auxquels ils sont comparés. De ce fait, les résultats observés chez les sujets volontaires ne peuvent pas être généralisés aux autres groupes. Ce biais s’estompe si une forte proportion de la population cible participe
Evaluation d’un dépistage Essai randomisé prospectif : Le groupe expérimental __ qui bénéficie d'un dépistage est comparée un groupe contrôle qui n'est soumis à aucun dépistage. La répartition de patients entre les 2 groupes est faite par tirage au sort (randomisation). En pratique : Essai en grappes : (cluster randomization trial) On ne randomise pas individuellement des sujets, mais des groupes de sujets qu’on appelle des « grappes » (clusters). Ces unités de randomisation peuvent être des hôpitaux, des médecins, des familles, des villages. Il s’agit d’unités « sociales » Aspects méthodologiques particuliers : L’inclusion se fait après la randomisation Calcul du nombre de sujets nécessaires particuliers (tenir compte de la corrélation intra-grappe)
Coût du dépistage Coût unitaire : Coût du test unitaire : consommable, personnel,… Coût du diagnostic chez les personnes ayant un test de dépistage positif Moins le coût du diagnostic des vrais malades Donc très dépendant de la spécificité du test (et de la sensibilité) A ces coûts s’ajoutent d’autres coûts Campagne d’information Journées de travail perdues, ….
Intérêt économique d’un dépistage Le dépistage est sujet aux rendements décroissants : à sensibilité et spécificité constantes, la valeur prédictive positive (VPP) d’un test de dépistage décroît rapidement au fur et à mesure que le dépistage est étendu à des groupes de population où la prévalence est plus faible. Plus le dépistage est étendu plus il faudra multiplier le nombre de tests pour dépister un cas supplémentaire. En économie : raisonnement à la marge. Le dépistage se justifie jusqu’au point où son coût marginal (coût lié à la détection d’un cas supplémentaire) devient égal à son bénéfice marginal (complication ou décès supplémentaire évité, année de vie supplémentaire gagnée). Au-delà de ce point, on peut être certain que les ressources seraient mieux employées ailleurs (coût d’opportunité).