Lecture d’article. Evaluation diagnostique

Slides:



Advertisements
Présentations similaires
Analyse critique d'article Etudes non interventionnelles
Advertisements

L’échantillonnage & Ses Fluctuations
STATISTIQUE INFERENTIELLE L ’ESTIMATION
But de la lecture critique
La lecture critique des essais thérapeutiques
Risques d’erreur statistique et test statistique
Test statistique : principe
5 critères de qualité d'un test
Quelques clés pour une lecture critique des essais thérapeutiques
Élaboration d’une Recommandation de Pratique Clinique (RPC)
Évaluation des examens complémentaires dans la démarche médicale : Prescriptions utiles et inutiles F. KOHLER.
Évaluation des examens complémentaires dans la démarche médicale : Prescriptions utiles et inutiles F. KOHLER (septembre 2005)
Collecte de données F. Kohler.
Inférence statistique
Analyse d’articles étude des biais
Inférence statistique
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison d'une distribution observée à une distribution théorique
Les TESTS STATISTIQUES
Epidémiologie : types d’enquêtes
Tests de comparaison de pourcentages
Master Pharmacologie - Module Pharmacologie du développement - Paris ANALYSE D'ESSAI THERAPEUTIQUE Pr E. Autret-Leca Pharmacologie CHRU Tours.
4 février 2005DESS Economie et Gestion des Cliniques et Etablissements pour personnes âgées 1 La prise en compte des critères économiques dans lanalyse.
Nombre de sujets nécessaires en recherche clinique
Les TESTS STATISTIQUES
Dr DEVILLE Emmanuelle J D V 12/07/2006
Tests de dépistage biologiques : Sensibilité, spécificité, valeur prédictive Jeremy Chobriat ( ENC 2005 )
Les Biais Item 14°) Relever les biais discutés. Rechercher d’autres biais non pris en compte dans la discussion et Relever leurs conséquences Dr Marie-Christine.
Schémas d’étude.
Les tests diagnostiques. Dépistage / Confirmation
Valeurs diagnostiques des examens complémentaires (imagerie, biologie…) F. KOHLER N’Djamena 2011.
Lecture critique MA.
Zone de rejet et scoring
Nombre de sujets nécessaires en recherche clinique
Recommandation de Pratique Clinique
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Question posée Type d ’étude.
Algorithme de lecture critique: validité interne
Clinical Validity of a Negative Computed Tomography Scan in Patients With Suspected Pulmonary Embolism A Systematic Review JAMA 2005 Quiroz R et al Minet.
LE DÉPISTAGE GEAPI 14 DMG Poitiers, GEAPI 14 dépistage,
Lecture critique d’un essai clinique
Épidémiologie Notions élémentaires Réalisation pratique d’un enquête
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Probabilités et cannabis
Évaluation des examens complémentaires
Les Techniques d’enquête quantitative
Surcoût des évènements indésirables associés aux soins à l’hôpital
Mher Joulakian Biblio du 18/02/14. Généralités Epidémiologie évaluative Stratégies thérapeutiques/diagnostiques Programmes de dépistage/prévention Pratiques.
semaine médicale de Lorraine J.Birgé nov.14
Conférences Paris Descartes
* 16/07/96 Diabète gestationnel et malformations de l’appareil urinaire : une étude cas témoins en milieu hospitalier.     Avril 2013 Arnaud Seigneurin.
Lecture et présentation d’une étude pronostique
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
* 16/07/96  Syphilis primaire : réponse sérologique au traitement par doxycycline/tétracycline versus benzathine pénicilline ECN 2011 sujet 2 José Labarère.
Comment lire une méta-analyse?
PERFORMANCES D’UN TEST DIAGNOSTIQUE
Facteurs de risque de contamination par le virus de l’hépatite C. Etude cas-témoin en population générale.
STRUCTURE D ’ UN ARTICLE ORIGINAL Pr Ganry.
Probabilités et statistique MQT-1102
ED LCA Dr. GIGNON Année universitaire 2009 / :
ED diagnostic et dépistage
ECHANTILLONAGE ET ESTIMATION
Lecture critique d’article Mars 2014 Pr Ganry. q2. Donner un titre à l’article? Etude du statut sérologique et de l’accouchement par césarienne sur les.
EPIDEMIOLOGIE ANALYTIQUE
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Evaluation des examens complémentaires dans la démarche médicale
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Introduction aux statistiques Intervalles de confiance
LCA UFR SMBH (DCEM)1 Analyse critique d ’articles évaluant l ’intérêt de nouveaux tests à visée diagnostique Alain Venot UFR SMBH Campus virtuel SMBH
Lecture critique des essais cliniques. But Juger de : - La validité scientifique - L’intérêt clinique Modifier ou ne pas modifier la pratique.
Transcription de la présentation:

Lecture d’article. Evaluation diagnostique F. Kohler Septembre 2007

Questions générales Objectifs : Cf autres cours généraux Identifier le type d’article Critiquer la méthodologie Critiquer la présentation des résultats Critiquer les résultats et la discussion Évaluer les applications cliniques Critiquer la forme de l’article Cf autres cours généraux Points détaillés spécifiques à l’évaluation diagnostique

Le type d'étude : Etudes comparatives ou non, Etalon or Séries appariées/Séries non appariées Etudes longitudinales Réalisées chez l'être humain / in vivo. Règles éthiques et juridiques

Analyse d’un article diagnostique La méthodologie de l'étude : Le protocole d'étude permet de répondre à la question posée Quel protocole pour quel objectif dans une étude diagnostique? Vérifier que le protocole choisi correspond à l’objectif de l’étude Comparaison à un étalon or (gold standard –GS) séries appariées = Le même sujet bénéfice de l’étalon or et du test à évaluer. Attention au biais que peut procurer l’entrainement exemple : exploration fonctionnelle Efficacité, utilités Séries non appariées = les sujets sont répartis aléatoirement en 2 ou n groupes. Attention à la qualité de la randomisation et si possible travailler en « aveugle » ETUDE CAS/TEMOINS

Analyse d’un article diagnostique La méthode de sélection des patients est-elle décrite ? Les caractéristiques des patients recrutés pour l'étude, les critères d’inclusion et d’exclusion sont déterminants pour pouvoir juger la validité externe de l'étude, c'est-à-dire la capacité d'utilisation des résultats en pratique quotidienne auprès d'une population peu sélectionnée. C’est eux qui permettent de répondre à la question « Puis je utiliser ces résultats dans ma pratique » Cf Biais de sélection (constitution des groupes) Attention si il y a comparaison de deux tests dans plusieurs groupes différents au biais que peut entraîner un stade différent de la maladie dans les groupes

La population étudiée Définition claire de la population cible Définition des critères d’inclusion/exclusion Définition de la population réellement étudiée La population étudiée est elle représentative de la population cible ? La population étudiée est elle représentative de la population de ma pratique ? Modalité de la répartition entre les groupes ou qualité de l’appariement si le sujet n’est pas son propre témoins Effet de censure => Biais de sélection

Analyse d’un article diagnostique Les caractéristiques diagnostiques du test sont-elles calculées ou calculables ?   Malade Non Malade Test + a b a+b Test - c d c+d a+c b+d Sensibilité se = a/(a+c) = test + chez les malades Spécificité sp = d/(b+d) = test – chez les non malades Efficacité diagnostique = (a+d)/(a+b+c+d) Indice de Youden = se + sp -1 Rapport de vraisemblance positif L = se / (1-sp) : L fois plus de chance d’avoir la maladie quand le test est positif Rapport de vraisemblance négatif l = (1-se)/sp Si (a+c)/(b+d) = fréquence de la maladie VPP = a/(a+b) VPN = d/(c+d) Courbe de ROC : détermination de la valeur seuil, aire sous la courbe (AROC) Avec un intervalle de confiance

Analyse d’un article diagnostique Le test étudié est-il comparé à un test de référence fiable et validé, déterminé a priori ? L’évaluation de la validité d’un test se fait par comparaison avec un test diagnostique de référence reconnu par tous. Oui mais si ce gold standard n’était qu’en plaqué…. S’il n’y a pas de test de référence cela nécessite de définir le diagnostic recherché avec un faisceau d'arguments dont la validité doit avoir été évaluée.

Exemple : Conséquences d’un gold standard (GS) « pas si en or » que cela… Dans la réalité, la prévalence de la maladie est de 0,10 (10%) Le gold standard n’est pas parfait… Il a une sensibilité de 0, 95 (95%) et une spécificité de 0,90 (90%) Le nouveau test a une sensibilité de 0,98 (98%) et une spécificité de 0,95 (95%)   Malade Non Malade Gold standard + 9 500 9 000 Nouveau test + 9 800 4 500 Gold standard - 500 81 000 Nouveau test - 200 85 500 Total 10 000 90 000

Suite Dans la pratique, la prévalence n’est pas connue et l’on considère comme malade tous ceux qui ont un gold standard positif. Le Gold standard fait croire que sur les 100 000 personnes il y a 18 500 « malades »= 9500 (vrais malades) + 9000 (non réellement malades), parmi lesquels le nouveaux test donne : 9500 * 0,98 (= 9310 )+ 9000 * 0,05 (= 450) = 9760 Tests positifs 9500 * 0,02 (= 190) + 9000 * 0,95 (= 8550) = 8740 Tests négatifs Le Gold standard fait croire sur les 100 000 personnes qu’il y 81000 (vrais non malade) + 500 (faux non malade) = 81 500 « non malades » parmi lesquels le nouveaux test donne : 81000 * 0,02 (=4050) + 500 * 0,98 (=490) = 4540 Tests positifs 81000 * 0,95 (=76950) + 500 *0,02 (= 10) = 76960 Tests négatifs

Suite Au total le nouveau test apparaît avec les caractéristiques suivantes :   Malade (GS+) Non Malade (GS-) Total Nouveau Test + 9 760 4 540 14 300 Nouveau Test - 8 740 76 960 85 700 18 500 81 500 100 000 Sensibilité = 0,52 (52%) Spécificité = 0,94 (94%) Attention : tout ce qui est jaune et qui brille n’est pas de l’or… le nouveau test pourrait apparaître comme moins performant qu’un autre vis-à-vis ce GS alors que ce serait l’inverse.

Analyse d’un article diagnostique Le terme « normal » est-il défini ? La maladie doit être clairement définie par le test de référence et par opposition la normalité médicale. (cf biais de caractérisation) L'attribution d'un diagnostic est elle effectuée à partir d'un seuil à déterminer (c'est le cas pour la valeur de marqueurs) au-delà duquel la maladie est présente avec une probabilité connue et acceptée ? (cf Courbe de ROC)

Courbe de ROC P(T+ / M-) = Faux positifs = 1- P(T-/M-)= 1- Spécificité Nombre de sujets Sujets non diabétiques Sujets diabétiques 1 g/l 2,1 g/l Limite L de la glycémie au-delà de laquelle on dit le test positif P(T- / M+) = Faux négatif= 1- P(T+/M+) =1- Sensibilité

Courbe de ROC Pour chaque valeur de la limite L du critère quantitatif on a une valeur de la sensibilité et de la spécificité. On obtient ainsi 1 point de la courbe pour L donnée. En faisant varier la limite L on obtient d’autres points. La courbe joignant les points est la courbe de ROC. Les valeurs de sensibilité et spécificité en fonction de L peuvent être obtenues par l’observation ou par la modélisation du phénomène par une loi de probabilité. Sensibilité 1 1-Spécificité

Analyse d’un article diagnostique La fréquence de la maladie dans l'échantillon étudié correspond-elle aux données épidémiologiques connues ? Si la fréquence de la maladie est très différente de celle rencontrée en pratique dans votre population, vous ne pourrez pas utilisez les valeurs prédictives Exemple : fréquence du paludisme en France / Afrique

Analyse d’un article diagnostique Les caractéristiques diagnostiques du test sont-elles calculées ou calculables ?   Malade Non Malade Test + a b a+b Test - c d c+d a+c b+d Sensibilité se = a/(a+c) = test + chez les malades Spécificité sp = d/(b+d) = test – chez les non malades Efficacité diagnostique = (a+d)/(a+b+c+d) Indice de Youden = se + sp -1 Rapport de vraisemblance positif L = se / (1-sp) : L fois plus de chance d’avoir la maladie quand le test est positif Rapport de vraisemblance négatif l = (1-se)/sp Si (a+c)/(b+d) = fréquence de la maladie VPP = a/(a+b) VPN = d/(c+d) Courbe de ROC : détermination de la valeur seuil, aire sous la courbe (AROC) Avec un intervalle de confiance

Intervalle de confiance L’étude porte sur un échantillon. La sensibilité (ou tout autre paramètre) obtenue sur cette échantillon n’est pas la « vraie » valeur, une étude sur un autre échantillon aurait donné une autre valeur. Toutes ces valeurs fluctuent autour de la « vraie » valeur du fait du hasard. On peut construire, autour de la sensibilité (ou des autres indices) un intervalle de confiance à 95% c’est-à-dire que 95 fois sur 100, cet intervalle contiendra la « vraie » valeur. Pour un pourcentage p, obtenu sur un effectif N de l’échantillon (cas de la sensibilité), si N*p et N*(1-p) sont supérieur à 5 la formule de calcul des bornes de cet intervalle est

Importance du rapport de vraisemblance Il présente trois avantages importants : 1) il ne change pas avec la prévalence de la maladie. Il est un bon reflet de la valeur du test quel que soit le groupe de population auquel celui-ci est appliqué ; 2) il est utilisable pour plusieurs niveaux de résultats d’un test. Pour chaque niveau, il procure une information différente qui permet d’interpréter au mieux les résultats du test ; L > 10 ou l < 0,1 Forte variation de la probabilité avant et après le test L entre 5 et 10 ou l entre 0,1 et 0,2 variation importante L < 2 ou l > 0,5 faible intérêt du test 3) il permet de calculer de manière individuelle l’intérêt de réaliser le test à partir de la probabilité initiale de maladie du patient. Diagramme de Fagan permet sans calcul de déterminer la probabilité post-test à partir de la prévalence (probabilité pré-test) et du rapport de vraisemblance

Source HAS

Analyse d’un article diagnostique Analyse des résultats : Les résultats sont ils analysées en aveugle ? (quand c’est possible) Par exemple, y a-t-il comparaison en aveugle du test étudié et du test de référence ou lecture en aveugle d’un examen d’imagerie par un radiologue n’ayant pas réalisé l’examen et/ou ne connaissant pas le diagnostic.

Y a-t-il significativité statistique ? Dans le cas de la comparaison de plusieurs méthodes, La différence minimale attendue Le risque alpha Le risque béta (ou la puissance = 1- béta) Sont ils précisés à priori ? Ou un calcul de puissance à postériori est- il effectué

Risque Alpha et Béta

Attention Différence significative ne veut pas dire intérêt clinique… Il faut savoir si l’amplitude de la différence va avoir un intérêt clinique. La significativité permet simplement de décider si cette différence est due au hasard. Dès que les effectifs sont grands et la variabilité modérée, il ne faut qu’une toute petite différence pour qu’elle soit significative.

L’applicabilité et l’utilité clinique Le test doit pouvoir apporter une information utile pour la décision diagnostique et thérapeutique du médecin. Par ailleurs, il doit pouvoir résulter du diagnostic ainsi réalisé et de ses conséquences une amélioration de l'état de santé des individus (utilité pour le patient). Ces utilités sont recherchées par des études complémentaires, postérieures aux études étudiant fiabilité et validité, comparatives des deux stratégies diagnostiques incluant ou non le test.

Niveau de preuve et grade La notion de niveau de preuve scientifique doit être formalisée. Des propositions ont été faites par différents auteurs ( Sackett par exemple) pour graduer la force des recommandations en fonction de la preuve scientifique Dans les classifications actuellement publiées, trois notions apparaissent : 1) le niveau de preuve d’une étude ; 2) l’évidence scientifique après synthèse des études disponibles ; 3) le grade des recommandations produites par un groupe d’experts à partir (entre autres) de la littérature.

Niveau de preuve Caractérise la capacité de l’étude à répondre à la question posée. Se juge, d’une part, par la correspondance de l’étude au cadre du travail (sujet, population, paramètres de jugement pris en compte), d’autre part par les caractéristiques suivantes : l’adéquation du protocole d’étude à la question posée; l’existence ou non de biais importants dans la réalisation, et en particulier l’adaptation de l’analyse statistique aux objectifs de l’étude ; la puissance de l’étude et en particulier la taille de l’échantillon.

un fort niveau de preuve correspond à une étude dont : Le protocole est adapté pour répondre au mieux à la question posée, La réalisation est effectuée sans biais majeur, L’analyse statistique est adaptée aux objectifs, La puissance est suffisante

un niveau intermédiaire est donné à une étude de protocole similaire, mais présentant Une puissance nettement insuffisante (effectif insuffisant ou puissance a posteriori insuffisante) et/ou des anomalies mineures ;

un faible niveau de preuve peut être attribué aux autres types d’études.

Source HAS

L’évidence scientifique L’évidence scientifique est appréciée lors de la synthèse des résultats de l’ensemble des études sélectionnées. La gradation de l’évidence scientifique s’appuie sur : l’existence de données de la littérature pour répondre aux questions posées ; le niveau de preuve des études disponibles ; la cohérence de leurs résultats. Elle constitue la conclusion des tableaux de synthèse de la littérature.

Source HAS

Source HAS

Analyse d’article Questions à se poser : Le test étudié est-il comparé à un test de référence (gold standard) ? Le test de référence est il correctement décrit ? Le test de référence est-il validé (qualité du test, choix du seuil en cas de mesure quantitative…) ? L’étude est-elle correctement menée ? Le lieu de l’étude et la méthodologie (cas/témoins, cohorte, essai randomisé, étude médico-économique) sont-ils décrits ? Le test de référence est-il pratiqué chez tous les patients (malades et non malades) ? Sinon quelle est la méthode d’échantillonnage ? Le test de référence et le test étudié sont-ils interprétés indépendamment ? Les échantillons de malades et de non malades sont-ils représentatifs de la population à la quelle le test doit être appliquée ? Quels sont les biais relevés ? Quels sont les autres biais ? Les biais identifiés ont-ils été contrôlés ? Les biais invalident-ils l’étude ? Les performances du test sont-elles fournies ? Reproductibilité Sensibilité, spécificité Rapports de vraisemblance Probabilité pré-test, post-test Quelle est la précision des indicateurs Nombre de sujets, intervalle de confiance… Si il y a comparaison statistiques Les risques alpha et bêta sont ils précisés ? Le test statistique utilisé est il pertinent ? Les résultats sont –ils cohérents avec les connaissances actuelles ? Niveau de preuve ? Les résultats s’appliquent-ils à mon patient ? Lieu de l’étude Bénéfices/Risques Coûts/ Bénéfices L’étude a –t-elle respectée la réglementation et les principes éthiques ? CPPRB, Loi informatique et liberté… Quel est l’impact de l’étude sur la santé ?