Lecture critique de la publication d’un essai clinique M. Bronnec et A. Sauvaget Pôle universitaire d’addictologie et de psychiatrie
Le titre court et informatif (10 à 15 mots) parfois complété par un « titre courant » (40 caractères) En tête / pied de page
Le contexte l’article a-t-il été publié dans une revue avec un comité de lecture ? quelle est la notoriété de l’auteur ? quel est son degré d’indépendance intellectuelle ? (conflits d’intérêt) y-a-t-il eu approbation d’un comité d’éthique ?
La structure « IMRAD »
Introduction Comprendre pourquoi le travail a été réalisé… L’étude doit donner envie au lecteur de poursuivre. 3 parties constitutives : position du problème : brève (plus la revue est spécialisée, plus les lecteurs sont initiés, plus elle est courte) aspect particulier de la recherche : motivations des auteurs, hypothèses testées objectif principal de l’étude…(un ou deux objectifs secondaires). On introduit le chapitre méthodologie
L’objectif de l’étude clairement défini et justifié (raisonnement hypothético-déductif) réaliste, limité et précis hiérarchie avec un objectif principal, +/- des objectifs secondaires quel est son intérêt clinique, sa pertinence ? quelle est sa justification ? le travail doit être légitime et faisable
Matériels et méthodes cette partie permet d’évaluer la rigueur scientifique du travail présenté le schéma doit être REPRODUCTIBLE par le lecteur
Matériels et méthodes : plan expérimental essai de supériorité, contre placebo essai d’équivalence (ou de non-infériorité), contre un médicament de référence essai pragmatique, de comparaison de deux stratégies thérapeutiques (dans la vraie vie) Essai explicatif, pour expliquer l’effet dans des conditions précises (en phase III)
Matériels et méthodes : plan expérimental Traitement A Wash out groupes parallèles : groupes croisés : Le patient est son propre témoin (ce qui la puissance car moins de variation inter-individuelle et le nombre de sujets est X2, mais essai très long et donc nécessité d’une maladie assez stable et chronique) Traitement B 1 2 Traitement A Traitement A Traitement B Traitement B Wash out
Matériels et méthodes : plan expérimental tirage au sort / randomisation : attribution aléatoire du traitement modalités : centralisé, stratifié par centre, sur certaines variables pronostiques… moment (après le consentement, avant l’inclusion)
Matériels et méthodes : plan expérimental ouvert simple aveugle double aveugle
Matériels et méthodes : plan expérimental l’essai est au mieux : comparatif (= prospectif et contrôlé) randomisé en double aveugle
Matériels et méthodes : sélection des sujets critères d’inclusion et de non-inclusion : âge sexe hospitalisés / ambulatoires…
Matériels et méthodes : critères de jugement nombre et hiérarchie : c’est sur le critère principal qu’est calculé le nombre de sujets à inclure ce critère principal ne doit pas changer en cours d’étude pertinence et validité : signification clinique critère biologique/radiologique… « intermédiaire » à défaut, à condition qu’il soit validé et admis par la communauté scientifique
Matériels et méthodes : critères de jugement moment du recueil critères quantitatifs / qualitatifs: les critères quantitatifs fournissent plus d’information sinon, « succès/échec », « répondeur/non répondeur », à condition que la définition du succès ou la fixation du seuil de réponse ait été faite préalablement, conformément au consensus scientifique traitement comparés : la comparaison doit être loyale (posologies, durée d’utilisation…). Les traitements associés doivent être les mêmes dans les deux groupes.
Matériels et méthodes : nombre de sujets nécessaire nécessaire pour connaître la puissance de l’essai il serait trop facile de conclure que l’on n’a pu démontrer l’efficacité du produit testé par manque de puissance : il fallait inclure un effectif suffisant, déterminé par le calcul puissance : probabilité d’obtenir un résultat statistiquement significatif erreur de 1ère espèce : probabilité de conclure à une différence qui n’existe pas erreur de 2ème espèce : probabilité de conclure à une absence de différence, qui existe pourtant
Matériels et méthodes : qualité de l’essai écarts au protocole inclusions à tort données manquantes mauvaise observance du traitement perdus de vue…
Matériels et méthodes : analyse statistique Description de la nature des tests statistiques, avec justification… Seuil de significativité (p=0,05)
Résultats : présentation « tous les résultats, rien que les résultats » Combinaison de : texte tableaux figures… Ces trois formes sont complémentaires et non redondantes (on ne répète pas dans le texte les résultats d’un tableau )
Résultats : présentation caractéristiques initiales des patients inclus présentation claire sous forme de tableaux indiquant les valeurs observées dans les différents groupes avec leur intervalle de confiance, les effectifs sur lesquels ces valeurs ont été observées et le degré de signification statistique (p) des tests essai de supériorité : analyse en intention de traiter (« analyse en ITT », qui porte sur tous les inclus, à la différence de l’analyse « per protocole » qui ne tient compte que des sujets n’ayant pas fait d’écart majeur au protocole l’analyse principale doit porter sur le critère de jugement principal La multiplicité des critères et des moments d’évaluation entraîne une multiplicité des comparaisons et des tests statistiques, qui ne permet plus de garantir un risque global de 5%
Résultats : interprétation pour juger de l’efficacité d’un traitement, on ne compare pas « avant-après » mais à la fin de l’essai entre les deux groupes signification statistique : la différence observée est-elle réelle, ou résulte-t-elle du hasard ? Un « p » à 0.001 est plus confortable qu’un « p » à 0.05 taille de la différence : quantité d’effet du traitement. « statistiquement significatif » ne veut pas dire « cliniquement intéressant » !! « p » ne traduit pas l’importance de l’effet du traitement, mais seulement la probabilité que l’effet observé existe réellement causalité : l’effet du traitement testé est-il seul responsable de la différence observée, ou cette différence peut-elle être due à un autre facteur = « facteur de confusion ». On peut affirmer une causalité si l’essai est mené avec un maximum de précautions pour minimiser les biais.
Résultats : analyses en sous-groupes une analyse non prévue dans le protocole, réalisée sur un sous-groupe de patients (par exemple les plus âgés), n’ayant pas fait l’objet d’une stratification de la randomisation ne saurait donner lieu à une conclusion (car la comparabilité n’est pas assurée)… … mais elle incite à un nouvel essai essai négatif (essai de supériorité dont les résultats ne sont pas statistiquement significatifs) : manque de puissance du à un recrutement insuffisant ? Vrai manque d’efficacité du médicament testé ? ne pas mettre en évidence de différence entre deux produits n’autorise pas à les déclarer équivalents
Discussion discuter les conditions de réalisation de l’étude et les limites de l’interprétation des résultats l’évocation de publications antérieures doit être référencée c’est une autocritique destinée à mettre l’accent sur les données les plus fiables et les plus démonstratives de l’étude, et à n’accorder aux résultats que la portée qu’ils méritent discuter la signification clinique de la différence observée cohérence : interne : études fournissant des résultats discordants, voire contradictoires ? externe : données de la littérature
Discussion 3 buts : Répondre à la question posée en introduction : résumer les principaux résultats Porter un jugement critique sur la qualité / validité des résultats : Les résultats sont-ils logiques ? La population était-elle suffisante pour tirer des conclusions ? Le schéma expérimental était-il adapté pour répondre à la question posée ? Certains résultats ne sont-ils pas liés à l’existence de biais ? Comparer les résultats à ceux d’autres auteurs : Les résultats sont-ils conformes à la littérature ? S’il existe des discordances, comment peuvent-elles s’expliquer ? Si l’on doit critiquer le travail d’autres auteurs, la critique doit être objective et scientifique
Conclusion elle s’inscrit dans la logique des seuls résultats fiables de l’essai, et se limitent au thème qui était l’objet du travail une bonne conclusion est factuelle ( de l’opinion, de la spéculation) elle fait la part de ce qui a été démontré, et de ce qui ne l’a pas été (et non un tri des informations pour ne retenir que les favorables) on doit percevoir le bénéfice thérapeutique concret à attendre de l’essai courte, ouvrant vers d’autres voies de recherche, ou des compléments, ou de précisions qui seront apportées ultérieurement
Référence Bouvenot G, Villani P, Ambrosi P. Lecture critique de la publication d’un essai clinique. La Presse Médicale, 2002; 31: 1061-1068.
Questions 1. Que pensez-vous de la formulation de la question ? 2. Décrivez le plan expérimental, en donnant votre avis. 3. Que pensez-vous de la sélection des sujets ? 4. Le nombre de sujets inclus vous paraît-il suffisant ? 5. Que pensez-vous de l’interprétation des résultats ?
Correction 1. Que pensez-vous de la formulation de la question ? Il n’y a pas de question vraiment bien formulée, et donc pas d’objectif d’étude bien défini. On comprend que les auteurs souhaitent évaluer l’efficacité d’une association NLP+bromocriptine. L’introduction est trop brève et ne justifie pas le choix des posologies employées.
Il s’agit d’un essai pragmatique, prospectif, Correction 2. Décrivez le plan expérimental, en donnant votre avis. Il s’agit d’un essai pragmatique, prospectif, Les auteurs disent « en cross-over » (ce qui aurait permis de limiter la variabilité inter-individuelle et d’augmenter la puissance). En fait, essai avec augmentation de dose. Une période de wash-out a bien été respectée, entre les deux traitements testés, suffisamment longue par rapport à la demi-vie de la bromocriptine. Les auteurs n’ont pas procédé à une randomisation des 2 séquences de traitement. Il n’y a pas de groupe témoin. L’essai est en double aveugle, ce qui limite les biais. Le traitement neuroleptique avait été stabilisé avant le début de l’étude. L’essai est reproductible. On peut lui reprocher sa durée trop courte (au regard de la chronicité du trouble).
3. Que pensez-vous de la sélection des sujets ? Correction 3. Que pensez-vous de la sélection des sujets ? On peut se poser la question du choix de sujets schizophrènes résistants (choix non justifié dans l’introduction). On manque de renseignements sur le lieu de recrutement des sujets, l’écart-type de l’âge moyen des sujets et de l’ancienneté moyenne des troubles. Les auteurs n’apportent pas assez d’informations socio-démographique ou clinique sur les sujets recrutés. la population est hétérogène : 7 hommes et une femme. Les critères d’inclusion sont trop limités, il n’y a pas de critères d’exclusion (mais essai pragmatique). Enfin, on peut se poser la question du recueil du consentement dans cette population de schizophrènes résistants (capacité à comprendre l’information et à consentir) (problème éthique).
Correction 4. Le nombre de sujets inclus vous paraît-il suffisant ? Les auteurs n’indiquent pas si le nombre de sujets nécessaires a été calculé (probablement pas), calcul se basant sur la différence minimale que l’on souhaite mettre en évidence). Le nombre de sujets inclus est très certainement insuffisant, ce qui augmente le risque d’erreur (conclure à tort qu’il n’y a pas de différence, et donc pas d’effet)
Correction 5. Que pensez-vous de l’interprétation des résultats ? Les auteurs mettent en évidence des différences statistiquement significatives, mais pour autant, ces différences sont-elles cliniquement significatives ?? Il aurait fallu choisir un critère de jugement principal pertinent (par exemple, « amélioration symptomatique ou non », définie par une diminution d’au moins 50% du score total de la BPRS). L’écart-type est très grand. On ne devrait pas interpréter les résultats concernant les sous-scores de la BPRS.
Correction 5. Que pensez-vous de l’interprétation des résultats ? Les auteurs parlent « d’échappement » au sujet de la posologie de 1.25mg/j, mais avec un effectif aussi réduit, ne s’agit-il pas plutôt d’un manque de puissance ?? Les auteurs ont multiplié les tests 2 à 2, augmentant inévitablement le risque d’erreur . SURTOUT : les auteurs concluent à la supériorité de la posologie 2.5 mg vs 1.25 mg ,alors qu’ils n’ont pas testé l’efficacité d’une dose par rapport à l’autre, mais des 2 doses par rapport au placebo !!!