Test statistique : principe
1. Exemple : comparaison de taux de guérison On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques : corticoïdes par infiltrations placebo Critère de jugement : succès/échec à J20 par auto-évaluation du patient Planification de l’étude : inclusion prévue de 43 patients/groupe
Au terme de l’étude : 85 patients inclus résultats observés : corticoïdes : 22/43 (51,2%) de succès placebo : 10/42 (23,8%) de succès différence statistiquement significative on conclut à une différence d’efficacité entre les corticoïdes et le placebo
2. Les hypothèses a priori L’hypothèse nulle (H0) : celle que l’on cherche à réfuter celle qui est « vraie », tant qu’on n’ait pas démontré le contraire Ex : H0 : taux de succès identiques sous corticoïdes et sous placebo
L’hypothèse alternative (H1) : hypothèse contraire de l’hypothèse nulle celle que l’on cherche à démontrer Ex : H1 : taux de succès différents sous corticoïdes et sous placebo
3. Les erreurs a priori Erreur de première espèce (a) : probabilité de trouver une différence statistiquement significative alors qu’il n’y en a pas Prob(Rejeter H0 alors que H0 est vraie) cf Test diagnostic : faux positif Ex : Conclure à une différence d’efficacité entre corticoïdes et placebo alors que les taux de succès sont identiques
Erreur de seconde espèce (b) : probabilité de ne pas mettre en évidence une différence statistiquement significative alors qu’elle existe Prob(Ne pas rejeter H0 alors que H1 est vraie) cf Test diagnostic : faux négatif Ex : Ne pas réussir à prouver une différence d’efficacité entre corticoïdes et placebo alors que cette différence existe
Puissance statistique : (1- b) c’est l’aptitude à mettre en évidence une différence lorsqu’elle existe cf Test diagnostic : sensibilité on calcule un nombre de sujets nécessaire pour obtenir une puissance donnée
3. Le calcul du nombre de sujets nécessaire Hypothèse quantitative sous H1 a priori : 70% de succès sous corticoïdes 40% de succès sous placebo Risques d’erreur erreur de première espèce : a = 5% erreur de seconde espèce : b = 20% 43 patients par groupe
4. L’expérience Recueil des données
5. Analyse statistique Résultats observés : taux de succès sous corticoïdes : 22/43 (51,2%) taux de succès sous placebo : 10/42 (23,8%)
Statistique de test : statistique du chi-deux observée : 6,77 (estimée à partir des données recueillies) degré de signification associé : p = 0,009 le chi-deux observé est supérieur à la valeur théorique (3,84) (ou, p < 0,05) rejet de H0 on met en évidence une différence de taux de succès
Règle de décision (Neyman-Pearson) : soit la statistique observée est supérieure à la valeur théorique p 0,05 rejet de H0 soit la statistique observée est inférieure à la valeur théorique p > 0,05 non rejet de H0
6. Le degré de signification (« p ») Ex : si les taux de succès sous corticoïdes et sous placebo sont identiques, la probabilité d’observer une telle différence (i.e. 51,2% vs 23,8%) ou une différence plus grande encore est de 0,009
Définition : quantifie le « désaccord » entre ce qu’on observe et l’hypothèse nulle H0 la probabilité d’observer des résultats au moins aussi en désaccord avec l’hypothèse nulle H0 que ceux qu’on a observés
Interprétation : plus le degré de signification est faible, plus on est convaincu que les résultats observés ne sont pas en cohérence avec l’hypothèse nulle
ATTENTION !!!! (1) Le degré de signification nous permet d’affirmer avec plus ou moins de conviction qu’il y a une différence, mais en aucun cas il ne nous renseigne sur l’importance de cette différence
Exemple : 1) 22/43 (51,2%) vs 10/42 (23,8%) Différence d’efficacité = 27,4% (p = 0,009) 2) 14/22 (63,6%) vs 5/21 (23,8%) Différence d’efficacité = 39,8% (p = 0,009) 3) 1104/4200 (26,3%) vs 1000/4200 (23,8%) Différence d’efficacité = 2,5% (p = 0,009)
La valeur de p dépend : de la différence observée entre les deux groupes de la taille d’échantillon S’il existe une différence réelle, aussi infime soit-elle, entre 2 groupes, n’importe quel test statistique va aboutir à une valeur de p inférieure à 0,05, dès lors que le nombre de sujets étudiés sera important
La signification statistique n’implique pas la pertinence clinique
ATTENTION !!!! (2) Ne pas mettre en évidence de différence statistiquement significative entre deux groupes ne signifie pas qu’il y ait équivalence entre les deux groupes
Ex : 0/3 (0,0%) vs 3/3 (100,0%) Différence d’efficacité = 100,0% p = 0,010 (test exact de Fisher)
Un résultat non statistiquement significatif peut avoir 2 causes : l’hypothèse H0 est vraie (i.e. il y a équivalence entre les deux groupes) la puissance statistique n’est pas suffisante (i.e. nombre de sujets insuffisant)