La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Risques derreur statistique et test statistique Origine de la problématique.

Copies: 1
Répétitions des tests statistiques Répétition des tests Plusieurs tests réalisés pour répondre à une même question –par exemple plusieurs critère de.

Présentations similaires


Présentation au sujet: "Risques derreur statistique et test statistique Origine de la problématique."— Transcription de la présentation:

1

2 Risques derreur statistique et test statistique

3 Origine de la problématique

4 Obtenir pile à pile ou face (Probabilité = 50%) Échantillon 1 48% Échantillon 2 52% Échantillon 3 50% Échantillon 4 45% Fluctuations aléatoires

5 Même type de patients (Probabilité d'AVC = 12%) Échantillon 1 9% Échantillon 2 12% Échantillon 3 16% Échantillon 4 26% Fluctuations aléatoires

6 Fluctuations aléatoires d'échantillonnage Fortes pour des effectifs petits et moyens Faibles pour des grands effectifs Jamais nulles

7 Conséquences pour la comparaison de 2 échantillons –les proportions observées dans 2 échantillons peuvent être différentes –uniquement du fait du hasard –même si dans ces 2 échantillons la vraie probabilité était la même les FAE sont susceptibles de fausser les comparaisons

8 Groupe T+Groupe T- Vrai risque = 10% Effet du traitement = 0 Risque observé = 6%Risque observé = 12% Différence observée = -6% Conséquences des fluctuations

9 Problématique des comparaisons Quand on ignore la réalité, la différence observée de -6% est-elle ? –une manifestation des fluctuations aléatoires, donc due uniquement au hasard –la traduction dune réelle différence entre les deux groupes, donc dun effet non nul du traitement Comment départager ces 2 possibilités ? Solution : test statistique.

10 Conclure à l'existence d'une différence Décider d'utiliser le nouveau traitement Grp T Grp C diff -6% La conclusion doit être conforme à la réalité mais elle se base uniquement sur lobservé But des comparaisons Quel est le but des comparaisons ?

11 Effets des fluctuations dans une comparaison Le hasard peut faire apparaître une différence qui n'existe pas en réalité Inversement, le hasard peut réduire une différence qui existe réellement donc 2 façons de fausser la conclusion

12 Risques derreur statistique

13 Risques de conclusions erronées Deux risques d'erreur –Risque alpha –Risque bêta Erreurs statistiques –dues uniquement au hasard

14 Vrai valeur 12% Échantillon 1 7.5% Échantillon 2 15% Différence non réelle Erreur statistique alpha Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif

15 Vrai valeur 12% Échantillon 1 15% Échantillon 2 15% Fausse absence de différence Vrai valeur 19% Erreur statistique bêta Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif

16 Risques d'erreur statistiques Risque alpha : risque de conclure à une différence qui nexiste pas Risque bêta : risque de ne pas mettre en évidence une différence qui existe réellement Puissance : 1 - bêta : probabilité de mettre en évidence une différence qui existe réellement

17 Application à lessai thérapeutique Risque alpha : considérer comme efficace un traitement qui ne lest pas Risque bêta : ne pas conclure alors que le traitement est efficace Puissance : montrer lefficacité dun traitement réellement efficace

18 Erreur alpha Erreur bêta Différence Pas de différence DifférencePas de différence Réalité Conclusion

19 Tests statistiques Outils d'aide à la décision Principe –conclure à une différence –que si le risque de faire une erreur (de première espèce) est faible Quantification du risque d'erreur alpha –à partir des données disponibles (Risque de commettre une erreur alpha = risque alpha)

20 Principe général p 1 = 7% p 0 = 13% Quelle est la probabilité de commettre une erreur si je conclus à partir de ces données à l'existence d'une réelle différence Probabilité faible Conclusion Probabilité forte Pas de conclusion Conclure à l'existence d'une différence que si le risque de faire une conclusion erronée est faible

21 Démarche du test statistique Calcul de la probabilité p p : probabilité que "la différence observée soit due uniquement au hasard" p représente le risque de faire une conclusion erronée si l'on décidait de conclure p est une quantification du risque alpha On ne conclut que si ce risque d'erreur est suffisamment petit

22 Seuil de risque Seuil de risque de conclusion erronée acceptable –seuil de risque alpha = 5% p < 5% –on prend le risque de conclure p > 5% –on ne conclut pas < ou ?

23 Différence observée Test Différence significative p<0.05 Il est peu probable que la différence observée soit due au hasard Différence non significative p>0.05 La probabilité que la différence observée soit due au hasard est forte Signification statistique Seuil de signification statistique

24 Le test statistique est un moyen qui autorise à conclure à l'existence d'une différence que si le risque de commettre une erreur est faible Risque d'erreur faible = 5% (en général) –seuil de décision Contrôle du risque alpha –mais le risque d'erreurs alpha persiste –100 essais avec un traitement sans efficacité conclusion à tort à l'efficacité dans 5 essais

25 Réalisation du test Calcul à partir des données de la probabilité de commettre une erreur alpha = p p 1 = 7% p 0 = 13% p = 0.04 p<5% conclusion à l'existence de la différence parce que le risque de faire une conclusion fausse est faible p 1 = 20% p 0 = 17% p = 0.25 p>5% impossible de conclure à l'existence d'une différence car si on concluait à une différence, le risque d'erreur serait trop fort

26 P < 0.05 En concluant à l'efficacité, on prend un risque de 5% de faire une conclusion erronée 5% est un risque d'erreur élevé –en pratique 2 essais significatifs –risque = 5% * 5% = 2.5/1000

27 Disparition du risque d'erreur bêta Le risque bêta est incalculable Impossible de quantifier le risque d'erreur quand on fait une conclusion d'absence de différence –il est donc impossible de faire ce type de conclusion –les tests permettent seulement de conclure à l'existence d'une différence –en cas de différence non signification impossible de conclure et ne permet surtout pas de conclure à l'absence de différence vu que le risque d'erreur est inconnu " l'absence de preuve n'est pas la preuve de l'absence"

28 Résultat non significatif Résultat non significatif Absence réelle d'effet Manque de puissance ? Différence non significative Impossible de conclure Ne pas conclure à labsence de différence «Labsence de preuve nest pas la preuve de labsence»

29 OBJECTIF : Evaluer lefficacité dune injection unique de tobramycine (T) chez des patientes traitées pour une pyélonéphrite aiguë noncompliquée par de la ciprofloxacine (CIP) (500 mg 2 fois par jour per os). RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine et à la tobramycine. Deux échecs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif). CONCLUSION : Ladministration dune dose de tobramycine naméliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës non compliquées traitées par de la ciprofloxacine par voie orale.

30

31 Dualité entre test et intervalle de confiance

32 définition des IC Intervalle qui a 95% de chance de contenir la vraie valeur il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%) il est peu probable (prob 5%) –que la vraie valeur soit > à bs –ou que la vraie valeur soit < à bi –il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur de l'IC

33 Intervalle de confiance Différence = -6% IC 95% = [-8%;-4%] Lintervalle [-8%;-4%] à 95% de chance de contenir la vraie valeur de la différence reflète l'incertitude de l'estimation Il n'est pas possible d'exclure que le vrai effet ne soit que de -4% –situation la pire –efficacité plus faible que les -6% de l'estimation ponctuelle

34 Ensemble des valeurs non statistiquement différentes du résultats Résultat observé NS p<0.05 IC 95%

35 Relation entre IC et test IC dune différence n'incluant pas 0 –[-10% ; -4%] –la probabilité davoir ce type dintervalle si la vraie valeur est zero est <=5% –donc il est possible de conclure à une différence non nulle car le risque derreur alpha est <=5% = différence significative (au seuil de 5%) IC de la différence des risques incluant 0 –[-20% ; 20%] = différence non significative

36 Différence 0 P<0.05 NS -5% [-10%,-2%] -2% [-9%;+2%]

37 Pertinence clinique Signification statistique pertinence clinique Réduction de mortalité de 25% à 12%, p<0.05 –réduction statistiquement significative –pertinente cliniquement Réduction de mortalité de 2.3% à 2.1%, p<0.05 –réduction statistiquement significative –peu pertinente cliniquement

38 Présentation théorique

39 Théorie des tests d'hypothèses Hypothèse nulle –H0 : p 1 - p 0 = 0(p 1 = p 0 )(le traitement n'a pas d'effet) Hypothèse alternative –H1 : p 1 - p 0 0(p 1 p 0 )(le traitement à un effet) Test statistique = –retenir une de ces 2 hypothèses –en fonction des données recueillies

40 Risques d'erreur alpha et bêta – = Prob[ accepter H1 alors que H0 est vraie ] – = Prob[ accepter H0 alors que H1 est vraie ] Rappel H0 : p 1 = p 0 H1 : p 1 <> p 0

41 Calcul de p p = prob [ d'observer une différence au moins aussi importante que ce que l'on a observé alors que H0 est vraie ] soit z = p1 - p0 la différence entre les 2 prop. p1 et p0 si H0 est vraie, z suit une loi normale (si n grand) –moyenne 0 (H0) –écart type –Principe du test : calculer la probabilité d'observer dans ce cas une différence au moins aussi grande que celle qui a été effectivement observée (par exemple 7% - 13% = -6%)

42 z f(x) 0 z observé -6% p = surface sous la courbe Pr(Z -6%) Distribution de Z sous l'hypothèses nulle

43 p quantifie le degré de désaccord entre l'hypothèse nulle et ce qui a été observé

44 Rejet de l'hypothèse nulle H0 Autre façon de réaliser un test But du test –rejeter H0 ( p 1 - p 0 = 0 ) –pour accepter H1 ( p 1 - p 0 0 ) –rejeter H0 conclusion = diff. significative –ne pas rejeter H0 conclusion = diff. non significative –sans évaluation précise du p

45 Limites de rejet –valeurs de décision pour le rejet de H0 –valeurs de différences observées –notées L (et -L) Diff observée 0 -L L PAS de rejet de H0Rejet

46 L est déterminé par le seuil choisi (5%) –par définition = Prob [conclure si H0] –Prob [ diff. observée L si H0] = L défini les différences qui ont une probabilité faible d'être observées sous l'hypothèse nulle -L L Différence z 2.5%

47 L = 1.96 –( = écart type de la différence) x 95 % Loi normale N(0, ) 0 Rappel

48 –Exemple 1 diff. observée z = -5% L = 7% pour alpha=5% (-L = -7%) pas de rejet de H0 –Exemple 2 diff. observée z = 12% L = 7% rejet de H0 conclusion : diff. significative au seuil de 5% –Exemple 3 diff. observée z = -4% L = 2% (-L = -2%) rejet de H0 conclusion : diff. significative au seuil de 5%

49 Possibilité de diff. significative aussi bien en cas de : –différence positive (p 1 > p 0 ) –différence négative (p 1 < p 0 ) Test bilatéral

50 Comparaison des 2 approches Rejet de l'hypothèse nulle –calcul de L –si diff. observée L rejet de h0 diff significative –si -L < diff observée < L pas de rejet de H0 diff non significative Calcul de p –si p<0.05 diff. significative –si p>0.05 diff. non significative

51 L dépend de –alpha –p1 p0 –n1 n0 p dépend de –différence observée –p1 p0 –n1 n0 Écart type de la différence (erreur standard)

52 Exemple : –Diff. Observée = -5% –approche par rejet de H0 conclusion : diff. Significative le risque d'erreur encouru en concluant à la différence est < 5% –approche par calcul de p résultat : p = 0.03 prob de cette diff. soit due uniquement au hasard est de 0.03 le risque d'erreur encouru en concluant à la différence est de 3%

53 Résumé Erreur alpha –type d'erreur statistique Risque alpha –risque de commettre une erreur alpha Seuil de la signification statistique –valeur de risque alpha consenti –en général 5% p –quantification à partir des données observées du risque alpha

54 Erreurs d'interprétation p nest pas la prob. de lhypothèse nulle –p est la prob. dobtenir le résultat observé si H0 est vraie p nest pas la prob. que le ttt. nait pas deffet –p est la prob. dobtenir le résultat qui a été observé si le ttt. est en réalité inefficace "obtenir le résultat observé" = obtenir une diff. au moins aussi importante que le résultat observé –cf. définition de p –rappel : avec une VA continue, la prob d'une valeur est nulle

55 p<0.05 ne signifie pas quil y a moins de 5% de chance que le ttt. soit sans effet p<0.05 ne signifie pas quil y a 95% de chance que le ttt. est un effet –il y a moins de 5% de chance dobserver le résultat obtenu si le ttt. est sans effet p nest pas Pr(H 0 ) ou 1-Pr(H 1 )

56 Bilatéral / unilatéral Valeur de la différence 0 traitement A > traitement Btraitement A < traitement B Différence non significative Diff. significative Test unilatéral Test bilatéral

57 Risque relatif 1 Différence non significative Diff. significative Test unilatéral Test bilatéral 0,700,98 0,791,45

58 Conséquences Un résultat NS en bilatéral peut être significatif en unilatéral pas de choix a posteriori

59 Répétitions des tests statistiques

60 Répétition des tests Plusieurs tests réalisés pour répondre à une même question –par exemple plusieurs critère de jugement Conclusion à un effet à partir du moment où il existe au moins un test significatif Le risque de la conclusion est bien supérieure à 5% Inflation du risque alpha Rappel, avec un ttt. sans effet, –sur 100 tests, il y en aura 5 significatifs (en moyenne)

61 Conclusion 1 test Contrôle parfait du risque alpha (5%) Conclusion Test 1 Test 2 Test 3 Test 4 Le risque de conclure à tort est > à 5% (seuil de 5%) A partir du moment où au moins 1 test est significatif

62 Test 1 Risque de conclure à tort à une différence = 5% Test 2 Risque de conclure à tort à une différence = 5% Test 4 Risque de conclure à tort à une différence = 5% Test 3 Risque de conclure à tort à une différence = 5% Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%. Aux dés, la probabilité d obtenir un six est plus forte avec 3 dés qu avec un seul Comparaisons multiples

63 Avec un traitement sans efficacité en faisant 10 tests statistiques (p.e. 10 essais) nous avons 40% de risque de faire au moins une conclusion (à tort)

64 Critères de jugement Aspirine pour la prévention des événements cardiovasculaires Critères de jugement –mortalité totale –Événements cardiovasculaires mortels ou non mortels –DC cardiovasculaires –Mort subite –Infarctus –Accident vasculaire cérébraux –Interventions de revascularisation Risque alpha de conclure à tort à l'efficacité ?

65 Critère principal Décès de toute cause Critères secondaires Décès cardiovasculaire Mort subite Infarctus Accident vasculaire cérébraux Chirurgie Décès de toute cause Décès cardiovasculaire Mort subite Infarctus Accident vasculaire cérébraux Chirurgie Pas de définition de critère principal Risque de conclure à tort à l efficacité du traitement = 30% 7 tests statistiques Risque de conclure à tort à l efficacité du traitement = 5% Définition a priori d un critère principal Un seul test statistique Critère de jugement principal

66 Critère principal Conclusion que si le critère principal est significatif Critères secondaires : explicatifs

67 Multiplicité des critères de jugement - Exemple In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Wards triangle in the 60–69 y group, and upper and total radius in the 70–79 y group.

68 Autres situations de répétition des tests mesures répétées au cours du temps

69 Essai 0.92NS 1Age<750.92NS 2Age>750.95NS 3Hommes0.92NS 4Femmes0.99NS 5Antécédents d'infarctus0.87NS 6Pas d'antécédents d'infarctus1.03NS 7Prise d'aspirine0.78p<0.05 8Pas d'aspirine1.09NS Analyse en sous-groupes - Essai non concluant

70 1Age<75test 1risque erreur 5% 2Age>75test 2risque erreur 5% 3Hommestest 3 risque erreur 5% 4Femmestest 4 risque erreur 5% 5Antécédents d'infarctustest 5 risque erreur 5% 6Pas d'ATCD d'infarctustest 6 risque erreur 5% 7Prise d'aspirinetest 7 risque erreur 5% 8Pas d'aspirinetest 8 risque erreur 5% Limites- Multiplicité des tests

71 Essai 0.78p<0.05 1Age<750.65p<0.01 2Age>750.90NS 3Hommes0.76p<0.05 4Femmes0.78p<0.05 5Antécédent d'infarctus0.97NS 6Pas d'antécédent d'infarctus0.70p<0.01 7Diabétique0.50p< Non diabétique0.91p<0.05 Analyses en sous groupes - Essai concluant

72

73 Analyses intermédiaires en cours dessai, avant que tous les patients prévus aient été recrutés et/ou avant la fin de la période de suivi initialement prévue But arrêter prématurément –pour efficacité –pour toxicité –pour futilité

74 Ajustement du seuil de signification Méthode de Bonferroni –Pour k comparaisons, le seuil ajusté est : –Pour k=3, s aj = 5% / 3 = 1.67% –Quand est petit, –Donc pour conserver un risque alpha global de 5% : –Inconvénient : fait lhypothèse dune stricte indépendance des variables testées méthode conservatrice

75 Ajustement du seuil de signification - 2 Méthode de Tukey –Pour k=3, s aj = 5% / 1.73 = 2.89%

76 Cas 1 3 analyses intermédiaires + 1 analyse finale = 4 comparaisons Arrêt prématuré de lessai

77 Cas 2 Pas darrêt prématuré mais conclusion à lefficacité

78 Cas 3 Pas darrêt prématuré et résultat non significatif (p=4%>s aj )

79 Cas 4 Résultat non significatif

80 Conclusion essai 1 –pas de démonstration de l'efficacité Conclusion essai 2 –démonstration de l'efficacité de manière statistiquement significative (p<0.05) –sur les 3 premiers critères de jugement

81 Catalogue des tests statistiques

82 Taille de léchantillon Avec les échantillons de grandes tailles –les distributions des moyennes proportions différence de moyenne différence de proportions sont des distributions normales --> calcul simple de p et des IC Avec les échantillons de petites tailles (n<30) –ces distributions ne sont pas normales (en général) (en général inconnues) –techniques spéciales dites "non paramétriques"

83 Variable continue –Données : distribution normale moyenne : distribution normale qq soit n –Données : distribution quelconque symétrique moyenne : distribution normale qq n>30 –Données : distribution quelconque moyenne : distribution normale qq n>100 Variable binaire –proportion : distribution normale qd n>30

84 Séries statistiques appariées 2 séries statistiques provenant de l'observation des mêmes sujets (unités statistiques) 2 méthodes de dosage de la glycémie A et B les 2 méthodes sont appliquées aux mêmes sujets –pour chaque patient : 2 valeurs, une avec chaque méthode –= 2 séries appariées 2 groupes de patients différents –méthode A utilisée avec le 1er grp –méthode B utilisée avec le 2e grp –= 2 séries non appariées

85 Catalogue des tests statistiques Le test utilisé doit être précisé avec le résultat Un test pour chaque situation définie par : –type de la variable (continue, binaire) –petit ou grand effectif –séries appariées ou non

86 Var. continues (comparaison des moyennes) –Séries non appariées grand effectif –test t (test de Student), Test z test non paramétrique –Test de Wilcoxon (Mann-Whitney) –Séries appariées grand effectif –test t pour séries appariées (Student pour séries appariées) test non paramétrique –Test de Wilcoxon pour séries appariées

87 Var. binaires (comparaison des proportions) –Séries non appariées grand effectif –Chi 2 ( ) test non paramétrique –Test exact de Fisher –Séries appariées –test de McNemar Var. qualitative à plusieurs modalités –idem var. binaires


Télécharger ppt "Risques derreur statistique et test statistique Origine de la problématique."

Présentations similaires


Annonces Google