La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Révision des concepts fondamentaux

Présentations similaires


Présentation au sujet: "Révision des concepts fondamentaux"— Transcription de la présentation:

1 Révision des concepts fondamentaux
Les composantes d’un test statistique Les hypothèses nulles en statistique Le sens de p Inférence: Comment traduire p en une conclusion? Types d’erreur dans les tests statistiques Tests unilatéraux et bilatéraux La puissance Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

2 Concepts map Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

3 Le sens de p Informel: la probabilité que l’hypothèse nulle soit vraie
Vraie définition: la probabilité d’observer des données qui diffèrent autant de la valeur prédite par l’hypothèse nulle lorsque: les données sont récoltées correctement Toutes les conditions d’application du test sont rencontrées Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

4 Rejeter ou ne pas rejeter?
La décision de rejeter ou d’accepter l’hypothèse nulle est basée sur p. Le seuil de décision est arbitraire. On doit toujours garder en tête la valeur de p obtenue. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

5 La statistique p est estimé en se basant sur la distribution de la statistique choisie Si la distribution est connue, on peut calculer la probabilité d’obtenir une valeur pour cette statistique aussi grande (ou petite) ou égale à la valeur calculée si H0 était vraie, c’est-à-dire: p Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

6 Un exemple Deux échantillons (1, 2) dont les moyennes diffèrent par la quantité d Quelle est la probabilité d’observer cette différence si H0 stipule que les deux moyennes sont égales? Éch. 1 Éch. 2 Fréquence Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

7 Un exemple (suite) Éch. 1 Si H0 est vraie, alors la distribution attendue de la statistique t est: Fréquence Éch. 2 Probabilité (p) t -3 -2 -1 1 2 3 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

8 Un exemple (suite) Éch. 1 On observe t=2.01 alors que la valeur attendue (selon H0) est t=0.0 Quelle est la probabilité d’obtenir une valeur au moins aussi grande si H0 (les deux moyennes sont égales) est vraie? Comme p est petit, il est improbable que H0. soit vraie. Alors, on rejette H0. Fréquence Éch. 2 -3 -2 -1 1 2 3 Probabilité t = 2.01 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

9 Inférence: Comment traduire p en une conclusion?
Si p < 0.05, rejeter l’hypothèse nulle mais…toujours garder la valeur de p à l’esprit Accompagner les résultats significatifs (ou non) de la valeur de p correspondante Ne pas oublier, la “convention” p < 0.05 est arbitraire! Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

10 Signification statistique et processus décisionnel: un exemple
Si les deux chevaux ont les mêmes cotes, sur lequel miseriez-vous? Si vous étiez un ”bookie”, offririez-vous les mêmes cotes aux deux chevaux? Si vous l’aviez fait, seriez-vous toujours en affaires? Jolly Jumper Prince noir Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

11 Types d’erreur dans les tests statistiques
Deux types: Une hypothèse nulle qui est vraie peut être rejetée ou une hypothèse nulle qui est fausse peut être acceptée. Erreur de type I (a): La probabilité de rejeter une hypothèse nulle qui serait vraie. Erreur de type II (b) : La probabilité d’accepter une hypothèse nulle qui serait fausse. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

12 Réalité Conclusion   Erreurs d’inférence H0 est vraie H0 est fausse
Accepter H0 pas d’erreur Rejeter H0 pas d’erreur Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

13 Erreurs d’inférence: un exemple
Realité Conclusion HIV HIV Séronégatif Séropositif 99% 95% 5% 1% Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

14 Les hypothèses nulles des tests unilatéraux et bilatéraux
-3 -2 -1 1 2 3 Probabilité a/2 1- a a/2 Bilatéral: deux zones de rejet de H0 de taille a/2. Unilatéral: une zone de rejet de H0 de taille a. -3 -2 -1 1 2 3 -3 -2 -1 1 2 3 Probabilité 1- a a a 1- a t Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

15 Exemple: test bilatéral
Éch. 1 Pas de différences entre les populations H0: m1 - m2 = 0 Comme H0 est bilatérale, H0 sera rejetée si m1 - m2 > 0 ou si m1 - m2 < 0. Fréquence Éch. 2 -3 -2 -1 1 2 3 Probabilité Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

16 Exemple: unilatéral Éch. 1 Éch. 2 La taille moyenne de la population 1 est supérieure à celle de la population 2 H0: m1 - m2  0 Comme H0 est unilatérale, H0 sera rejetée seulement si m1 - m2 > 0 . Fréquence Probabilité -3 -2 -1 1 2 3 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

17 Tests unilatéral vs bilatéral
Éch. 1 Fréquence Éch. 2 Bilatéral: l’hypothèse nulle est rejetée si la valeur observée supérieure ou inférieure à la valeur théorique Unilatéral: l’hypothèse nulle est rejetée si la valeur observée est supérieure (ou inférieure) à la valeur théorique. H0: m1 = m2 (bilatéral, rejeter H0 ) H0: m1  m2 (unilatéral, accepter H0) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

18 Important! Pour certaines situations, un test unilatéral sera plus puissant qu’un test bilatéral Pour cette raison, il faut toujours spécifier H0 avant l’analyse! Probabilité -3 -2 -1 1 2 3 a a/2 Probabilité 2 3 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

19 Paramètres en inférence statistique
Taux d ’erreur de type ! (a) Puissance (1- taux d’erreur de type II =1-b) Effectif (N) Taille de l ’effet (d) Chacun de ces paramètres est une fonction des trois autres, si on en connaît trois on peut calculer le quatrième Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

20 La Puissance La puissance est la probabilité de rejeter une hypothèse nulle quand celle-ci est fausse et qu’une hypothèse alternative est vraie, c’est-à-dire 1-b. La puissance ne peut être calculée que si l’hypothèse alternative est spécifiée. Donc, la puissance dépend de l’hypothèse alternative. Des tests puissants peuvent détecter de petites différences, des tests peu puissants ne peuvent détecter que des grandes différences. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

21 Le calcul de la puissance: un exemple
La distribution attendue des moyennes de la longueur des ailes d’un échantillon de 5 mouches provenant de populations normales est définie par m et sY = La courbe du centre représente l’hypothèse nulle, H0: m = 45.5, les courbes de chaque côté représentent les hypothèses alternatives, m = 37 or m = 54. Les lignes verticales délimitent la zone de rejet (5%) de l’hypothèse nulle. H1 : m = 37 H0 : m = 45.5 H1 : m = 54 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

22 Puissance (suite) H0: m = m0 H1: m = m1 m1=54 m1=53 m1=50 m1=48.5 b=0.0096 b=0.0018 m0=45.5 b=0.2676 b=0.5948 Une augmentation de l’erreur de type II, b, quand l’hypothèse alternative H1, s’approche de l’hypothèse nulle, H0 -- c’est m1 qui s’approche de m . Les zones ombrées représentent b. Les lignes verticales délimitent la région du 5% critique (2.5% à chaque extrémité) pour l’hypothèse nulle. Afin de simplifier cette figure, la distribution de l’hypothèse alternative est représentée sur un côté. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

23 Taille de l’effet H0 présume de la valeur d’un paramètre
Si H0 est que 2 moyennes sont égales, cela implique que la différence entre les deux moyennes (d) est 0 Éch. 1 Éch. 2 Fréquence Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

24 Taille de l ’effet (suite)
Éch. 1 Fréquence Éch. 2 Comme H0 présume de l’absence d’un phénomène, d quantifie le degré d’existence de ce phénomène Si H0 est fausse, elle est fausse à un certain degré, quantifié par d, la taille de l’effet Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

25 Analyse de puissance: 1 - Puissance vs a, d et N
Souvent faite après un test, lorsque N et la taille de l’effet (d) sont connus et que H0 a été acceptée On peut calculer 1-b (la puissance du test) pour une valeur d’a Si 1-b est faible, le taux d’erreur de type II est grand et il est fort possible qu’on ait accepté une H0 fausse Éch. 1 Éch. 2 Fréquence Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

26 Analyse de puissance: 2- N vs a, d et la puissance
Une certaine taille d’effet (d) est attendue (expérience préliminaire) et on fixe a et 1-b À partir de d, a et b on peut calculer l’effectif minimum (Nmin) requis Exercice très utile dans la planification des expériences Pré-Éch. 1 Pré-Éch. 2 Fréquence Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

27 Analyse de puissance 3 - d vs a, N et puissance
Compte-tenu de a, 1-b et N, quelle est la taille minimale de l ’effet détectable (dmin)? Si dmin est grande, seules de très grosses déviations de H0 seront détectées Il faut être TRÈS prudent de ne PAS conclure qu’il n’y a pas de différence même si on accepte H0 Ech 2 Fréquence Ech 1 X Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

28 Puissance: effet de la taille de l’échantillon
1.0 La courbe de puissance pour tester H0: m = 45.5. H1: m  45.5 pour n = 5 et n = 35. Pour une longueur d’aile donnée, la probabilité de rejeter une hypothèse nulle qui serait fausse diminue quand N augmente. Puissance (1-b) 0.5 n = 5 n = 35 a m Longueur de l’aile (x 0.1 mm) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

29 Pourquoi se soucier de la puissance?
Fréquence Deux échantillons avec la même moyenne et la même variance mais dont N diffère. pour le premier cas, la puissance est grande, p < 0.05, alors on rejette H0 pour le deuxième cas, la puissance est petite, p > 0.05, alors on accepte H0. m1 m2 Taille N = 30 Fréquence m1 m2 Taille Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

30 Conclusions sur la puissance
Si la taille de l’échantillon est petite, la puissance des tests est faible. À moins de connaître la puissance d’une analyse, la décision d’accepter l’hypothèse nulle est difficilement interprétable! Si la puissance est élevée, le rejet de l’hypothèse nulle est probable même si les écarts entre les valeurs observées et attendues à partir de l’hypothèse nulle sont petits (et peut-être sans signification biologique)! Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

31 Inférence statistique: problèmes et limites
Problème 1: de très nombreuses hypothèse nulles sont peu vraisemblables a priori… …leur rejet n,est donc pas très informatif... Traitement 1 Traitement 2 Témoin Rendement Traitement Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

32 Inférence statistique: problèmes et limites
Problème 2: Le seuil de décision a (0.05) est arbitraire et peut être beaucoup trop conservateur ou libéral quant à la signification biologique… Seuil raisonnable pour la décision Probabilté -3 -2 -1 1 2 3 t Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

33 Inférence statistique: problèmes et limites
Problème 3: p est la probabilité d’observer une statistique au moins aussi extrème si H0 est vraie… … mais souvent la distribution réelle de la statistique ne suit pas exactement la distribution présumée lorsque l’hypothèse nulle est vraie. présumée Probabilté réelle -3 -2 -1 1 2 3 t Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

34 Inférence statistique: problèmes et limites
Problème 4: pour une taille donnée d’effet, p varie avec (n)… …on peut donc presque toujours rejeter H0 si l’échantillon est très grand, même si l’effet est trivial. Gros effet Erreur de type I Petit effet 0.05 Effectif (n) Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

35 Inférence statistique: solutions
Évitez d’éprouver des hypothèse nulles triviales Faites une distinction entre la signification statistique et la signification biologique (ou autre) Rapportez toujours la taille de l’effet, peu importe la signification statistique. Considérez l’emploi de permutations ou de reéchantillonnage pour générer la distribution de votre statistique. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

36 30 Principe du test de t mA mo 20 Accepter H0 Si les valeurs observées dévient plus des valeurs attendues que ce qui est probable compte-tenu de la précision des mesures, on doit rejeter l’hypothèse nulle Fréquence 30 mA mo 20 Rejeter H0 10 Observée Attendue 20 30 40 50 60 Longueur Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

37 Pourquoi corriger pour la précision?
30 Accepter H0 me mo 20 Trois raisons peuvent expliquer de grandes différences entre les valeurs observées et prédites: (1) des mesures imprécises, (2) l’hypothèse est fausse ou (3) combinaison de (1) et (2). Alors avant de conclure que l’hypothèse est fausse on doit d’abord éliminer (1) et (3). 10 Fréquence 30 me mo Rejeter H0 20 10 Observations Prédite Vraie distribution 20 30 40 50 60 Longueur Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

38 Principe du test de t Si la différence entre les valeurs observées et prédites est plus grande que la précision de la mesure, alors quelque chose ne va pas. Si la différence entre les valeurs observées et les valeurs prédites par l’hypothèse nulle est plus grande que l’erreur type alors on doit rejeter l’hypothèse nulle. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

39 Composantes du test de t
L’hypothèse nulle (H0) Observations Statistique (t) Conditions d’application Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

40 Test d’une hypothèse extrinsèque
30 mT Accepter H0 20 Tester si la moyenne d’un échantillon est égale à une valeur théorique mT en calculant: on compare la valeur de t obtenue à la valeur critique de la distribution du t de Student avec n-1 degrés de liberté 10 30 mT Rejeter H0 20 10 Observations Prédite Vraie distribution 20 30 40 50 60 Longueur Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

41 Exemple: taux de croissance de la truite
20 30 lT 10 l (mm/m) Utiliser des relations déjà observées entre des taux de croissance (l) et le pH afin de prédire l pour un lac dont le pH = 4.5 L’hypothèse nulle H0: Comparer la valeur prédite de l ( = l T) avec la moyenne des valeurs observées dans des lacs dont le pH = 4.5 Accepter H0 3 4 5 6 7 pH 15 lT 10 Fréquence 5 Prédite Observée 6 8 10 12 14 l Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

42 Test d’une hypothèse intrinsèque
Taille Fréquence Deux populations (1, 2) dont la taille moyenne (m1, m2) diffère par m1- m2. Si H0: d = 0 (que les deux moyennes sont égales) est vraie, la distribution de la statistique t est:: Probabilité -3 -2 -1 1 2 3 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

43 Exemple (suite) Taille Fréquence
Pour les deux populations supposons que t = 2.01 Quelle est la probabilité d’obtenir une valeur aussi grande si H0 (que les 2 moyennes sont égales) est vraie? Comme p est petit, c’est peu probable que H0 soit vraie Alors, on rejette H0. -3 -2 -1 1 2 3 Probabilité t = 2.01 Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

44 Inférence: Comment traduire p en une conclusion?
Si p < 0.05, on rejette l’hypothèse nulle…. … mais garder p en tête! donner la valeur de p et pas seulement si c’est “significatif” (ou non) souvenez que p < 0.05 est arbitraire! Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

45 Conditions d’application
p est calculé en assumant que t suit la distribution bien connue du t de Student (ts) Ceci est vrai seulement si les données sont distribuées normalement. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

46 La distribution de t vs la distribution du t de Student (ts)
Le calcul de p assume que p(t) = p(ts) mais à mesure que les données s’éloignent de la normalité, la différence entre les deux augmente alors, les valeur de p estimées sont incorrectes Probabilité (p) -3 -2 -1 1 2 3 t, données loin de la normalité t, données plus près de la normalité ts Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

47 Que faire si les données ne sont pas distribuées normalement?
Traduction de t en p est incorrecte mais le biais est petit spécialement quand l’effectif est grand (Théorème de la limite centrale) alors, utiliser votre gros bon sens…inquiétez vous seulement quand p est près du niveau a désiré. Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

48 Que faire si les données ne sont pas distribuées normalement et p est près de a?
augmenter la taille de l’échantillon transformer les données utiliser un test non paramétrique qui ne requiert pas que les données soient distribuées normalement Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

49 Transformations des données
Habituellement, on utilise des fonctions mathématiques simples comme: log(X), racine carrée(X), arcsin(X) le choix est basé sur le principe essai-erreur il existe des algorithmes qui permettent de simplifier la tâche, par exemple les transformations de Box et Cox. problème 1: trouver la transformation adéquate est parfois très difficile problème 2: certaines données ne peuvent pas être normalisées Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

50 Modèles statistiques Y La majorité des analyses reposent sur un modèle qui décrit potentiellement les données e.g., regression, ANOVA. “Ajustement” du modèle est le procédé d’estimation des paramètres du modèle X Régression linéaire ANOVA Groupe 1 Groupe 2 e42 Groupe 3 m2 a2 Y m Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

51 Traduire une question biologique en un modèle statistique
Abondance des mouches noires varie selon le ruisseau? Hypothese: la bouffe explique tout! Prédiction: Abondance reliée à la disponibilité de nourriture Modèle: Abondance=k+Bouffe+Erreur H0: Abondance=k+Erreur Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15

52 Sélection de la technique statistique pour tester la signification d’un terme
Technique appropriée dépends Du type de variable dépendante Continue, ordinale, categorique Nombre et type de variables indépendantes Type de distribution du terme d’erreur Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15


Télécharger ppt "Révision des concepts fondamentaux"

Présentations similaires


Annonces Google