Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes de base Comparaison des paramètres de deux populations: moyennes, variances et médianes Tests appariés Analyse de puissance
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 2 Comparaison entre deux échantillons Le nombre de groupes comparés = 2 on peut comparer plusieurs statistiques de ces groupes: moyennes, variances, médianes, etc… Fréquence Témoin Traitement s2Cs2C s2Ts2T
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 3 Un exemple Deux groupes (1, 2) ayant des moyennes qui diffèrent par . Quelle est la probabilité p d’observer une telle différence si les deux moyennes sont égales (H 0 )? Fréquence Groupe 2 Groupe 1
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 4 Un exemple (suite) Si H 0 est vraie, la statistique t sera distribuée comme le t de Student: Probabilité (p) t Fréquence Groupe 2 Groupe 1
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 5 Un exemple (suite) Pour les deux groupes, supposons que t = 2.01 Quelle est la probabilité d’obtenir un t d’au moins 2.01 si les deux moyennes sont égales (H 0 )? Comme p est faible, il est improbable que H 0 soit vrai. On rejette donc H Probabilité t = 2.01 Fréquence Groupe 2 Groupe 1
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 6 Comparaisons de 2 échantillons: échantillons indépendants Lorsqu’il n’y a pas de corrélation ou d’appariement entre les observations (sujets) des deux groupes. Ex: Poids à 6 mois de porcelets engraissés en suivant deux régimes différents. Régime
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 7 Comparaisons de deux échantillons: échantillons appariés Dans les échantillons appariés, les observations (sujets) dans un groupes forment des paires avec les observations (sujets) de l’autre groupe. Ex: Le poids à six mois de porcelets ayant la même mais soumis à deux régimes différents. Régime Truies
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 8 Comparaison de deux échantillons: le groupe contrôle vs groupe traité Deux champs de maïs, un témoin et un fertilisé avec de l’azote. Prédiction biologique: la fertilisation avec l’azote augmente le rendement H 0 : T C (unilatéral) Rendement Frequence Témoin Traitement
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 9 Comparaison de moyennes: le test de t Calculer la différence entre les deux moyennes H 0 (unilatéral) Calculer t et le p correspondant: Rendement Fréquence Témoin Traitement
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 10 Que sont les degrés de liberté? l Le nombre de degrés de liberté est l’effectif moins le nombre de paramètres.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 11 Pourquoi se soucier du nombre de degrés de liberté? La distribution des statistiques dépend du nombre de degrés de liberté. Donc, selon le nombre de degrés de liberté, la même valeur de la statistique peut sera convertie en probabilités différentes t Probabilité 8 dl 1 dl
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 12 Comparaison de deux moyennes: le test U de Mann-Whitney On veut comparer le rendement du groupe témoin et du groupe traitement. Chacun des groupe contient 4 champs (ch.) (réplicats) Calculer la somme des rangs (R C, R T ) pour chacun des groupes. H 0 : R C = R T Calculer U et le p correspondant
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 13 Comparaison de moyennes: tests paramétriques (P) vs tests non- paramétriques (NP) *si les conditions d’application sont respectées
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 14 Indépendance Observations sont souvent dépendantes lorsque corrélées dans le temps ou l’espace. Ex: mesures des éléments nutritifs en amont et en aval d’une source ponctuelle de pollution sur un cours d’eau. Site amont Site aval
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 15 Pourquoi insister sur l’indépendance? Si les observations ne sont pas indépendantes, on surestime le nombre de degrés de … … la conversion de la statistique en valeur de p sera biaisée … … et on sousestimera p.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 16 Procédure générale si N >20 pour chaque échantillon tester la normalité tester l’homoscedasticité si les deux échantillons sont distribués normalement et que les variances sont égales, utiliser le test de t (“variance commune”) si les deux échantillons sont distribués normalement mais que les variances sont inégales, utiliser le test approximatif de Welch (“variance séparées”) si un ou les deux échantillons ne sont pas distribués normalement, essayer de transformer les données ou utiliser le test de U de Mann-Whitney.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 17 Procédures générales N<10 pour chaque groupe Utiliser le test de U de Mann-Whitney 10<N<20 pour chaque groupe utiliser 2 tests: test de t (variance commune ou variances séparées) et test de U Mann-Whitney … et espérer que l’inférence est la même!
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 18 Comparaison de la taille moyenne des esturgeons de la rivière Saskatchewan Sortie d’un test de t fait avec S-PLUS: Standard Two-Sample t-Test data: x: FKLNGTH with LOCATION = Cumberland, and y: FKLNGTH with LOCATION = The_Pas t = , df = 183, p-value = 0.04 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 19 Comparaison de la taille moyenne des esturgeons de la rivière Saskatchewan Sortie d’un test de Mann-Whitney (S-PLUS = Wilcoxon rank sum test) Wilcoxon rank-sum test data: x: FKLNGTH with LOCATION = Cumberland, and y: FKLNGTH with LOCATION = The_Pas rank-sum normal statistic with correction Z = , p-value = alternative hypothesis: true mu is not equal to 0
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 20 Vérification de la normalité Faire un graphique des probabilités normales si, à l’oeil, c’est linéaire, ça va si on est pas certain, faire le test de Kolmogorov-Smirnov (avec correction Lilliefors inclus dans S-PLUS)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 21 La distribution cumulative normale L’aire sous les courbes des fonctions de densité des probabilités normales et distribution cumulative normale 2.28% 50.00% 68.27% F Distribution normale Didtribution cumulative normale
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 22 Valeurs Z Valeurs Z Transformation des pourcentages cumulés en valeurs Z Normal equivalent deviates Cumulative percent
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 23 Courbes des probabilités normales Exemples de distributions de fréquences et leurs distributions cumulées A: Normale; B: mélange égal des deux distributions normales; C: Étirée vers la gauche; D: Étirée vers la droitet; E: Platykurtique; F: Leptokurtique. NED A B CD EF
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 24 Exemple: Taille des esturgeons des sites The Pas et Cumberland Diagrammes de probabilités normales pour les longueurs à la fourche à The Pas et Cumberland sont:
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 25 Exemple: Taille des esturgeons (suite) Sortie S-PLUS d’un test Kolmogorov- Smirnov: normalité des longueurs à The Pas One sample Kolmogorov-Smirnov Test of Composite Normality data: FKLNGTH in SturgPas ks = , p-value = 0.5 alternative hypothesis: True cdf is not the normal distn. with estimated parameters sample estimates: mean of x standard deviation of x
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 26 Égalité des variances (homoscédasticité): le test de F Si les variances sont égales, alors s 2 C = s 2 T H 0 (ratio F): Ce test est très sensible à une déviation de la normalité Rendement Fréquence Témoin Traitement s2Cs2C s2Ts2T
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 27 Égalité des variances (homoscédasticité), utilisation du test de Levene Si les variances sont égales, alors: s 2 C = s 2 T H 0 (Levene): Ce test est plus robuste à une déviation de la normalité Rendement Fréquence Témoin Traitement s2Cs2C s2Ts2T
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 28 Comparaison de médianes: le test des médianes Calculer la médiane M pour les deux échantillons Classer chaque observation (plus grande ou plus petite que M) afin de créer un tableau 2X2 Faire un 2 ou un test de G, pour tester l’indépendance Rendement Fréquence Témoin Traitement M
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 29 Tests sur des échantillons appariés Utilisés quand il y a corrélation entre les observations des deux échantillons. Par exemple, le poids de rats avant et après un traitement H 0 (unilatéral): utiliser un test de t pour échantillons appariés
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 30 Test de t pour échantillons appariés vs test de t pour échantillons indépendants En présence de corrélation, un test de t pour échantillons appariés est beaucoup plus puissant. L’erreur-type des différences moyennes entre les paires est habituellement plus petite que l’erreur-type de la différence entre les deux moyennes S’il n’y a pas de corrélation, un test de t pour échantillons appariés est moins puissant (N représente le nombre de paires et non le nombre d’observations). S 2 b = 8.67, S 2 a = 21.58, S 2 W = 2.81
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 31 Test de t pour échantillons appariés vs test de t pour échantillons indépendants: effet de l’âge sur la largeur du visage Standard Two-Sample t-Test data: x: WIDTH with AGE = 5, and y: WIDTH with AGE = 6 t = , df = 28, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x mean of y Paired t-Test data: x: WIDTH5 in Skulldat, and y: WIDTH6 in Skulldat t = , df = 14, p-value = 0 alternative hypothesis: true mean of differences is not equal to 0 95 percent confidence interval: sample estimates: mean of x - y
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 32 Puissance: calcul de l’effectif requis À partir de , d ’un estimé de la variance commune s p 2 et de la différence qu’on veut détecter, on peut calculer n min, l’effectif minimal requis Fréquence Éch. 1 Éch. 2
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 33 Indice de la taille de l’effet Formule t-Test on Means d Analyse de puissance avec G*Power
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 34 Comparaison de la taille des estrgeons à The Pas et Cumberland House S-PLUS output from Summary statistics: LOCATION:Cumberland FKLNGTH Min: st Qu.: Mean: Median: rd Qu.: Max: Total N: NA's : Std Dev.: LOCATION:The_Pas FKLNGTH Min: st Qu.: Mean: Median: rd Qu.: Max: Total N: NA's : Std Dev.:
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 35 Inice de la taille de l’effet Formule Test de td Analyse de puissance avec G*Power
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 36 Effectif minimum
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 37 Puissance: calcul de la différence minimale détectable À partir de , d’un estimé de la variance commune s p 2 et de l’effectif n, on peut calculer min, la différence minimale détectable Fréquence Éch. 1 Éch. 2
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 38 Différence minimale détectable
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 39
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 40 Exemple: Puissance d’une comparaison de 2 moyennes Quelle est la probabilité de détecter une différence de 1.01 si (2)=.05? … et... Quelle est la probabilité de détecter une différence de 1.01 si (2)=.05? … et...
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 41 Calcul de puissance
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 42 Calcul de puissance
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 43 Quizz Dans quelles conditions utiliseriez vous un test de t pour échantillons appariés au lieu d’un test de t pour échantillons indépendants? Dans quelles conditions utiliseriez vous un test de t à variances séparées vs à variance commune?