Comparaison de deux échantillons Principes de base Comparaison des paramètres de deux populations: moyennes, variances et médianes Tests appariés Analyse de puissance Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Comparaison entre deux échantillons Le nombre de groupes comparés = 2 on peut comparer plusieurs statistiques de ces groupes: moyennes, variances, médianes, etc… s2C s2T Fréquence Témoin Traitement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Un exemple Deux groupes (1, 2) ayant des moyennes qui diffèrent par d. Quelle est la probabilité p d’observer une telle différence si les deux moyennes sont égales (H0)? Groupe 1 Groupe 2 Fréquence Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Un exemple (suite) Groupe 2 Fréquence Groupe 1 Si H0 est vraie, la statistique t sera distribuée comme le t de Student: Probabilité (p) t -3 -2 -1 1 2 3 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Un exemple (suite) Fréquence Groupe 2 Fréquence Groupe 1 Pour les deux groupes, supposons que t = 2.01 Quelle est la probabilité d’obtenir un t d’au moins 2.01 si les deux moyennes sont égales (H0 )? Comme p est faible, il est improbable que H0 soit vrai. On rejette donc H0. -3 -2 -1 1 2 3 Probabilité t = 2.01 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Comparaisons de 2 échantillons: échantillons indépendants Régime Lorsqu’il n’y a pas de corrélation ou d’appariement entre les observations (sujets) des deux groupes. Ex: Poids à 6 mois de porcelets engraissés en suivant deux régimes différents. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Comparaisons de deux échantillons: échantillons appariés Régime Dans les échantillons appariés, les observations (sujets) dans un groupes forment des paires avec les observations (sujets) de l’autre groupe. Ex: Le poids à six mois de porcelets ayant la même mais soumis à deux régimes différents. Truies Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Comparaison de deux échantillons: le groupe contrôle vs groupe traité Deux champs de maïs, un témoin et un fertilisé avec de l’azote. Prédiction biologique: la fertilisation avec l’azote augmente le rendement H0: mT mC (unilatéral) Frequence Rendement Témoin Traitement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Comparaison de moyennes: le test de t Calculer la différence entre les deux moyennes H0 (unilatéral) Calculer t et le p correspondant: Fréquence Rendement Témoin Traitement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Que sont les degrés de liberté? Le nombre de degrés de liberté est l’effectif moins le nombre de paramètres. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Pourquoi se soucier du nombre de degrés de liberté? 0.4 0.4 La distribution des statistiques dépend du nombre de degrés de liberté. Donc, selon le nombre de degrés de liberté, la même valeur de la statistique peut sera convertie en probabilités différentes. 8 dl 0.3 0.3 Probabilité 0.2 0.2 1 dl 0.1 0.1 0.0 0.0 -5 -5 -4 -4 -3 -3 -2 -2 -1 -1 1 1 2 2 3 3 4 4 5 5 t Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Comparaison de deux moyennes: le test U de Mann-Whitney On veut comparer le rendement du groupe témoin et du groupe traitement. Chacun des groupe contient 4 champs (ch.) (réplicats) Calculer la somme des rangs (RC, RT) pour chacun des groupes. H0: RC = RT Calculer U et le p correspondant Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Comparaison de moyennes: tests paramétriques (P) vs tests non-paramétriques (NP) *si les conditions d’application sont respectées Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Indépendance Observations sont souvent dépendantes lorsque corrélées dans le temps ou l’espace. Ex: mesures des éléments nutritifs en amont et en aval d’une source ponctuelle de pollution sur un cours d’eau. Site amont Site aval Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Pourquoi insister sur l’indépendance? Si les observations ne sont pas indépendantes, on surestime le nombre de degrés de … … la conversion de la statistique en valeur de p sera biaisée … … et on sousestimera p. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Procédure générale si N >20 pour chaque échantillon tester la normalité tester l’homoscedasticité si les deux échantillons sont distribués normalement et que les variances sont égales, utiliser le test de t (“variance commune”) si les deux échantillons sont distribués normalement mais que les variances sont inégales, utiliser le test approximatif de Welch (“variance séparées”) si un ou les deux échantillons ne sont pas distribués normalement, essayer de transformer les données ou utiliser le test de U de Mann-Whitney. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Procédures générales N<10 pour chaque groupe Utiliser le test de U de Mann-Whitney 10<N<20 pour chaque groupe utiliser 2 tests: test de t (variance commune ou variances séparées) et test de U Mann-Whitney … et espérer que l’inférence est la même! Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Sortie d’un test de t fait avec SYSTAT: Comparaison de la taille moyenne des esturgeons de la rivière Saskatchewan Sortie d’un test de t fait avec SYSTAT: Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Sortie d’un test de Mann-Whitney (SYSTAT) Comparaison de la taille moyenne des esturgeons de la rivière Saskatchewan Sortie d’un test de Mann-Whitney (SYSTAT) Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Vérification de la normalité Faire un graphique des probabilités normales si, à l’oeil, c’est linéaire, ça va si on est pas certain, faire le test de Lilliefors Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
La distribution cumulative normale 0.2 0.4 0.6 0.8 1.0 -3s -2s -s m s 2s 3s 2.28% 50.00% 68.27% F Distribution normale Didtribution cumulative normale L’aire sous les courbes des fonctions de densité des probabilités normales et distribution cumulative normale Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Valeurs Z Transformation des pourcentages cumulés en valeurs Z -1.64 -0.52 0.52 1.64 -1.28 0 1.28 0.05 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.95 1.00 Normal equivalent deviates Cumulative percent Transformation des pourcentages cumulés en valeurs Z Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Courbes des probabilités normales NED 3.72 -3.72 A B C D E F Exemples de distributions de fréquences et leurs distributions cumulées A: Normale; B: mélange égal des deux distributions normales; C: Étirée vers la gauche; D: Étirée vers la droitet; E: Platykurtique; F: Leptokurtique. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Exemple: Taille des esturgeons des sites The Pas et Cumberland Diagrammes de probabilités normales pour les longueurs à la fourche à The Pas et Cumberland sont: Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Exemple: Taille des esturgeons (suite) Sortie SYSTAT d’un test Lilliefors: normalité des longueurs à The Pas KOLMOGOROV-SMIRNOV ONE SAMPLE TEST USING STANDARD NORMAL VARIABLE N-OF-CASES MAXDIF LILLIEFORS PROBABILITY (2-TAIL) FKLNGTH 101.00000 0.07814 0.12662 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Égalité des variances (homoscédasticité): le test de F Si les variances sont égales, alors s2C = s2T H0 (ratio F): Ce test est très sensible à une déviation de la normalité Rendement Fréquence Témoin Traitement s2C s2T Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Égalité des variances (homoscédasticité), utilisation du test de Levene Si les variances sont égales, alors: s2C = s2T H0 (Levene): Ce test est plus robuste à une déviation de la normalité Rendement Fréquence Témoin Traitement s2C s2T Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Comparaison de médianes: le test des médianes Témoin Calculer la médiane M pour les deux échantillons Classer chaque observation (plus grande ou plus petite que M) afin de créer un tableau 2X2 Faire un C2 ou un test de G, pour tester l’indépendance Traitement Fréquence M Rendement Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Tests sur des échantillons appariés Utilisés quand il y a corrélation entre les observations des deux échantillons. Par exemple, le poids de rats avant et après un traitement H0 (unilatéral): utiliser un test de t pour échantillons appariés Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Test de t pour échantillons appariés vs test de t pour échantillons indépendants En présence de corrélation, un test de t pour échantillons appariés est beaucoup plus puissant. L’erreur-type des différences moyennes entre les paires est habituellement plus petite que l’erreur-type de la différence entre les deux moyennes S’il n’y a pas de corrélation, un test de t pour échantillons appariés est moins puissant (N représente le nombre de paires et non le nombre d’observations). S2b = 8.67, S2a= 21.58, S2DW = 2.81 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Test de t pour échantillons appariés vs test de t pour échantillons indépendants: effet de l’âge sur la largeur du visage Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Puissance: calcul de l’effectif requis Éch. 1 Éch. 2 Fréquence À partir de a, b, d ’un estimé de la variance commune sp2 et de la différence d qu’on veut détecter, on peut calculer nmin, l’effectif minimal requis Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Puissance: calcul de la différence minimale détectable Fréquence Éch. 1 Éch. 2 À partir de a, b, d’un estimé de la variance commune sp2 et de l’effectif n, on peut calculer dmin, la différence minimale détectable Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Puissance: calcul de la puissance d’un test (a priori) Éch. 1 Éch. 2 Fréquence À partir de a, d, n, et d’un estimé de la variance commune sp2 on peut calculer t b(1)n et utiliser la distribution de t pour trouver (1-b), la puissance du test. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Puissance: calcul de la puissance d’un test (a posteriori) Éch. 1 Éch. 2 Fréquence Si on accepte H0, on peut estimer la puissance du test. À partir de a, d=d, n, et d’un estimé de la variance commune sp2 on peut calculer le f de la distribution de F non centrale. Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Calcul de la puissance à partir de f n2 décroissant Pour un test de t, n1=1 ,n2= 2(n-1). À partir de a et f, on peut trouver 1-b dans tableaux ou graphiques (voir Zar (1996), Appendix Figure B.1) n1 = 1 1-b a = .05 a = .01 f(a = .01) f(a = .05) 2 3 4 5 1 1.5 2 2.5 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Exemple: Puissance d’une comparaison de 2 moyennes Quelle est la probabilité de détecter une différence de 1.01 si a(2)=.05? … et ... Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Calcul de la puissance à partir de f n2 décroissant Si a =.01 et f =2.21, 1-b = 0.78 dans la figure Donc, la probabilité d’une erreur de type II est environ 0.22 n1 = 1 1-b a = .05 a = .01 f(a = .01) f(a = .05) 2 3 4 5 1 1.5 2 2.5 Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05
Quizz Dans quelles conditions utiliseriez vous un test de t pour échantillons appariés au lieu d’un test de t pour échantillons indépendants? Dans quelles conditions utiliseriez vous un test de t à variances séparées vs à variance commune? Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2017-04-01 07:05