University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Fondements La plupart des hypothèses biologiques prédisent des tendances particulières dans les observations Dans ce cas, l’hypothèse nulle statistique spécifie l’absence de tendance (i.e. valeurs aléatoires) Épreuves d’hypothèses statistiques permettent d’Estimer la probabilité que la tendance observée est simplement dûe au hasard.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Fondements (suite) Dans les épreuves statistiques standards, on choisit une statistique S ayant la valeur s pour l’échantillon Cette valeur s est comparée à la distribution de S dans le cas où l’hypothèse nulle est vraie (il n’y a pas de tendance) pour estimer p Probabilité t = 2.01 Distribution de t selon H 0.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM La distribution de S selon H 0 La distribution de S selon H 0 dépend de plusieurs conditions qui peuvent ne pas être remplies dans l’échantillon Ex. Pour le test de t, (1) échantillon aléatoire; (2) variance intra-groupes égales; (3) distribution normale de X dans chaque groupe. Si les conditions ne sont pas remplies, la distribution de S selon H 0 peut différer de la distribution théorique… …et p sera incorrect Probabilité t = 2.01 Distribution de t selon H 0.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Le bootstrap n observations x 1, x 2, …, x n. Créer m échantillons de p n observations, échantillonnage avec remplacement. Pour chaque échantillon, calculer la valeur des paramètres désirés Échantillon complet (n observations) Échantillon 1, p observations Échantillon 2, p observations
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM CONSTANT Count Proportion per Bar Exemple: bootstrap de la régression pente ( ) de la régression de la richesse spécifique des plantes( log 10 S) vs taille des marais (log 10 A). Estimer , pour m = 500 échantillons de n = 50. Calculer moyen et ET à partir des estimés bootstrap. Count PLANT SPECIES Proportion per bar
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Commentaires Généralement, p = n, l’effectif de l’échantillon original. Estimés bruts sont soucvent pas très bon lorsque les distributions sous jascentes sont très asymétriques”. Souvent rassurant de comparer conclusions des test paramétriques et du bootstrap. Si il y a divergence, les résultats du bootstrap (ou de la permutation) sont généralement plus exacts..
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Tests par permutations Si l’hypothèse nulle est vraie, alors toutes les permutations de résultats sont aussi probables Si on réordonne les données aléatoirement et recalcule s, on peut estimer la distribution de s selon H 0. On compare ensuite S à la distribution obtenue par permutation. P est calculé à partir de la proportion p de s qui est aussi extrême que S.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM A simple example Data consists of set of mandible lengths of 10 female and 10 male golden jackals. Biological prediction: males are larger than females. H 0 : females males Step 1: calculate average values for males and females, and the difference (D*) between them. Step 2: Put 20 values together, and choose 10 at random. Call these females; the other 10 are males. Calculate difference in average lengths. FemalesMales “Females”“Males” D* = 4.8 mm.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM A simple example (cont’d) Step 3. Repeat step 2 10 = 1024 times (corresponding to all possible data combinations (permutations)) to generate randomized distribution of D. Step 4. Calculate the proportion of randomizations for which D > D* (p =.0018) times Frequency (no. of randomizations) D “Females” “Males”
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Sampling the randomized distribution versus complete enumeration When the number of possible permutations is small, complete enumeration is possible… …but more usually, the randomization distribution is resampled using the bootstrap… …with (usually) little loss in accuracy. FemalesMales “Females”“Males” D* = 4.8 mm. N bootstrap samples Frequency (no. of randomizations ) D
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Application of randomization methods Randomization methods can be applied in many statistical procedures, both univariate (e.g. ANOVA, simple and multiple regresssion, ANCOVA) and multivariate (e.g. MANOVA, PCA, discriminant function analysis, etc.) Randomization tests should be considered in “non-standard” situations or when the assumptions underlying standard assumptions are unlikely to be met. When assumptions of standard tests are met, randomization tests usually give similar significance levels.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Randomization tests: advantages and disadvantages They are valid even when the sample is non- random It is fairly easy to take into account specifics of the situation of interest and use non-standard test statistics. results are exact Generalizations from the conclusion of a randomization test to a population of interest may not be valid because the results pertain only to the sample at hand. Special software or programming expertise is often required. Advantages Disadvantages