Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap et permutations
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Exemple: Incertitude sur la moyenne Les poissons dans l’aquarium du Saint-Laurent Marin ont une taille moyenne de 42cm (5-218cm) La seine est-elle sélective? Échantillon (n = 5) 23, 28, 30, 50, 61
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Statistiques descriptives x Min: st Qu.: Mean: Median: rd Qu.: Max: Total N: NA's : Std Dev.: SE Mean:
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Le bootstrap n observations x 1, x 2, …, x n. Créer m échantillons de p n observations, échantillonnage avec remplacement. Pour chaque échantillon, calculer la valeur des paramètres désirés Échantillon complet (n observations) Échantillon 1, p observations Échantillon 2, p observations
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Exemple: Incertitude sur la moyenne Échantillon original (n = 5) 23, 28, 30, 50, 61 Échantillons Bootstrap (B = 5000) , 50, 30, 23, 23 30, 50, 50, 61, 28 61, 23, 30, 23, , 50, 30, 61, 30
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Incertitude sur la moyenne Échantillon original (n = 5) 23, 28, 30, 50, 61 Échantillons Bootstrap (B = 5000) , 50, 30, 23, 23 30, 50, 50, 61, 28 61, 23, 30, 23, , 50, 30, 61, 30 = 38.4
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap sur la moyenne avec S-Plus Statistics-Resample-Bootstrap Model-Expression: mean(x)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Number of Replications: 5000 Summary Statistics: Observed Bias Mean SE Param Empirical Percentiles: 2.5% 5% 95% 97.5% Param BCa Percentiles: 2.5% 5% 95% 97.5% Param SE Mean:
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Critique: Données inventées? Certains on l’impression que le bootstrap « invente » des données et gonfle artificiellement l’effectif de l’échantillon Non. Estimé des paramètres n’est pas amélioré. Données originales sont utilisées pour estimer la variabilité des paramètres –Utilise un ré-échantillonnage des données plutôt qu’une formule pour estimer erreur-type.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap: biais des erreurs-types En moyenne, l’écart-type des estimés bootstrap d’un paramètre sous-estime l’erreur-type du paramètre Biais proportionnels à sqrt((n-1)/n) Solution: multiplier erreur-type par sqrt(n/(n-1))
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay : CONSTANT Count Proportion per Bar Exemple: bootstrap de la régression pente ( ) de la régression de la richesse spécifique des plantes( log 10 S) vs taille des marais (log 10 A). Estimer , pour m = 500 échantillons de n = 50. Calculer moyen et ET à partir des estimés bootstrap. Count PLANT SPECIES Proportion per bar
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Commentaires Généralement, p = n, l’effectif de l’échantillon original. Estimés bruts sont souvent pas très bons lorsque les distributions sous jascentes sont très asymétriques. Souvent rassurant de comparer conclusions des test paramétriques et du bootstrap. Si il y a divergence, les résultats du bootstrap (ou de la permutation) sont généralement plus exacts.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 How to bootstrap with S-Plus Data on biomass of Simuliidae and Hydropsychidae in Southern Québec streams with velocity, depth, rock area, distance from upstream lake.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Example S-Plus commands attach(simuliidae.2) boot.coef <-bootstrap(simuliidae.2, +coef(lm(bsim~v+z+distance+cs+a+bhydae)), +B=1000, seed=0, trace=F) boot.coef summary(boot.coef) plot(boot.coef)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 attach(simuliidae.2) Pre-load a data set so that variables contained in the data set can be used in formula without the prefix
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 boot.coef <-bootstrap(simuliidae.2, +coef(lm(bsim~v+z+distance+cs+a+bhydae)), +B=1000, seed=0, trace=F) Bootstraps data in simuliidae.2, computes coefficients of the model bsim~v+z+distance+cs+a+bhydae Does 1000 runs (B=1000) Do not show output on screen (Trace=F) Save results in object boot.coef Takes about 30s on my relatively fast computer.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 boot.coef Displays general info about results stored in boot.coef Call: bootstrap(data = simuliidae.2, statistic = coef(lm(bsim ~ v + z + distance + cs + a + bhydae)), B = 1000, seed = 0, trace = F) Number of Replications: 1000 Summary Statistics: Observed Bias Mean SE (Intercept) v z distance cs a bhydae
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 summary(boot.coef) Displays summary stats about stored results Empirical Percentiles: 2.5% 5% 95% 97.5% (Intercept) v z distance cs a bhydae BCa Confidence Limits: 2.5% 5% 95% 97.5% (Intercept) e v e z e distance e cs e a e bhydae e
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 plot(boot.coef)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Le bootstrap: une panacée? Très prometteur, un peu difficile encore à appliquer automatiquement Augmente le temps de calcul par un facteur de 1000 à 10,000 Échantillon DOIT être représentatif
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Tests par permutations Si l’hypothèse nulle est vraie, alors toutes les permutations de résultats sont aussi probables Si on réordonne les données aléatoirement et recalcule s, on peut estimer la distribution de s selon H 0. On compare ensuite S à la distribution obtenue par permutation. P est calculé à partir de la proportion p de s qui est aussi extrême que S.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Un exemple simple Données de longueur sur 10 mâles et 10 femelles. Étape 1: calculer la taille moyenne des mâles et des femelles, et la différence (D*) entre les moyennes. Étape 2: Combiner les 20 valeurs, prélever 10 valeurs au hasard et les appeler “femelles”. Le reste est appelé “mâles”. Calculer la différence entre les deux moyennes. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Exemple (suite) Étape 3. Répéter Étape = 1024 fois (correspondant à toutes les combinaisons possibles (permutations)) pour obtenir la distribution de D. Étape 4. Calculer la proportion des permutations ou D > D* (p =.0018) fois Fréquence D “Femelles” “Mâles” “Males”
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Sous-échantillonnage des permutations possibles. Énumération complète des permutations n’est pas possible pour gros échantillons … …alors on “échantillonne” un sous ensemble au hasard par bootstrap … …ce qui (en général) affecte peu l’exactitude.. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm. N bootstrap Fréquence D
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Applications du bootstrap et des tests par permutations Applicables à presque toutes les analyses statistiques univariées (ANOVA, Régression simple et multiple, ANCOVA) et multvariées (MANOVA, Composantes principales, Analyse discriminante, etc.) À considérer lorsque les conditions d’application des tests standards ne sont pas remplies. Lorsque les conditions des tests standards sont remplies, les test par permutation donnent environ les mêmes niveaux de signification.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Avantages et désavantages Valides quand conditions standards ne sont pas rencontrées Peuvent être adaptés à des situations particulières et utiliser des statistiques non- standard. Résultats sont exacts. Généralisation de la conclusion à la population pourrait ne pas être valide parce que les résultats ne s’appliquent qu’à l’échantillon. Logiciels spécialisés et expertise de programmation souvent requis. Avantages Désavantages
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Références Hesterberg et al. Bootstrap Methods and Permutation Tests (2003, W. H. Freeman) B. Efron and R. Tibshirani An Introduction to the Bootstrap (1993, Chapman & Hall). A.C. Davison and D.V. Hinkley, Bootstrap Methods and Their Application (Cambridge University Press, 1997).