Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap et permutations.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap et permutations

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Exemple: Incertitude sur la moyenne Les poissons dans l’aquarium du Saint-Laurent Marin ont une taille moyenne de 42cm (5-218cm) La seine est-elle sélective? Échantillon (n = 5) 23, 28, 30, 50, 61

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Statistiques descriptives x Min: 23.00000 1st Qu.: 28.00000 Mean: 38.40000 Median: 30.00000 3rd Qu.: 50.00000 Max: 61.00000 Total N: 5.00000 NA's : 0.00000 Std Dev.: 16.28803 SE Mean: 7.28423

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Le bootstrap n observations x 1, x 2, …, x n. Créer m échantillons de p  n observations, échantillonnage avec remplacement. Pour chaque échantillon, calculer la valeur des paramètres désirés Échantillon complet (n observations) Échantillon 1, p observations Échantillon 2, p observations

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Exemple: Incertitude sur la moyenne Échantillon original (n = 5) 23, 28, 30, 50, 61 Échantillons Bootstrap (B = 5000) 1 2 3. 5000 28, 50, 30, 23, 23 30, 50, 50, 61, 28 61, 23, 30, 23, 28.. 28, 50, 30, 61, 30

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Incertitude sur la moyenne Échantillon original (n = 5) 23, 28, 30, 50, 61 Échantillons Bootstrap (B = 5000) 1 2 3. 5000 28, 50, 30, 23, 23 30, 50, 50, 61, 28 61, 23, 30, 23, 28. 28, 50, 30, 61, 30 = 38.4

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap sur la moyenne avec S-Plus Statistics-Resample-Bootstrap Model-Expression: mean(x)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Number of Replications: 5000 Summary Statistics: Observed Bias Mean SE Param 38.4 -0.1654 38.23 6.51 Empirical Percentiles: 2.5% 5% 95% 97.5% Param 26.4 27.4 49 51.2 BCa Percentiles: 2.5% 5% 95% 97.5% Param 26.8 27.8 50.4 52.2 SE Mean: 7.28423

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Critique: Données inventées? Certains on l’impression que le bootstrap « invente » des données et gonfle artificiellement l’effectif de l’échantillon Non. Estimé des paramètres n’est pas amélioré. Données originales sont utilisées pour estimer la variabilité des paramètres –Utilise un ré-échantillonnage des données plutôt qu’une formule pour estimer erreur-type.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap: biais des erreurs-types En moyenne, l’écart-type des estimés bootstrap d’un paramètre sous-estime l’erreur-type du paramètre Biais proportionnels à sqrt((n-1)/n) Solution: multiplier erreur-type par sqrt(n/(n-1))

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 0.170.180.190.200.210.220.23 CONSTANT 0 10 20 30 40 50 60 70 80 90 100 Count 0.0 0.1 0.2 Proportion per Bar Exemple: bootstrap de la régression pente (  ) de la régression de la richesse spécifique des plantes( log 10 S) vs taille des marais (log 10 A). Estimer , pour m = 500 échantillons de n = 50. Calculer  moyen et ET à partir des estimés bootstrap. Count PLANT SPECIES Proportion per bar

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Commentaires Généralement, p = n, l’effectif de l’échantillon original. Estimés bruts sont souvent pas très bons lorsque les distributions sous jascentes sont très asymétriques. Souvent rassurant de comparer conclusions des test paramétriques et du bootstrap. Si il y a divergence, les résultats du bootstrap (ou de la permutation) sont généralement plus exacts.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 How to bootstrap with S-Plus Data on biomass of Simuliidae and Hydropsychidae in Southern Québec streams with velocity, depth, rock area, distance from upstream lake.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Example S-Plus commands attach(simuliidae.2) boot.coef <-bootstrap(simuliidae.2, +coef(lm(bsim~v+z+distance+cs+a+bhydae)), +B=1000, seed=0, trace=F) boot.coef summary(boot.coef) plot(boot.coef)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 attach(simuliidae.2) Pre-load a data set so that variables contained in the data set can be used in formula without the prefix

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 boot.coef <-bootstrap(simuliidae.2, +coef(lm(bsim~v+z+distance+cs+a+bhydae)), +B=1000, seed=0, trace=F) Bootstraps data in simuliidae.2, computes coefficients of the model bsim~v+z+distance+cs+a+bhydae Does 1000 runs (B=1000) Do not show output on screen (Trace=F) Save results in object boot.coef Takes about 30s on my relatively fast computer.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 boot.coef Displays general info about results stored in boot.coef Call: bootstrap(data = simuliidae.2, statistic = coef(lm(bsim ~ v + z + distance + cs + a + bhydae)), B = 1000, seed = 0, trace = F) Number of Replications: 1000 Summary Statistics: Observed Bias Mean SE (Intercept) 1286.0921 -11.81883 1274.2733 1030.0889 v 12.9293 1.47244 14.4017 8.6100 z -21.1681 -0.37184 -21.5399 15.0382 distance -0.3414 -0.08628 -0.4277 0.3639 cs 1593.8676 -266.76905 1327.0985 991.8828 a -12.0341 0.13088 -11.9032 7.1988 bhydae 2.2011 -0.04142 2.1596 1.1954

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 summary(boot.coef) Displays summary stats about stored results Empirical Percentiles: 2.5% 5% 95% 97.5% (Intercept) -673.6972 -364.8509 3014.47002 3351.15131 v 0.6127 2.1767 29.39770 34.19882 z -52.5363 -46.8128 1.79636 5.79851 distance -1.3285 -1.0104 -0.01941 0.02848 cs -965.4570 -533.9443 2613.58281 2803.40006 a -26.7147 -24.2897 -1.13750 0.88042 bhydae 0.2071 0.5157 3.44577 3.78338 BCa Confidence Limits: 2.5% 5% 95% 97.5% (Intercept) -549.5441 -244.7880 3.135e+003 3453.05689 v 0.9249 2.4455 2.995e+001 35.39557 z -56.2970 -49.9729 -3.548e-001 3.94172 distance -1.1765 -0.8783 6.617e-003 0.04704 cs -489.0288 -40.4751 2.806e+003 2982.26977 a -27.1140 -24.9182 -1.663e+000 0.47114 bhydae 0.2804 0.7097 3.580e+000 4.00391

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 plot(boot.coef)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Le bootstrap: une panacée? Très prometteur, un peu difficile encore à appliquer automatiquement Augmente le temps de calcul par un facteur de 1000 à 10,000 Échantillon DOIT être représentatif

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Tests par permutations Si l’hypothèse nulle est vraie, alors toutes les permutations de résultats sont aussi probables Si on réordonne les données aléatoirement et recalcule s, on peut estimer la distribution de s selon H 0. On compare ensuite S à la distribution obtenue par permutation. P est calculé à partir de la proportion p de s qui est aussi extrême que S.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Un exemple simple Données de longueur sur 10 mâles et 10 femelles. Étape 1: calculer la taille moyenne des mâles et des femelles, et la différence (D*) entre les moyennes. Étape 2: Combiner les 20 valeurs, prélever 10 valeurs au hasard et les appeler “femelles”. Le reste est appelé “mâles”. Calculer la différence entre les deux moyennes. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Exemple (suite) Étape 3. Répéter Étape 2 2 10 = 1024 fois (correspondant à toutes les combinaisons possibles (permutations)) pour obtenir la distribution de D. Étape 4. Calculer la proportion des permutations ou D > D* (p =.0018). 1024 fois Fréquence D “Femelles” “Mâles” “Males”

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Sous-échantillonnage des permutations possibles. Énumération complète des permutations n’est pas possible pour gros échantillons … …alors on “échantillonne” un sous ensemble au hasard par bootstrap … …ce qui (en général) affecte peu l’exactitude.. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm. N bootstrap Fréquence D

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Applications du bootstrap et des tests par permutations Applicables à presque toutes les analyses statistiques univariées (ANOVA, Régression simple et multiple, ANCOVA) et multvariées (MANOVA, Composantes principales, Analyse discriminante, etc.) À considérer lorsque les conditions d’application des tests standards ne sont pas remplies. Lorsque les conditions des tests standards sont remplies, les test par permutation donnent environ les mêmes niveaux de signification.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Avantages et désavantages Valides quand conditions standards ne sont pas rencontrées Peuvent être adaptés à des situations particulières et utiliser des statistiques non- standard. Résultats sont exacts. Généralisation de la conclusion à la population pourrait ne pas être valide parce que les résultats ne s’appliquent qu’à l’échantillon. Logiciels spécialisés et expertise de programmation souvent requis. Avantages Désavantages

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Références Hesterberg et al. Bootstrap Methods and Permutation Tests (2003, W. H. Freeman) B. Efron and R. Tibshirani An Introduction to the Bootstrap (1993, Chapman & Hall). A.C. Davison and D.V. Hinkley, Bootstrap Methods and Their Application (Cambridge University Press, 1997).

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap et permutations.

Présentations similaires

Présentation au sujet: "Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap et permutations."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap et permutations.

Présentations similaires

Présentation au sujet: "Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap et permutations."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back