Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parQuentin Barbeau Modifié depuis plus de 9 années
1
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations
2
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Le bootstrap n observations x 1, x 2, …, x n. Créer m échantillons de p n observations, échantillonnage avec remplacement. Pour chaque échantillon, calculer la valeur des paramètres désirés Échantillon complet (n observations) Échantillon 1, p observations Échantillon 2, p observations
3
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM 0.170.180.190.200.210.220.23 CONSTANT 0 10 20 30 40 50 60 70 80 90 100 Count 0.0 0.1 0.2 Proportion per Bar Exemple: bootstrap de la régression pente ( ) de la régression de la richesse spécifique des plantes( log 10 S) vs taille des marais (log 10 A). Estimer , pour m = 500 échantillons de n = 50. Calculer moyen et ET à partir des estimés bootstrap. Count PLANT SPECIES Proportion per bar
4
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Commentaires Généralement, p = n, l’effectif de l’échantillon original. Estimés bruts sont souvent pas très bons lorsque les distributions sous jascentes sont très asymétriques. Souvent rassurant de comparer conclusions des test paramétriques et du bootstrap. Si il y a divergence, les résultats du bootstrap (ou de la permutation) sont généralement plus exacts.
5
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Tests par permutations Si l’hypothèse nulle est vraie, alors toutes les permutations de résultats sont aussi probables Si on réordonne les données aléatoirement et recalcule s, on peut estimer la distribution de s selon H 0. On compare ensuite S à la distribution obtenue par permutation. P est calculé à partir de la proportion p de s qui est aussi extrême que S.
6
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Un exemple simple Données de longueur sur 10 mâles et 10 femelles. Étape 1: calculer la taille moyenne des mâles et des femelles, et la différence (D*) entre les moyennes. Étape 2: Combiner les 20 valeurs, prélever 10 valeurs au hasard et les appeler “femelles”. Le reste est appelé “mâles”. Calculer la différence entre les deux moyennes. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm.
7
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Exemple (suite) Étape 3. Répéter Étape 2 2 10 = 1024 fois (correspondant à toutes les combinaisons possibles (permutations)) pour obtenir la distribution de D. Étape 4. Calculer la proportion des permutations ou D > D* (p =.0018). 1024 fois Fréquence D “Femelles” “Mâles” “Males”
8
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Sous-échantillonnage des permutations possibles. Énumération complète des permutations n’est pas possible pour gros échantillons … …alors on “échantillonne” un sous ensemble au hasard par bootstrap … …ce qui (en général) affecte peu l’exactitude.. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm. N bootstrap Fréquence D
9
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Applications du bootstrap et des tests par permutations Applicables à presque toutes les analyses statistiques univariées (ANOVA, Régression simple et multiple, ANCOVA) et multvariées (MANOVA, Composantes principales, Analyse discriminante, etc.) À considérer lorsque les conditions d’application des tests standards ne sont pas remplies. Lorsque les conditions des tests standards sont remplies, les test par permutation donnent environ les mêmes niveaux de signification.
10
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Avantages et désavantages Valides quand conditions standards ne sont pas rencontrées Peuvent être adaptés à des situations particulières et utiliser des statistiques non- standard. Résultats sont exacts. Généralisation de la conclusion à la population pourrait ne pas être valide parce que les résultats ne s’appliquent qu’à l’échantillon. Logiciels spécialisés et expertise de programmation souvent requis. Avantages Désavantages
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.