University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Le bootstrap n observations x 1, x 2, …, x n. Créer m échantillons de p n observations, échantillonnage avec remplacement. Pour chaque échantillon, calculer la valeur des paramètres désirés Échantillon complet (n observations) Échantillon 1, p observations Échantillon 2, p observations
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM CONSTANT Count Proportion per Bar Exemple: bootstrap de la régression pente ( ) de la régression de la richesse spécifique des plantes( log 10 S) vs taille des marais (log 10 A). Estimer , pour m = 500 échantillons de n = 50. Calculer moyen et ET à partir des estimés bootstrap. Count PLANT SPECIES Proportion per bar
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Commentaires Généralement, p = n, l’effectif de l’échantillon original. Estimés bruts sont souvent pas très bons lorsque les distributions sous jascentes sont très asymétriques. Souvent rassurant de comparer conclusions des test paramétriques et du bootstrap. Si il y a divergence, les résultats du bootstrap (ou de la permutation) sont généralement plus exacts.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Tests par permutations Si l’hypothèse nulle est vraie, alors toutes les permutations de résultats sont aussi probables Si on réordonne les données aléatoirement et recalcule s, on peut estimer la distribution de s selon H 0. On compare ensuite S à la distribution obtenue par permutation. P est calculé à partir de la proportion p de s qui est aussi extrême que S.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Un exemple simple Données de longueur sur 10 mâles et 10 femelles. Étape 1: calculer la taille moyenne des mâles et des femelles, et la différence (D*) entre les moyennes. Étape 2: Combiner les 20 valeurs, prélever 10 valeurs au hasard et les appeler “femelles”. Le reste est appelé “mâles”. Calculer la différence entre les deux moyennes. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Exemple (suite) Étape 3. Répéter Étape = 1024 fois (correspondant à toutes les combinaisons possibles (permutations)) pour obtenir la distribution de D. Étape 4. Calculer la proportion des permutations ou D > D* (p =.0018) fois Fréquence D “Femelles” “Mâles” “Males”
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Sous-échantillonnage des permutations possibles. Énumération complète des permutations n’est pas possible pour gros échantillons … …alors on “échantillonne” un sous ensemble au hasard par bootstrap … …ce qui (en général) affecte peu l’exactitude.. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm. N bootstrap Fréquence D
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Applications du bootstrap et des tests par permutations Applicables à presque toutes les analyses statistiques univariées (ANOVA, Régression simple et multiple, ANCOVA) et multvariées (MANOVA, Composantes principales, Analyse discriminante, etc.) À considérer lorsque les conditions d’application des tests standards ne sont pas remplies. Lorsque les conditions des tests standards sont remplies, les test par permutation donnent environ les mêmes niveaux de signification.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Avantages et désavantages Valides quand conditions standards ne sont pas rencontrées Peuvent être adaptés à des situations particulières et utiliser des statistiques non- standard. Résultats sont exacts. Généralisation de la conclusion à la population pourrait ne pas être valide parce que les résultats ne s’appliquent qu’à l’échantillon. Logiciels spécialisés et expertise de programmation souvent requis. Avantages Désavantages