Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 00:18 Bootstrap et permutations.

Slides:



Advertisements
Présentations similaires
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Advertisements

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Echantillonnage Introduction
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Vérification des données
Régression linéaire simple
Groupe 1: Classes de même intervalle
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
L’Analyse de Covariance
Modeles non-lineaires
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Analyse de variance à un critère de classification (ANOVA)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
ANOVA à critères multiples
Le forage de données ou data mining
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Théorème de la limite centrale l’inférence statistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Test d'hypothèse pour des proportions:
Lien entre deux variables
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
Intervalles de confiance pour des proportions L’inférence statistique
Probabilités et Statistiques Année 2010/2011
Régression linéaire simple
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Un exemple de régression poissoniènne
TNS et Analyse Spectrale
On souhaite analyser les concentrations de mercure (ppm) dans les chaires de poissons carnivores des lacs de l'est de Etats- Unis. On espère trouver une.
Concepts fondamentaux: statistiques et distributions
BIO 4518: Biostatistiques appliquées Les 11 et 18 octobre 2005 Laboratoire 4 et 5 ANOVA à critères multiples.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
Tests d’ajustement à une distribution théorique
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :51 1 Messages 1er décembre: date limite pour.
L’erreur standard et les principes fondamentaux du test de t
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :44 1 Epistémologie, méthode scientifique et.
GRANDEURS ET MISÈRES DE LA MÉTA-ANALYSE Jimmy Bourque, CRDE.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 1.
Révision des concepts fondamentaux
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Régression logistique.
Quelques commentaires sur les tests statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15 1 GLM Exemples.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :37 1 Régression linéaire simple et corrélation.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Devoir 3 (aa) on vous demande de déterminer.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Régression multiple Quand et pourquoi on.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
E CONOMÉTRIE A PPLIQUÉE AVEC R (P ART 03) R. Aloui 2015/2016 Disponible sur
Distributions d’échantillonnage pour des proportions
Introduction aux statistiques Intervalles de confiance
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap et permutations

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Exemple: Incertitude sur la moyenne Les poissons dans l’aquarium du Saint-Laurent Marin ont une taille moyenne de 42cm (5-218cm) La seine est-elle sélective? Échantillon (n = 5) 23, 28, 30, 50, 61

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Statistiques descriptives x Min: st Qu.: Mean: Median: rd Qu.: Max: Total N: NA's : Std Dev.: SE Mean:

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Le bootstrap n observations x 1, x 2, …, x n. Créer m échantillons de p  n observations, échantillonnage avec remplacement. Pour chaque échantillon, calculer la valeur des paramètres désirés Échantillon complet (n observations) Échantillon 1, p observations Échantillon 2, p observations

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Exemple: Incertitude sur la moyenne Échantillon original (n = 5) 23, 28, 30, 50, 61 Échantillons Bootstrap (B = 5000) , 50, 30, 23, 23 30, 50, 50, 61, 28 61, 23, 30, 23, , 50, 30, 61, 30

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Incertitude sur la moyenne Échantillon original (n = 5) 23, 28, 30, 50, 61 Échantillons Bootstrap (B = 5000) , 50, 30, 23, 23 30, 50, 50, 61, 28 61, 23, 30, 23, , 50, 30, 61, 30 = 38.4

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap sur la moyenne avec S-Plus Statistics-Resample-Bootstrap Model-Expression: mean(x)

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Number of Replications: 5000 Summary Statistics: Observed Bias Mean SE Param Empirical Percentiles: 2.5% 5% 95% 97.5% Param BCa Percentiles: 2.5% 5% 95% 97.5% Param SE Mean:

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Critique: Données inventées? Certains on l’impression que le bootstrap « invente » des données et gonfle artificiellement l’effectif de l’échantillon Non. Estimé des paramètres n’est pas amélioré. Données originales sont utilisées pour estimer la variabilité des paramètres –Utilise un ré-échantillonnage des données plutôt qu’une formule pour estimer erreur-type.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap: biais des erreurs-types En moyenne, l’écart-type des estimés bootstrap d’un paramètre sous-estime l’erreur-type du paramètre Biais proportionnels à sqrt((n-1)/n) Solution: multiplier erreur-type par sqrt(n/(n-1))

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay : CONSTANT Count Proportion per Bar Exemple: bootstrap de la régression pente (  ) de la régression de la richesse spécifique des plantes( log 10 S) vs taille des marais (log 10 A). Estimer , pour m = 500 échantillons de n = 50. Calculer  moyen et ET à partir des estimés bootstrap. Count PLANT SPECIES Proportion per bar

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Commentaires Généralement, p = n, l’effectif de l’échantillon original. Estimés bruts sont souvent pas très bons lorsque les distributions sous jascentes sont très asymétriques. Souvent rassurant de comparer conclusions des test paramétriques et du bootstrap. Si il y a divergence, les résultats du bootstrap (ou de la permutation) sont généralement plus exacts.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 How to bootstrap with S-Plus Data on biomass of Simuliidae and Hydropsychidae in Southern Québec streams with velocity, depth, rock area, distance from upstream lake.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Example S-Plus commands attach(simuliidae.2) boot.coef <-bootstrap(simuliidae.2, +coef(lm(bsim~v+z+distance+cs+a+bhydae)), +B=1000, seed=0, trace=F) boot.coef summary(boot.coef) plot(boot.coef)

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 attach(simuliidae.2) Pre-load a data set so that variables contained in the data set can be used in formula without the prefix

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 boot.coef <-bootstrap(simuliidae.2, +coef(lm(bsim~v+z+distance+cs+a+bhydae)), +B=1000, seed=0, trace=F) Bootstraps data in simuliidae.2, computes coefficients of the model bsim~v+z+distance+cs+a+bhydae Does 1000 runs (B=1000) Do not show output on screen (Trace=F) Save results in object boot.coef Takes about 30s on my relatively fast computer.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 boot.coef Displays general info about results stored in boot.coef Call: bootstrap(data = simuliidae.2, statistic = coef(lm(bsim ~ v + z + distance + cs + a + bhydae)), B = 1000, seed = 0, trace = F) Number of Replications: 1000 Summary Statistics: Observed Bias Mean SE (Intercept) v z distance cs a bhydae

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 summary(boot.coef) Displays summary stats about stored results Empirical Percentiles: 2.5% 5% 95% 97.5% (Intercept) v z distance cs a bhydae BCa Confidence Limits: 2.5% 5% 95% 97.5% (Intercept) e v e z e distance e cs e a e bhydae e

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 plot(boot.coef)

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Le bootstrap: une panacée? Très prometteur, un peu difficile encore à appliquer automatiquement Augmente le temps de calcul par un facteur de 1000 à 10,000 Échantillon DOIT être représentatif

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Tests par permutations Si l’hypothèse nulle est vraie, alors toutes les permutations de résultats sont aussi probables Si on réordonne les données aléatoirement et recalcule s, on peut estimer la distribution de s selon H 0. On compare ensuite S à la distribution obtenue par permutation. P est calculé à partir de la proportion p de s qui est aussi extrême que S.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Un exemple simple Données de longueur sur 10 mâles et 10 femelles. Étape 1: calculer la taille moyenne des mâles et des femelles, et la différence (D*) entre les moyennes. Étape 2: Combiner les 20 valeurs, prélever 10 valeurs au hasard et les appeler “femelles”. Le reste est appelé “mâles”. Calculer la différence entre les deux moyennes. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Exemple (suite) Étape 3. Répéter Étape = 1024 fois (correspondant à toutes les combinaisons possibles (permutations)) pour obtenir la distribution de D. Étape 4. Calculer la proportion des permutations ou D > D* (p =.0018) fois Fréquence D “Femelles” “Mâles” “Males”

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Sous-échantillonnage des permutations possibles. Énumération complète des permutations n’est pas possible pour gros échantillons … …alors on “échantillonne” un sous ensemble au hasard par bootstrap … …ce qui (en général) affecte peu l’exactitude.. FemellesMâles “Femelles”“Mâles” D* = 4.8 mm. N bootstrap Fréquence D

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Applications du bootstrap et des tests par permutations Applicables à presque toutes les analyses statistiques univariées (ANOVA, Régression simple et multiple, ANCOVA) et multvariées (MANOVA, Composantes principales, Analyse discriminante, etc.) À considérer lorsque les conditions d’application des tests standards ne sont pas remplies. Lorsque les conditions des tests standards sont remplies, les test par permutation donnent environ les mêmes niveaux de signification.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Avantages et désavantages Valides quand conditions standards ne sont pas rencontrées Peuvent être adaptés à des situations particulières et utiliser des statistiques non- standard. Résultats sont exacts. Généralisation de la conclusion à la population pourrait ne pas être valide parce que les résultats ne s’appliquent qu’à l’échantillon. Logiciels spécialisés et expertise de programmation souvent requis. Avantages Désavantages

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Références Hesterberg et al. Bootstrap Methods and Permutation Tests (2003, W. H. Freeman) B. Efron and R. Tibshirani An Introduction to the Bootstrap (1993, Chapman & Hall). A.C. Davison and D.V. Hinkley, Bootstrap Methods and Their Application (Cambridge University Press, 1997).