University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.

Slides:



Advertisements
Présentations similaires
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Advertisements

Echantillonnage Introduction
Séminaire LISC 29/06/01 Diffusion de l innovation Etudes sociologiques Modèles à seuil Réseaux sociaux Automates cellulaires, en réseaux.
Tests de comparaison de moyennes
How to solve biological problems with math Mars 2012.
Genotypic data: concepts and meanings
Régression linéaire simple
Échantillonnage de l'eau et des facteurs connexes pour mesurer les caractéristiques physiques, chimiques et microbiologiques de l'eau de surface et des.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Objectifs du chapitre sur les distributions déchantillonnage Comprendre la relation entre les distributions déchantillonnage et les tests dinférence statistique.
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
Méthodes de Biostatistique
Information Theory and Radar Waveform Design Mark R. bell September 1993 Sofia FENNI.
Théorème de la limite centrale l’inférence statistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Test d'hypothèse pour des proportions:
Le passé composé The perfect tense Eg: J’ai mangé une pizza I have eaten/ate a pizza.
Régression linéaire simple
Let’s go back to the verb endings. What are our 3 infinitive endings? ER IR RE What is an infinitive? An unconjugated verb In other words, a verb in the.
Concepts fondamentaux: statistiques et distributions
Les Questions d’Information (Information questions)
Gains from trade Principle # 5: Trades improve the well-being of all.
Anitha sivaganesh foyer 140
Questions to consider: How are French nouns different from nouns in English? What is the difference between saying, “I have a pen.” and saying, “I have.
Techniques de l’eau et calcul des réseaux le calcul hydrologique proprement dit Michel Verbanck 2012.
Modèles d’interaction et scénarios
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
Tests d’ajustement à une distribution théorique
L’erreur standard et les principes fondamentaux du test de t
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :44 1 Epistémologie, méthode scientifique et.
FINANCE Distribution des rentabilités Professeurr André Farber Solvay Business School Université Libre de Bruxelles.
Révision des concepts fondamentaux
Object pronouns How to say “him”, “her”, “it”, “them”
African Centre for Statistics United Nations Economic Commission for Africa Session : Etapes de mise en oeuvre du SCN 2008 Milestones for implementation.
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Analyse Technique : application "semi-linéaire"
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Régression logistique.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap et permutations.
Quelques commentaires sur les tests statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15 1 GLM Exemples.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Les analyses statistiques de données textuelles 7. Validation des résultats Ludovic Lebart CNRS - ENST.
WILF: TO BE ABLE TO GIVE AN OPINION FOR LEVEL 3
What’s the weather like?. Look at the verb phrase fait-il above Turn it around and you have il fait The phrase Il fait can be used to describe lots of.
Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.
Clique Percolation Method (CPM)
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Distributions d’échantillonnage pour des proportions
Calcul de puissance en IRMf Réunion 2 CNF 2015/2016.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Measures of Comparative Advantage. 2 Outline 1.Defining measures 2.Some tests and examples.
UNITÉ II: LEÇON 6 PARTIE B: LES MOIS ET LA DATE. LES MOIS DE L’ANNÉE janvier January.
1 Linear Prediction. 2 Linear Prediction (Introduction) : The object of linear prediction is to estimate the output sequence from a linear combination.
Put these phrases into 4 categories, and decide on a title for each category. There may be more than one possible answer! boire de l’eau manger des fruits.
Community Phylogenetics Hélène Morlon Amaury Lambert.
Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics.
Definition Division of labour (or specialisation) takes place when a worker specialises in producing a good or a part of a good.
WRITING A PROS AND CONS ESSAY. Instructions 1. Begin your essay by introducing your topic Explaining that you are exploring the advantages and disadvantages.
Transcription de la présentation:

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Fondements La plupart des hypothèses biologiques prédisent des tendances particulières dans les observations Dans ce cas, l’hypothèse nulle statistique spécifie l’absence de tendance (i.e. valeurs aléatoires) Épreuves d’hypothèses statistiques permettent d’Estimer la probabilité que la tendance observée est simplement dûe au hasard.

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Fondements (suite) Dans les épreuves statistiques standards, on choisit une statistique S ayant la valeur s pour l’échantillon Cette valeur s est comparée à la distribution de S dans le cas où l’hypothèse nulle est vraie (il n’y a pas de tendance) pour estimer p Probabilité t = 2.01 Distribution de t selon H 0.

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM La distribution de S selon H 0 La distribution de S selon H 0 dépend de plusieurs conditions qui peuvent ne pas être remplies dans l’échantillon Ex. Pour le test de t, (1) échantillon aléatoire; (2) variance intra-groupes égales; (3) distribution normale de X dans chaque groupe. Si les conditions ne sont pas remplies, la distribution de S selon H 0 peut différer de la distribution théorique… …et p sera incorrect Probabilité t = 2.01 Distribution de t selon H 0.

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Le bootstrap n observations x 1, x 2, …, x n. Créer m échantillons de p  n observations, échantillonnage avec remplacement. Pour chaque échantillon, calculer la valeur des paramètres désirés Échantillon complet (n observations) Échantillon 1, p observations Échantillon 2, p observations

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM CONSTANT Count Proportion per Bar Exemple: bootstrap de la régression pente (  ) de la régression de la richesse spécifique des plantes( log 10 S) vs taille des marais (log 10 A). Estimer , pour m = 500 échantillons de n = 50. Calculer  moyen et ET à partir des estimés bootstrap. Count PLANT SPECIES Proportion per bar

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Commentaires Généralement, p = n, l’effectif de l’échantillon original. Estimés bruts sont soucvent pas très bon lorsque les distributions sous jascentes sont très asymétriques”. Souvent rassurant de comparer conclusions des test paramétriques et du bootstrap. Si il y a divergence, les résultats du bootstrap (ou de la permutation) sont généralement plus exacts..

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Tests par permutations Si l’hypothèse nulle est vraie, alors toutes les permutations de résultats sont aussi probables Si on réordonne les données aléatoirement et recalcule s, on peut estimer la distribution de s selon H 0. On compare ensuite S à la distribution obtenue par permutation. P est calculé à partir de la proportion p de s qui est aussi extrême que S.

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM A simple example Data consists of set of mandible lengths of 10 female and 10 male golden jackals. Biological prediction: males are larger than females. H 0 :  females   males Step 1: calculate average values for males and females, and the difference (D*) between them. Step 2: Put 20 values together, and choose 10 at random. Call these females; the other 10 are males. Calculate difference in average lengths. FemalesMales “Females”“Males” D* = 4.8 mm.

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM A simple example (cont’d) Step 3. Repeat step 2 10 = 1024 times (corresponding to all possible data combinations (permutations)) to generate randomized distribution of D. Step 4. Calculate the proportion of randomizations for which D > D* (p =.0018) times Frequency (no. of randomizations) D “Females” “Males”

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Sampling the randomized distribution versus complete enumeration When the number of possible permutations is small, complete enumeration is possible… …but more usually, the randomization distribution is resampled using the bootstrap… …with (usually) little loss in accuracy. FemalesMales “Females”“Males” D* = 4.8 mm. N bootstrap samples Frequency (no. of randomizations ) D

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Application of randomization methods Randomization methods can be applied in many statistical procedures, both univariate (e.g. ANOVA, simple and multiple regresssion, ANCOVA) and multivariate (e.g. MANOVA, PCA, discriminant function analysis, etc.) Randomization tests should be considered in “non-standard” situations or when the assumptions underlying standard assumptions are unlikely to be met. When assumptions of standard tests are met, randomization tests usually give similar significance levels.

University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Randomization tests: advantages and disadvantages They are valid even when the sample is non- random It is fairly easy to take into account specifics of the situation of interest and use non-standard test statistics. results are exact Generalizations from the conclusion of a randomization test to a population of interest may not be valid because the results pertain only to the sample at hand. Special software or programming expertise is often required. Advantages Disadvantages