Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-18 22:46 1 Régression logistique.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques.
C1 Bio-statistiques F. KOHLER
Inférence statistique
Maria-João Rendas CNRS – I3S Novembre 2006
Analyse de la variance à un facteur
QTLmap et les données ayant une distribution non gaussienne
How to solve biological problems with math Mars 2012.
Régression linéaire simple
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur.
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Prise en compte des données avec excès de zéros
Modeles Lineaires.
La régression logistique
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Analyse de variance à un critère de classification (ANOVA)
Corrélation Principe fondamental d’une analyse de corrélation
Comparaison de deux échantillons
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
ANOVA à critères multiples
Régression linéaire multiple : hypothèses & interprétation
Equations d’estimation généralisées: GEE
Probabilités et Statistiques Année 2010/2011
Régression linéaire simple
Un exemple d’ANOVA Pour étudier l'influence du milieu sur la DL50 de daphnies (heure), on a mesuré cette durée de vie pour deux clones de daphnies en fonction.
Régression linéaire Jonathan Lenoir (MCU),
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
Un exemple de régression poissoniènne
On souhaite analyser les concentrations de mercure (ppm) dans les chaires de poissons carnivores des lacs de l'est de Etats- Unis. On espère trouver une.
Régréssion linéaire simple
Concepts fondamentaux: statistiques et distributions
1 BIO 4518: Biostatistiques appliquées Le 1er novembre 2005 Laboratoire 7 ANCOVAs (Analyse de covariance)
BIO 4518: Biostatistiques appliquées Les 11 et 18 octobre 2005 Laboratoire 4 et 5 ANOVA à critères multiples.
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
Tests d’ajustement à une distribution théorique
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :51 1 Messages 1er décembre: date limite pour.
L’erreur standard et les principes fondamentaux du test de t
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :44 1 Epistémologie, méthode scientifique et.
Méthode des moindres carrés (1)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 1.
Révision des concepts fondamentaux
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :18 Bootstrap et permutations.
Quelques commentaires sur les tests statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15 1 GLM Exemples.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :37 1 Régression linéaire simple et corrélation.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Devoir 3 (aa) on vous demande de déterminer.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Régression multiple Quand et pourquoi on.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 24/07/2015 2:29 PM Bootstrap et permutations.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
BIO 4518: Biostatistiques appliquées Le 8 novembre 2005 Laboratoire 8 Regressions multiples.
Clique Percolation Method (CPM)
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Week 7 Abakar Adam Sakina Ismael. By Elhanan Helpman, Marc J. Melitz, and Stephen R. Yeaple.
Réunion service Instrumentation Activités CMS-Traces
Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics Statistics & Econometrics.
Les modèles linéaires (Generalized Linear Models, GLM)
Transcription de la présentation:

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Régression logistique

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 2 Régression logistique famille des GLM variable dépendante a distribution binaire (0,1) (vivant, mort) (menacé, non-menacé)

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 3 Problèmes cardiaques vs age Régression linéaire Hummm... résidus pas normaux hétéroscédastiques valeurs prédites impossibles

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 4 Problèmes cardiaques vs age Lowess

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 5 Régression logistique *** Generalized Linear Model *** Call: glm(formula = cardiaque ~ age, family = binomial(link = logit), data = SDF12, na.action = na.exclude, control = list(epsilon = , maxit = 50, trace = F)) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value (Intercept) age (Dispersion Parameter for Binomial family taken to be 1 ) Null Deviance: on 1999 degrees of freedom Residual Deviance: on 1998 degrees of freedom Number of Fisher Scoring Iterations: 4

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 6 Variable dépendante: logit(p) logit p

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 7 Cardiaque vs age

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 8 Comment les paramètres sont-ils estimés? En maximisant la vraisemblance (Maximum Likelihood) –calculer la probabilité d’observer les résultats obtenus pour différentes valeurs des paramètres –choisir les valeurs qui maximisent cette probabilité (la vraisemblance) ou minimisent - LogL Méthode itérative

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 9 Algorithmes Recherchent minimum (maximum) en suivant les gradients Il n’y a pas de garantie d’obtenir les meilleurs estimés dans tous les cas. Paramètre SS R ou - log L Paramètre SS R ou - log L

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 10 Estimation des paramètres Valeurs initiales Itérations jusqu’à ce que la vraisemblance (ou la déviance) soit maximisée (minimisée) Critère de convergence Limite au nombre d’itérations Call: glm(formula = cardiaque ~ age, family = binomial(link = logit), data = SDF12, na.action = na.exclude, control = list(epsilon = , maxit = 50, trace = F))

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 11 Tests d’hypothèses test de Z sur coefficients –asymptotiquement corrects (i.e pour gros échantillons) –règle d’usage: nombre d’observations où y=0 ET y=1 sont au moins 5X le nombre de variables indépendantes.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 12 Test d’hypothèses Vraisemblance –Déviance=-2L –est approximativement distribué comme Chi-Carré –Mesure de la variabilité inexpliquée de la variable dépendante (similaire à la somme des carrés des écarts) Comparaison de modèles –Changement de déviance lorsque des termes sont ajoutés (ou enlevés) est également distribué approximativement comme Chi-carré

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 13 Conditions d’application indépendance linéarité variable dépendante a une distribution binomiale Pas d’erreur de mesure sur les variables indépendantes

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 14 Régression logistique *** Generalized Linear Model *** Call: glm(formula = cardiaque ~ age, family = binomial(link = logit), data = SDF12, na.action = na.exclude, control = list(epsilon = , maxit = 50, trace = F)) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value (Intercept) age (Dispersion Parameter for Binomial family taken to be 1 ) Null Deviance: on 1999 degrees of freedom Residual Deviance: on 1998 degrees of freedom Number of Fisher Scoring Iterations: 4

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 15 Modèles possibles Variable indépendantes discontinues (modèle de type ANOVA) Avec interactions Mélange de variables continues et discontinues (type ANCOVA) Polynomes Bref, la seule différence c’est la distribution des résidus (variable dépendante)

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 16 Autre GLMs Approche similaire pour variable dépendantes ayant d’autres distributions –Multinomiale (plusieurs catégories) –Poisson –Binomiale négative

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 17 Sieving as a compromise The good side: –Coarse sieves reduce amount of work The bad side: –Coarse sieves retain only a fraction of organisms present What fraction? Objective: quantify retention probabilities to develop correction factors for coarse sieves

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 18 Methods Collect replicate samples from 3 different rivers Sieve samples through a stack of sieves Measure and identify organisms retained in each sieves 3 sites*3 operators*3 replicates each=27 samples

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 19 Perfect spheres, perfect sieve, perfect benthologist

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 20 Diameter (mm) Retention probability Perfect spheres, perfect sieve, perfect benthologist 10mm sieve

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 21 Body length (mm) Retention probability Sieving invertebrates 1mm sieve

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 22 The fitted model (Overall equation) ln(p/[1 – p])= log 10 (RL) –3.2 log 10 (RL) log 10 (M) n=25,383 Rho squared= % of individuals retained in the predicted sieve (Relatively) big things are retained 10X longer than mesh size are virtually ALL retained

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 23 Body length (mm) Retention probability Oligochaeta Chironomidae Amphipoda Gastropoda Differences among taxa 1mm sieve Explained by shape

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 24 Correcting for organisms lost 1 mm-mesh sieve retains only 20% of organisms measuring 2mm long (p=0.2) Suppose you retain R=22 invertebrates of 2mm body length in your 1mm sieve. Q: What is the likely total number of 2mm-long organisms, including those NOT retained? A: R/p(R)=22/0.2=110

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 25 Smallest sieve used (mm) Biomass or Density Biomass (corrected) Biomass Density (corrected) Density Unbiased estimates can be obtained up to 4- mm mesh

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 26 Size spectra obtained with coarse sieves can be corrected

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 27 Conclusions Retention probability is predictable Sieves retain virtually all organisms with a body length 10X mesh opening Probability of retention can be used to correct for organisms lost through coarse sieves Unbiased estimates of density, biomass, and size distributions can be obtained by measuring the minority of organisms retained in coarse sieves.