Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Régression logistique
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 2 Régression logistique famille des GLM variable dépendante a distribution binaire (0,1) (vivant, mort) (menacé, non-menacé)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 3 Problèmes cardiaques vs age Régression linéaire Hummm... résidus pas normaux hétéroscédastiques valeurs prédites impossibles
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 4 Problèmes cardiaques vs age Lowess
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 5 Régression logistique *** Generalized Linear Model *** Call: glm(formula = cardiaque ~ age, family = binomial(link = logit), data = SDF12, na.action = na.exclude, control = list(epsilon = , maxit = 50, trace = F)) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value (Intercept) age (Dispersion Parameter for Binomial family taken to be 1 ) Null Deviance: on 1999 degrees of freedom Residual Deviance: on 1998 degrees of freedom Number of Fisher Scoring Iterations: 4
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 6 Variable dépendante: logit(p) logit p
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 7 Cardiaque vs age
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 8 Comment les paramètres sont-ils estimés? En maximisant la vraisemblance (Maximum Likelihood) –calculer la probabilité d’observer les résultats obtenus pour différentes valeurs des paramètres –choisir les valeurs qui maximisent cette probabilité (la vraisemblance) ou minimisent - LogL Méthode itérative
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 9 Algorithmes Recherchent minimum (maximum) en suivant les gradients Il n’y a pas de garantie d’obtenir les meilleurs estimés dans tous les cas. Paramètre SS R ou - log L Paramètre SS R ou - log L
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 10 Estimation des paramètres Valeurs initiales Itérations jusqu’à ce que la vraisemblance (ou la déviance) soit maximisée (minimisée) Critère de convergence Limite au nombre d’itérations Call: glm(formula = cardiaque ~ age, family = binomial(link = logit), data = SDF12, na.action = na.exclude, control = list(epsilon = , maxit = 50, trace = F))
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 11 Tests d’hypothèses test de Z sur coefficients –asymptotiquement corrects (i.e pour gros échantillons) –règle d’usage: nombre d’observations où y=0 ET y=1 sont au moins 5X le nombre de variables indépendantes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 12 Test d’hypothèses Vraisemblance –Déviance=-2L –est approximativement distribué comme Chi-Carré –Mesure de la variabilité inexpliquée de la variable dépendante (similaire à la somme des carrés des écarts) Comparaison de modèles –Changement de déviance lorsque des termes sont ajoutés (ou enlevés) est également distribué approximativement comme Chi-carré
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 13 Conditions d’application indépendance linéarité variable dépendante a une distribution binomiale Pas d’erreur de mesure sur les variables indépendantes
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 14 Régression logistique *** Generalized Linear Model *** Call: glm(formula = cardiaque ~ age, family = binomial(link = logit), data = SDF12, na.action = na.exclude, control = list(epsilon = , maxit = 50, trace = F)) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value (Intercept) age (Dispersion Parameter for Binomial family taken to be 1 ) Null Deviance: on 1999 degrees of freedom Residual Deviance: on 1998 degrees of freedom Number of Fisher Scoring Iterations: 4
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 15 Modèles possibles Variable indépendantes discontinues (modèle de type ANOVA) Avec interactions Mélange de variables continues et discontinues (type ANCOVA) Polynomes Bref, la seule différence c’est la distribution des résidus (variable dépendante)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 16 Autre GLMs Approche similaire pour variable dépendantes ayant d’autres distributions –Multinomiale (plusieurs catégories) –Poisson –Binomiale négative
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 17 Sieving as a compromise The good side: –Coarse sieves reduce amount of work The bad side: –Coarse sieves retain only a fraction of organisms present What fraction? Objective: quantify retention probabilities to develop correction factors for coarse sieves
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 18 Methods Collect replicate samples from 3 different rivers Sieve samples through a stack of sieves Measure and identify organisms retained in each sieves 3 sites*3 operators*3 replicates each=27 samples
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 19 Perfect spheres, perfect sieve, perfect benthologist
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 20 Diameter (mm) Retention probability Perfect spheres, perfect sieve, perfect benthologist 10mm sieve
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 21 Body length (mm) Retention probability Sieving invertebrates 1mm sieve
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 22 The fitted model (Overall equation) ln(p/[1 – p])= log 10 (RL) –3.2 log 10 (RL) log 10 (M) n=25,383 Rho squared= % of individuals retained in the predicted sieve (Relatively) big things are retained 10X longer than mesh size are virtually ALL retained
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 23 Body length (mm) Retention probability Oligochaeta Chironomidae Amphipoda Gastropoda Differences among taxa 1mm sieve Explained by shape
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 24 Correcting for organisms lost 1 mm-mesh sieve retains only 20% of organisms measuring 2mm long (p=0.2) Suppose you retain R=22 invertebrates of 2mm body length in your 1mm sieve. Q: What is the likely total number of 2mm-long organisms, including those NOT retained? A: R/p(R)=22/0.2=110
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 25 Smallest sieve used (mm) Biomass or Density Biomass (corrected) Biomass Density (corrected) Density Unbiased estimates can be obtained up to 4- mm mesh
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 26 Size spectra obtained with coarse sieves can be corrected
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 27 Conclusions Retention probability is predictable Sieves retain virtually all organisms with a body length 10X mesh opening Probability of retention can be used to correct for organisms lost through coarse sieves Unbiased estimates of density, biomass, and size distributions can be obtained by measuring the minority of organisms retained in coarse sieves.