Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-16 22:57 1.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Gestion de portefeuille
C1 Bio-statistiques F. KOHLER
Inférence statistique
Régression ou corrélation
Régression -corrélation
Chapitre 2 Les indices.

La Régression Multiple
Régression linéaire simple
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Modeles Lineaires.
Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->
La corrélation et la régression multiple
La corrélation et la régression
Le test t.
La régression logistique
La corrélation et la régression
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Les modèles linéaires (Generalized Linear Models, GLM)
Analyse de variance à un critère de classification (ANOVA)
Corrélation Principe fondamental d’une analyse de corrélation
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :08 1 Régression multiple Quand et pourquoi on.
Comparaison de deux échantillons
ANOVA à critères multiples
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
ANOVA à critères multiples
Le comportement des coûts Chapitre 3
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Séance 8 30 novembre 2005 N. Yamaguchi
Probabilités et Statistiques Année 2010/2011
Régression linéaire simple
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
On souhaite analyser les concentrations de mercure (ppm) dans les chaires de poissons carnivores des lacs de l'est de Etats- Unis. On espère trouver une.
Concepts fondamentaux: statistiques et distributions
1 BIO 4518: Biostatistiques appliquées Le 1er novembre 2005 Laboratoire 7 ANCOVAs (Analyse de covariance)
BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :52 1 Comparaisons multiples Ce qu’elles sont.
Tests d’ajustement à une distribution théorique
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :51 1 Messages 1er décembre: date limite pour.
L’erreur standard et les principes fondamentaux du test de t
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Méthode des moindres carrés (1)
Révision des concepts fondamentaux
Test de signification d’une ANOVA à deux critères de classification: sans réplication, modèle I, plan factoriel Tester CMeffet sur CMerreur... … mais,
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Régression logistique.
Quelques commentaires sur les tests statistiques
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :36 1 Tableaux de contingence et modèles log-
Analyse de variance à un critère de classification (ANOVA)
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :15 1 GLM Exemples.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :37 1 Régression linéaire simple et corrélation.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :46 1 Devoir 3 (aa) on vous demande de déterminer.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Régression multiple Quand et pourquoi on.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Régression linéaire (STT-2400)
Le modèle de régression linéaire Claude Marois © 2010.
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
BIO 4518: Biostatistiques appliquées Le 8 novembre 2005 Laboratoire 8 Regressions multiples.
Corrélation et régression linéaire Mars Modèles de régression  Réponses aux questions du type: ‘Quelle est la nature de la relation entre les variables?’
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Les modèles linéaires (Generalized Linear Models, GLM)
Transcription de la présentation:

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 1

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 2 Régression multiple Quand et pourquoi on les utilise Modèle général de la régression multiple Épreuves d’hypothèses Le problème de la multicollinéarité Marche à suivre Régression polynomiale

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 3 Modèles linéaires (GLM) *peuvent être discontinues ou traitées comme étant discontinues

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 5 Quand utiliser la régression multiple? Afin d’estimer la relation entre une variable dépendante (Y) et plusieurs variables indépendantes (X 1, X 2, …) ex: la relation entre la production primaire, la concentration de phosphore et l’abondance du zooplancton Log [P] Log Production Log [P] Log Production Log [Zoo]

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 6 Le modèle général: qui définit un plan à k- dimensions, ou  = ordonnée à l’origine,  j = coefficient de régression partiel de Y sur X j, X ij est la valeur de la ième observation de la variable dépendante X j, et  i est la valeur des résidus de la ième observation. Le modèle général de la régression multiple X2X2 X1X1 Y X2X2 X1X1 Y, X 1, X 2 ^  Y X, X 1 2.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 7 Qu’est-ce que le coefficient de régression partiel?  j est le taux de variation de Y pour une variation de X j quand toutes les autres variables sont maintenues constantes; Ce n’est pas la pente de la régression de Y sur X j, regroupées pour toutes les autres variables! X1X1 Y X 2 = 3 X 2 = 1 X 2 = -1 X 2 = -3 Régression partielle Régression simple

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 8 L’effet de l’échelle Deux variables indépendantes sur différentes échelles ont une pente différente, même si la variation proportionnelle de Y est la même Alors, si on veut comparer l’effet relatif de chaque variable sur Y, on doit éliminer les effets de différentes échelles. Y  j = XjXj Y  j =

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 9 Comme  j dépend de la taille de X j, pour déterminer l’effet relatif de chaque variable indépendante, on doit normaliser les coefficients de la régression: 1) en transformant toutes les variables et 2) en ajustant une régression sur les données transformées. Les coefficients normalisés  j * donnent une estimation de l’effet relatif de X j sur Y Le modèle de la régression multiple: version normalisée

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 10 Coefficients de régression: résumé Les coefficients de régression partielle: égaux à la pente de la régression de Y sur X j quand toutes les autres variables indépendantes sont maintenues constantes Les coefficients de régression normalisés: représentent le taux de changement Y ( en unités d’écart-type) par écart-type de X j lorsque toutes les autres variables sont maintenues constantes.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 11 Hypothèses implicites Les résidus sont indépendants Les résidus sont homoscédastiques Linéarité des relations entre Y et tous les X Pas d’erreur de mesure sur les variables indépendantes Les résidus sont distribués normalement

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 12 Répartition de la somme des carrés totale en somme des carrés du modèle et des résidus: Épreuves d’hypothèses I: répartition de la somme des carrés totale X2X2 X1X1 Y SC Modèle SC Totale SC Résidus

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 13 Épreuves d’hypothèses I: répartition de la somme des carrés totale Alors, CM modèle = s 2 Y et Cm erreur = 0 si les valeurs observées = attendues pour tous les i calculer F = CM modèle /CM erreur et comparer à la distribution de F avec 1 et N-2 dl. H 0 : F = 1

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 14 Épreuves d’hypothèses II: signification des coefficients de régression partielle Tester chaque hypothèse à l’aide d’un test de t: Note: c’est un test bilatéral! YY X 1, X 2 fixes H 01 :   = 0, rejetée X 2 = 1 X 2 = 2 YY H 02 :  2 = 0, acceptée X 2, X 1 fixes X 1 = 2 X 1 = 3

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 15 Multicolinéarité Si les variables indépendantes sont corrélées, elles ne sont pas indépendantes. L’évaluation de la colinéarité se fait en regardant les matrices de covariance ou de corrélation X1X1 indépendantes X3X3 X2X2 colinéaires X2X2 Variance Covariance

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 16 Multicolinéarité: problèmes Si deux variables indépendantes X 1 et X 2 ne sont pas corrélées, la somme des carrés du modèle linéaire incluant les deux variables égale la somme des SC modèle de chacune pris séparément Toutefois, si elles sont corrélées, la somme des carrées sera plus petite Alors, si on a un modèle incluant X 1, de combien augmente la SS modèle quand X 2 est aussi inclus (ou vice versa)?

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 17 Multicolinéarité: conséquences Inflation de l’erreur type des coefficients de régression une grande sensibilité des coefficients estimés et des erreurs types à de petits changements dans les données cependant, les estimés des coefficients de régression partielle ne sont pas biaisés une ou plusieurs variables peuvent ne pas apparaître dans le modèle final de la régression parce qu’elle covarie avec une autre variable indépendante

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 18 Détection de la multicolinéarité R 2 élevé mais peu de variables significatives Fortes corrélations entre les X Fortes corrélations partielles entre les variables indépendantes (si l’une des variables indépendantes est une fonction linéaire de plusieurs autres) Valeurs propres, indice de condition, et facteur d’inflation de la variance.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 19 Quantifier les effets de la multicolinéarité Vecteurs propres: une série de “lignes”  1,  2,…,  k dans un espace à k-dimensions. Ces vecteurs sont orthogonaux les uns par rapport aux autres Valeurs propres: la longueur  des vecteurs correspondants X2X2 X1X1 X2X2 X1X1 11 11 22 22 1 2

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 20 Quantifier les effets de la multicolinéarité Les valeurs propres: si toutes les valeurs propres sont environ égales, il y a peu de multicolinéarité Indice de condition: racine carrée( l / s ); si près de 1, il y a peu de multicolinéarité Facteur d’inflation de la variance: 1 - proportion de la variance des variables indépendantes expliquée par toutes les autres. Si près de 1, indique une faible colinéarité. X2X2 X1X1 X2X2 X1X1 Faible corrélation 1 = 2 Forte corrélation 1 >> 2

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 21 Solutions Récolter plus de données afin de réduire les corrélations Éliminer certaines variables indépendantes Régression sur les composantes principales ou “ridge regression”, qui mène à des estimés des coefficients biaisés mais avec des erreurs types plus petites

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 22 Régression multiple: principes de base Évaluer la signification d’une variable en ajustant deux modèles: un incluant le terme, et l’autre où il est enlevé. Tester pour les changements dans l’ajustement au modèle (  ) associés avec l’exclusion du terme en question Malheureusement,  peut dépendre de d’autres variables s’il y a multicolinéarité! Modèle A (X 1 inclus) Modèle B (X 2 exclus)  G ou F (ex:  R 2 ) Enlever X 1 (petit  ) Garder X 1 (grand  )

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 23 Ajustement de modèles de régression multiple But: trouver le “meilleur” modèle, avec les données disponiles Problème1: définition de “meilleur”? –R 2 le plus élevé? –La variance résiduelle la plus petite? –R 2 le plus élevé mais qui ne contient que des termes significatifs? –Qui maximise R 2 avec un minimum de variables indépendantes?

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 24 Sélection des variables indépendantes (suite) Problème 2: même avec une définition du meilleur modèle, quelle méthode doit-on utiliser pour le trouver? Possibilités: –calculer tous les modèles possibles (2 k -1) et choisir le meilleur –recourir à une procédure qui réduira le nombre de modèles à ajuster

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 25 Stratégie I: calculer tous les modèles possibles calculer tous les modèles possibles et choisir le meilleur désavantages: –coûte cher en temps –le problème de la définition du meilleur modèle reste entier avantages: –si on a une définition du meilleur modèle, on le trouvera! {X 1, X 2, X 3 } {X2}{X2} {X1}{X1} {X3}{X3} {X1, X2}{X1, X2} {X2, X3}{X2, X3} {X1, X3}{X1, X3} {X1, X2, X3}{X1, X2, X3}

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 26 Stratégie II: sélection progressive Commencer avec la variable dont le coefficient de corrélation partielle r est le plus élevé ajouter les autres une à une jusqu’à ce qu’il n’y ait plus de  j significativement différents de 0. problème: si X j est inclus, il restera dans le modèle même si sa contribution à SC modèle est minime. une fois les autres variables incluses. {X 1, X 2, X 3 } {X2}{X2} r 2 > r 1 > r 3 {X1, X2, X3}{X1, X2, X3} {X1, X2}{X1, X2} R   R 2  R   R 21  R 21   R 2  R 21   R 2  {X2}{X2} {X1, X2, X3}{X1, X2, X3} Modèle final R 123   R 21  {X 1, X 2 } R 123   R 21 

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 27 Sélection progressive: ordre d’entrée Commencer avec la variable dont le coefficient de corrélation partielle est le plus élevé ensuite, ajouter la variable qui provoque la plus grande augmentation du R 2 (test de F de la signification de l’augmentation). On doit aussi spécifier un F seuil pour l’entrée des variables dans le modèle {X 1, X 2, X 3, X 4 } {X2}{X2} r 2 > r 1 > r 3 > r 4 {X2, X1}{X2, X1} {X2, X4}{X2, X4} p[F(X 2, X 4 )] =.55 X 4 éliminé p d’entrée =.05 {X2, X3}{X2, X3}{X2, X1}{X2, X1} p[F(X 2 )] =.001 p[F(X 2, X 1 )] =.002 p[F(X 2, X 3 )] = {X2, X3}{X2, X3}

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 28 Stratégie III: Élimination rétrograde Commencer avec toutes les variables retirer du modèle les variables qui ne réduise pas significativement R 2. Les variables sont retirées une à la fois en commençant avec celle dont le coefficient de régression partielle est le plus bas Toutefois, une fois qu’une variable est retirée du modèle, elle reste exclue, et ce même si elle explique une portion significative de la variabilité une fois que d’autres variables sont enlevées {X 1, X 2, X 3 } {X3}{X3} r 2 < r 1 < r 3 {X1, X3}{X1, X3} R   R 13  R 3   R 13  R 13   R 123  {X3}{X3} {X1, X2, X3}{X1, X2, X3} Modèle final R   R 123  R 13   R 123  R 3   R 13  {X1, X3}{X1, X3}

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 29 Élimination rétrograde: ordre d’entrée Commencer avec la variable dont le coefficient de corrélation partielle est le plus faible. Continuer avec la variable qui provoque la plus petite réduction du R 2 (test de F pour déterminer la signification de l’augmentation, F seuil) {X 1, X 2, X 3, X 4 } {X 2, X 1, X 3 } r 2 > r 1 > r 3 > r 4 {X2, X1}{X2, X1} p[F(X 2, X 1 )] =.25 p de sortie =.10 p[F(X 2, X 3 )] = p[F(X 2, X 1, X 3 )] =.44 X 4 enlevé X 3 enlevéX 1, X 2 restent X 2, X 3, X 1 restent {X1, X3}{X1, X3}{X2, X3}{X2, X3} p[F(X 1, X 3 )] =.009

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 30 Stratégie IV: régression pas à pas Une fois qu’une variable est incluse (ou enlevée), on regarde dans les variables qui restent pour trouver d’autres variables qui devraient être enlevées (incluses). On regarde aussi les variables qui sont déjà dans le modèle afin d’éviter d’entrer dans une boucle, on doit spécifier les niveaux des p d’entrée > p de sortie {X 1, X 2, X 3, X 4 } {X2}{X2} r 2 > r 1 > r 4 > r 3 {X 1, X 2, X 3 } {X2, X4}{X2, X4} p[F(X 2, X 4 )] =.03 p d’entrée =.10 p de sortie =.05 {X2, X3}{X2, X3}{X2, X1}{X2, X1} p[F(X 2 )] =.001 p[F(X 2, X 1 )] =.002 p[F(X 2, X 3 )] =.09 {X 1, X 2, X 4 } p[F(X 1, X 2, X 4 )] =.02 p[F(X1, X 2, X 3 )] =.19 {X1, X4}{X1, X4}

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 31 Exemple Le log de la richesse en espèces des herptiles (logherp) est une fonction du log de l’aire du marais (logarea), du pourcentage de terre boisée dans un rayon de 1 km (cpfor2) et de la densité de routes pavées dans un rayon de 1 km (thtdens)

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 33 Exemple (toutes les variables) Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) LOGAREA CPFOR THTDEN Residual standard error: on 24 degrees of freedom Multiple R-Squared: F-statistic: on 3 and 24 degrees of freedom, the p-value is observations deleted due to missing values

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 34 Exemple: Forward selection *** Stepwise Regression *** *** Stepwise Model Comparisons *** Start: AIC= LOGHERP ~ 1 Single term additions Model: LOGHERP ~ 1 scale: Df Sum of Sq RSS Cp CPFOR THTDEN LOGAREA AIC: Akaike Information Criteria C p : dérivé de AIC Prop. à “Variance résiduelle en compensant pour dl modèle”)

Exemple: Forward selection Step: AIC= LOGHERP ~ LOGAREA Single term additions Model: LOGHERP ~ LOGAREA scale: Df Sum of Sq RSS Cp CPFOR THTDEN Step: AIC= LOGHERP ~ LOGAREA + THTDEN Single term additions Model: LOGHERP ~ LOGAREA + THTDEN scale: Df Sum of Sq RSS Cp CPFOR

Start: AIC= LOGHERP ~ CPFOR2 + THTDEN + LOGAREA Single term deletions Model: LOGHERP ~ CPFOR2 + THTDEN + LOGAREA scale: Df Sum of Sq RSS Cp CPFOR THTDEN LOGAREA Step: AIC= LOGHERP ~ THTDEN + LOGAREA Single term deletions Model: LOGHERP ~ THTDEN + LOGAREA scale: Df Sum of Sq RSS Cp THTDEN LOGAREA Élimination rétrograde

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 37 Exemple: élimination rétrograde (modèle final) *** Linear Model *** Call: lm(formula = LOGHERP ~ LOGAREA + THTDEN, data = Mregdat, na.action = na.exclude) Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) LOGAREA THTDEN Residual standard error: on 25 degrees of freedom Multiple R-Squared: F-statistic: on 2 and 25 degrees of freedom, the p- value is

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 38 Exemple: Régression pas à pas *** Stepwise Regression *** *** Stepwise Model Comparisons *** Start: AIC= LOGHERP ~ LOGAREA + CPFOR2 + THTDEN Single term deletions Model:LOGHERP ~ LOGAREA + CPFOR2 + THTDEN scale: Df Sum of Sq RSS Cp LOGAREA CPFOR THTDEN

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 39 Régression pas à pas(suite) Step: AIC= LOGHERP ~ LOGAREA + THTDEN Single term deletions Model: LOGHERP ~ LOGAREA + THTDEN scale: Df Sum of Sq RSS Cp LOGAREA THTDEN Single term additions Model: LOGHERP ~ LOGAREA + THTDEN scale: Df Sum of Sq RSS Cp CPFOR

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 40 Régression pas à pas : modèle final *** Linear Model *** Call: lm(formula = LOGHERP ~ LOGAREA + THTDEN, data = Mregdat, na.action = na.exclude) Residuals: Min 1Q Median 3Q Max Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) LOGAREA THTDEN Residual standard error: on 25 degrees of freedom Multiple R-Squared: F-statistic: on 2 and 25 degrees of freedom, the p-value is

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 41 Que faire si la relation entre Y et le ou les X(s) n’est pas linéaire? option 1: transformer les données option 2: utiliser une régression non-linéaire option 3: utiliser une régression polynomiale

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 42 Une régression polynomiale inclus des termes de degrés croissants de la variable indépendante Le modèle de la régression polynomiale Vitesse du courant (cm/s) Biomasse des mouches noires (mgDM/m²) Modèle linéaire Modèle polynomial de second ordre

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 43 Ajuster une régression linéaire simple Ajuster un modèle quadratique, vérifier s’il y a augmentation de la SS modèle continuer en ajoutant des termes de degrés supérieur (X 3, X 4, etc..) jusqu’à ce que SS modèle n’augmente plus de manière significative. Inclure les termes jusqu’à la puissance (nombre de points d’inflexion plus 1) Le modèle de la régression polynomiale: marche à suivre Vitesse du courant (cm/s) Biomasse des mouches noires (mgDM/m²) Modèle linéaire Modèle polynomial de second ordre

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 44 Régression polynomiale: mise en garde La signification biologique des termes élevés à une certaine puissance est généralement inconnue par définition, les termes polynomiaux sont fortement corrélés: les erreurs types sont grandes (la précision est faible) et augmentent avec l’ordre du terme Les extrapolations de modèles polynomiaux sont toujours un non sens X1X1 Y Y =   X 1 -   X 1 2

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 45 Conseils Testez pour les intéractions... si vous le pouvez Bonferroni et la pêche....

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 46 Puissance: ANOVA, GLM, Régression Other F-tests, F-tests (multiple regression)

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 47 Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) LOGAREA CPFOR THTDEN Residual standard error: on 24 degrees of freedom Multiple R-Squared: F-statistic: on 3 and 24 degrees of freedom, the p-value is observations deleted due to missing values

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 48 Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) LOGAREA CPFOR THTDEN Residual standard error: on 24 degrees of freedom Multiple R-Squared: F-statistic: on 3 and 24 degrees of freedom, the p-value is Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) LOGAREA CPFOR Residual standard error: on 25 degrees of freedom Multiple R-Squared: F-statistic: 10.2 on 2 and 25 degrees of freedom, the p-value is

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 49 Définition de la grandeur de l’effet: cas 2 R 2 partiel de THTDEN=.098 Donc, la taille de l’effet pour la variable THTDEN est

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 50 Exemple: la richesse en espèces des amphibiens du sud-est de l’Ontario Échantillon de 28 terres humides 3 variables (LOGAREA, CPFOR2, THTDEN) Variable dépendante est le log 10 du nombre d’espèces d’amphibiens et reptiles Quelle est la probabilité de détecter un effet de CPFOR2 de grandeur égale à la grandeur de l’effet estimée une fois que les effets de LOGAREA et THTDEN ont été contrôlés, pour  =.05?

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 51 Exemple: la richesse en espèces des herptiles du sud-est de l’Ontario La grandeur de l’effet f 2 de CPFOR2 une fois les effets de LOGAREA et THTDEN contrôlés =.024 Source (CPFOR2) dl = 1 = 1 Le nombre de degrés de liberté de l’erreur dl = 2 = = 25

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 52 Puissance: pentes (GLM, régressions) Other t-tests

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 53 Exemple: test que pente de CPFOR2=0

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :57 54 Exemple: test que pente de CPFOR2=1.5