Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 1 Les modèles linéaires (Generalized Linear.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 1 Les modèles linéaires (Generalized Linear Models, GLM) Ce qu’ils sont Quand les utiliser? Modèle complet Le modèle d’ANCOVA Le modèle de la régression commune Le principe de la somme des carrés additionnelles Hypothèses implicites

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 2 Définition des GLM Les GLM sont des modèles de la forme suivante: Y est un vecteur des variables dépendantes, b est un vecteur des estimés des coefficients, X est un vecteur des variables indépendantes et e représente les termes d’erreur. Modèles multivariés Régression linéaire simple Régression linéaire simple Régression multiple Analyse de variance (ANOVA) Analyse de variance (ANOVA) Analyse de covariance (ANCOVA) Analyse de covariance (ANCOVA)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 3 Quelques procédures GLM *peuvent être discontinues ou traitées comme discontinues

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 4 Utilisation de l’ANCOVA Afin de comparer une relation entre une variable dépendante (Y) et une variable indépendante (X 1 ) pour différents niveaux d’une variable discontinue (X 2 ) ex: la relation entre le poids (Y) et la taille (X 1 ) pour différents groupes taxonomiques (oiseaux et mammifères, X 2 ) Taille Masse Taille

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 5 Utilisation de l’ANCOVA Lorsque l’on fait ces comparaison, on assume que les modèles sont qualitativement similaires pour tous les niveaux de la variable discontinue... …autrement ce serait comme comparer des pommes et des oranges! Niveau 1 de X 2 Niveau 2 de X 2 X1X1 Y Modèles qualitativement différents Y Modèles qualitativement similaires

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 6 Utilisation de l’ANCOVA ANCOVA est utilisée afin de comparer des modèles linéaires. …certains modèles non- linéaires peuvent être comparés avec des ANCOVA modifiées Niveau 1 de X 2 Niveau 2 de X 2 X1X1 Y Modèles non-linéaires X1X1 Y Modèles linéaires

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 7 Le modèle de la régression simple Le modèle de la régression: alors, toutes les régressions simples sont décrites par 2 paramètres: l’ordonnée à l’origine (a) et la pente (b) X XX YY b =  Y  X (pente) a (ordonnée à l’origine) eiei XiXi YiYi Observées Prédites

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 8 GLM simples Deux modèles linéaires peuvent varier de plusieurs façons: Les ordonnées à l’origine (a) et les pentes (b) sont différentes Les ordonnées à l’origine sont différents mais les pentes sont les mêmes (modèle d’ANCOVA) X1X1 Y a diffèrent même  b X1X1 Y a & b diffèrent

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 9 GLM simples Deux modèles linéaires peuvent aussi être différents: mêmes ordonnée à l’origine (a) mais les pentes (b) sont différentes mêmes pentes et mêmes ordonnées à l’origine (modéle de la régression commune) X1X1 Y Mêmes a, mêmes  b X1X1 Y Mêmes a  différents b

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 10 Ajustement des GLM L’analyse se fait par étape en commençant avec le modéle le plus complexe Déterminer la signification de chaque terme en ajustant deux modèles: un contenant le terme et l’autre qui l’exclut Tester les changements dans l’ajustement (  G ou F) associés à l’exclusion du terme en question. Modèle A (terme inclus) Modèle B (terme enlevé)  G ou F (ex:  RMS) Enlever le terme (petit  ) Inclure le terme (grand  )

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 11 Ajustement au modèle: détermination de la signification des termes du modèle Commencer par un modèle d’ordre supérieur (mos) en incluant le plus de termes possible. Noter SC résidus et CM résidus Ajuster un modèle réduit (mr) et noter SC résidus Tester la signification du terme exclus en calculant: Modèle d’ordre supérieur Modèle réduit F Terme exclus (p  ) Terme inclus (p  )

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 12 Modèle complet avec 2 variables indépendantes Le modèle complet  i est la pente de la régression de Y sur X 1 estimée pour le niveau i de la variable catégorique X 2  i est la différence entre les moyennes de la variable catégorique X 2 pour chaque niveau i et la moyenne générale. Niveau 1 de la variable X 2 Niveau 2 de la variable X 2 

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 13 Le modèle complet: hypothèses nulles Pour le modèle complet contenant 2 variables indépendantes, on note 3 hypothèses nulles: Niveau 1 de la variable X 2 Niveau 2 de la variable X 2 

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 14 Y Y Y

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 15 Conditions d’application Les résidus sont indépendants et distribués normalement La variance des résidus est égale pour toutes les valeurs de X et indépendantes des valeurs de la variable discontinue (homoscedasticité) pas d’erreur sur les variables indépendantes linéarité

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 16 Procédure Ajuster le modèle complet, tester pour la différence entre les pentes Si H 02 est rejetée, faire des régressions séparées pour chaque niveau de la variable catégorique Si H 02 est acceptée, ajuster le modèle d’ ANCOVA. Niveau 1 de la variable X 2 Niveau 2 de la variable X 2 X1X1 Y ANCOVA Régressions séparées H 02 acceptéeH 02 rejetéee

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 17 Le modèle complet:  est la pente de la régression de Y sur X 1 regroupée pour tous les niveaux de la variable catégorique X 2.  i est la différence entre la moyenne pour chaque niveau i et la moyenne générale Le modèle d’ANCOVA avec 2 variables indépendantes Niveau 1 de la variable X 2 Niveau 2 de la variable X 2 

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 18 Le modèle d’ANCOVA: hypothèses nulles Pour une ANCOVA avec 2 variables indépendantes, on note deux hypothèses nulles: Niveau 1 de la variable X 2 Niveau 2 de la variable X 2

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 19 Y Y Y

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 20 Conditions d’application du modèle d’ANCOVA les résidus sont indépendants et distribués normalement la variance des résidus est égale pour toutes les valeurs de X et indépendantes des valeurs de la variable catégorique (homoscedasticité) pas d’erreur sur les variables indépendantes linéarité les pentes des régressions de Y sur X sont les mêmes pour tous les niveaux de la variable catégorique (ce n’est pas une condition d’application du modèle complet!!)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 21 Procédure Ajuster le modèle d’ANCOVA, tester pour les différences entre les pentes. Si H 01 est rejetée, séparer les régressions pour chaque niveau de la variable discontinue Si H 01 est acceptée, ajuster une régression commune. Niveau 1 de la variable X 2 Niveau 2 de la variable X 2 X1X1 Y Régression commune Régressions séparées H 01 acceptéeH 01 rejetée

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 22 Le modèle:  est la pente de la régression de Y sur X 1, regroupée pour tous les niveaux de la variable catégorique X 2. est la moyenne regroupée de X 1. Le modèle de la régression commune avec 2 variables indépendantes Niveau 1 de la variable X 2 Niveau 2 de la variable X 2 

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 23 La régression commune: hypothèses nulles On a deux hypothèses nulles pour la régression commune:  Niveau 1 de la variable X 2 Niveau 2 de la variable X 2

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 24 Conditions d’application de la régression commune Les résidus sont indépendants et distribués normalement la variance des résidus est égale pour toutes les valeurs de X et indépendantes des valeurs de la variable catégorique (homoscedasticité) pas d’erreur sur les variables indépendantes linéarité

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 25 Effets du sexe et de l’âge sur les esturgeons de The Pas

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 26 Analyse Log(forklength)(LFKL) est la variable dépendante, log(age) (LAGE) est la variable indépendante continue, et sex (SEX) est la variable discontinue (2 niveaux) Q1: la pente de la régression de LFKL sur LAGE est la même pour les deux sexes?

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 27 Effets du sexe et de l’âge sur les esturgeons de The Pas Type III Sum of Squares Df Sum of Sq Mean Sq F Value Pr(F) SEX 1 0.0004089 0.0004089 0.5043 0.4794836 LAGE 1 0.1432274 0.1432274 176.6501 0.0000000 SEX:LAGE 1 0.0002730 0.0002730 0.3367 0.5632277 Residuals 88 0.0713501 0.0008108 Conclusion 1: la pente est la même pour les deux sexes (accepter H 03 ) p(SEX:LAGE) >.05 Q2: l’ordonnée à l’origine est-elle la même?

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 28 Type III Sum of Squares Df Sum of Sq Mean Sq F Value Pr(F) LAGE 1 0.1433772 0.1433772 178.1627 0.0000000 SEX 1 0.0014899 0.0014899 1.8513 0.1770653 Residuals 89 0.0716231 0.0008048 Effets du sexe et de l’âge sur les esturgeons de The Pas (modèle d’ANCOVA) Conclusion 2: Ordonnée à l’origine est la même pour les deux sexes. H 02 est acceptée. p(SEX >.05), le meilleur modèle est la régression commune. Notez que CM (Résidus) a diminué (0.00081 à 0.00080). Le terme LAGE:SEX n’est donc pas utile.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 29 Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) 1.2106 0.0309 39.1910 0.0000 LAGE 0.3361 0.0238 14.1439 0.0000 Residual standard error: 0.0285 on 90 degrees of freedom Multiple R-Squared: 0.6897 F-statistic: 200.1 on 1 and 90 degrees of freedom, the p-value is 0 Effets du sexe et de l’âge sur les esturgeons de The Pas (régression commune)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 30 Effets du site et de l’âge sur la taille des esturgeons

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 31 Analyse Log(forklength)(LFKL) est la variable dépendante, log(age) (LAGE) est la variable indépendante continue, et le site la variable indépendante discontinue (2 sites) Q1: la pente de la relation de LFKL sur LAGE varie- t-elle entre les sites?

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 32 Type III Sum of Squares Df Sum of Sq Mean Sq F Value Pr(F) LAGE 1 0.07795090 0.07795090 133.5655 0.0000000000 LOCATE 1 0.00968260 0.00968260 16.5907 0.0001011931 LAGE:LOCATE 1 0.00909005 0.00909005 15.5754 0.0001591604 Effets du site et de l’âge sur la taille des esturgeons Conclusion 1: la pente varie entre les sites (rejeter H 03 ) p(LAGE:LOCATE) <.05 On devrait ajuster des régressions séparées pour chaque site.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 33 Que faire si? La variable discontinue a plus de deux niveaux? Suivre les mêmes étapes. Si on rejette l’hypothèse d’égalité des pentes (H 03 ) on compare les pentes deux à deux. Si on accepte H 03 mais rejette H 02 (égalité des intercepts), comparer les intercepts deux à deux. Ajuster niveau .... Y X

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 34 Que faire si? L ’hypothèse biologique est unilatérale? Suivre les mêmes étapes. Si on rejette l’hypothèse d’égalité des pentes (H 03 ) on compare les pentes deux à deux (test unilatéral). Si on accepte H 03 mais rejette H 02 (égalité des intercepts), comparer les intercepts deux à deux (test unilatéral). Y X

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 35 Analyse de puissance Pour les modèles linéaires, les épreuves d’hypothèses utilisent un test de F. Attention: SC erreur et dl erreur dépendent du type d ’analyse et de l ’hypothèse éprouvée. Si on connait F, on peut calculer R 2, la proportion de la variance totale de la variable dépendante expliquée par le facteur (variable) considéré.

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 36 R 2 total et partiel Le R 2 total (R 2 YB ) est la proportion de la variance de Y expliquée par toutes les variables indépendantes formant l ’ensemble B Le R 2 partiel (R 2 YA,B - R 2 YA ) est la proportion de la variance expliquée par l ’ensemble B lorsque l’effet des autres facteurs est enlevé. Proportion de la variance expliquée par A et B (R 2 YA,B ) Proportion de la variance expliquée par A (R 2 YA )(R 2 total) Proportion de la variance expliquée par B mais pas par A (R 2 YA,B - R 2 YA ) (R 2 partiel)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 37 Le R 2 total (R 2 YB ) pour l’ensemble B est égal au R 2 partiel (R 2 YA,B - R 2 YA ) si (1) le R 2 total pour l’ensemble A (R 2 YA ) est 0 ou (2) si A et B sont indépendants (et alors R 2 YA,B = R 2 YA + R 2 YB ) Proportion de la variance expliquée par B (R 2 YB )(R 2 t otal) Proportion de la variance inexpliquée par A (R 2 YA,B - R 2 YA ) (R 2 partiel) A Y B A Égal si R 2 total et partiel

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 38 R 2 total et partiel En régression simple et ANOVA à un critère de classification, il n’y a qu’une variable indépendante X (continue ou discontinue) X Y Water temperature (C) 16202428 0.00 0.04 0.08 0.12 0.16 0.20 Growth rate (cm/day)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 39 R 2 total et partiel En ANCOVA, il y a plusieurs variables indépendantes Le R 2 partiel peut différer du R 2 total X1X1 Y pH = 6.5 pH = 4.5 Temperature (C) 16202428 0.00 0.04 0.08 0.12 0.16 0.20 Taux de croissance (cm/jour)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 40 Exemple: R 2 total et partiel en ANCOVA Deux variables indépendantes X 1 (continue) et X 2 (discontinue) X1X1 Y X 2 = L 1 X 2 = L 2

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 41 Définition de la taille de l’effet en GLM La taille de l’effet, f 2 est calculée par le rapport du R 2 facteur sur 1 moins R 2 erreur. Note: R 2 facteur et R 2 erreur dépendent de l’hypothèse nulle

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 42 Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) 1.2106 0.0309 39.1910 0.0000 LAGE 0.3361 0.0238 14.1439 0.0000 Residual standard error: 0.0285 on 90 degrees of freedom Multiple R-Squared: 0.6897 F-statistic: 200.1 on 1 and 90 degrees of freedom, the p-value is 0 Effet du sexe et de l’âge sur la taille des esturgeons à The Pas (régression commune)

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 43 Définition de la taille de l’effet en GLM: Exemple 1 Un ensemble B est relié à Y, et le R 2 total (R 2 YB ) est estimé Le R 2 erreur est alors: 1- R 2 YB H 0 : R 2 YB = 0 Exemple: effet de l’âge B ={LAGE}

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 44 Effet du sexe et de l’âge sur la taille des esturgeons de The Pas Type III Sum of Squares Df Sum of Sq Mean Sq F Value Pr(F) SEX 1 0.0004089 0.0004089 0.5043 0.4794836 LAGE 1 0.1432274 0.1432274 176.6501 0.0000000 SEX:LAGE 1 0.0002730 0.0002730 0.3367 0.5632277 Residuals 88 0.0713501 0.0008108

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 45 Effet du sexe et de l’âge sur la taille des esturgeons de The Pas (modèle ANCOVA) Type III Sum of Squares Df Sum of Sq Mean Sq F Value Pr(F) LAGE 1 0.1433772 0.1433772 178.1627 0.0000000 SEX 1 0.0014899 0.0014899 1.8513 0.1770653 Residuals 89 0.0716231 0.0008048

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 46 Définition de la taille de l’effet en GLM: Exemple 2 Cas 2: la proportion de la variance de Y dûe à B mais pas à A est déterminée (R 2 YA,B - R 2 YA ) Le R 2 erreur est alors 1- R 2 YA,B H 0 : R 2 YA,B - R 2 YA = 0 Exemple: effet de SEX$*LAGE B ={SEX$*LAGE}, A,B = {SEX$, LAGE, SEX$*LAGE}

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 47 Estimation de la puissance À partir de f 2 calculé a priori (hypothèse alternative) ou a posteriori, calculer le paramètre de la distribution de F non-centrale  À partir de , du nombre de dl pour le facteur ( 1 ) and error ( 2 ) degrees of freedom, we can determine power from appropriate tables for given .  =.05)  =.01) 2 décroissant 1-  1 = 2  =.05 2345  =.01 11.52 2.5

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 48 Exemple: effet du pH et des éléments nutritifs sur le taux de croissance de l’achigan Échantillon de 35 lacs 3 niveauxde pH : acide, neutre, basique Taux de croissance estimé pour chaque lac Quelle est la probabilité de détecter un effet partiel du pH de la taille de celui mesuré pour  =.05?

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 49 Taille de l ’effet f 2 pour pH =.14 1 = 2  2 = 35 - 2 - 2- 1 - 1 = 29 Puissance=0.453 Exemple: effet du pH et des éléments nutritifs sur le taux de croissance de l’achigan

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 1 Les modèles linéaires (Generalized Linear.

Présentations similaires

Présentation au sujet: "Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 1 Les modèles linéaires (Generalized Linear."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 1 Les modèles linéaires (Generalized Linear.

Présentations similaires

Présentation au sujet: "Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2015-07-19 17:34 1 Les modèles linéaires (Generalized Linear."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back