La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:06 1 Les modèles linéaires (Generalized Linear.

Présentations similaires


Présentation au sujet: "Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:06 1 Les modèles linéaires (Generalized Linear."— Transcription de la présentation:

1 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 1 Les modèles linéaires (Generalized Linear Models, GLM) Ce quils sont Quand les utiliser? Modèle complet Le modèle dANCOVA Le modèle de la régression commune Le principe de la somme des carrés additionnelles Hypothèses implicites

2 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 2 Définition des GLM Les GLM sont des modèles de la forme suivante: Y est un vecteur des variables dépendantes, b est un vecteur des estimés des coefficients, X est un vecteur des variables indépendantes et e représente les termes derreur. Modèles multivariés Régression linéaire simple Régression linéaire simple Régression multiple Analyse de variance (ANOVA) Analyse de variance (ANOVA) Analyse de covariance (ANCOVA) Analyse de covariance (ANCOVA)

3 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 3 Quelques procédures GLM *peuvent être discontinues ou traitées comme discontinues

4 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 4 Utilisation de lANCOVA Afin de comparer une relation entre une variable dépendante (Y) et une variable indépendante (X 1 ) pour différents niveaux dune variable discontinue (X 2 ) ex: la relation entre le poids (Y) et la taille (X 1 ) pour différents groupes taxonomiques (oiseaux et mammifères, X 2 ) Taille Masse Taille

5 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 5 Utilisation de lANCOVA Lorsque lon fait ces comparaison, on assume que les modèles sont qualitativement similaires pour tous les niveaux de la variable discontinue... …autrement ce serait comme comparer des pommes et des oranges! Niveau 1 de X 2 Niveau 2 de X 2 X1X1 Y Modèles qualitativement différents Y Modèles qualitativement similaires

6 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 6 Utilisation de lANCOVA ANCOVA est utilisée afin de comparer des modèles linéaires. …certains modèles non- linéaires peuvent être comparés avec des ANCOVA modifiées Niveau 1 de X 2 Niveau 2 de X 2 X1X1 Y Modèles non-linéaires X1X1 Y Modèles linéaires

7 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 7 Le modèle de la régression simple Le modèle de la régression: alors, toutes les régressions simples sont décrites par 2 paramètres: lordonnée à lorigine (a) et la pente (b) X X Y b = Y X (pente) a (ordonnée à lorigine) eiei XiXi YiYi Observées Prédites

8 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 8 GLM simples Deux modèles linéaires peuvent varier de plusieurs façons: Les ordonnées à lorigine (a) et les pentes (b) sont différentes Les ordonnées à lorigine sont différents mais les pentes sont les mêmes (modèle dANCOVA) X1X1 Y a diffèrent même b X1X1 Y a & b diffèrent

9 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 9 GLM simples Deux modèles linéaires peuvent aussi être différents: mêmes ordonnée à lorigine (a) mais les pentes (b) sont différentes mêmes pentes et mêmes ordonnées à lorigine (modéle de la régression commune) X1X1 Y Mêmes a, mêmes b X1X1 Y Mêmes a différents b

10 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 10 Ajustement des GLM Lanalyse se fait par étape en commençant avec le modéle le plus complexe Déterminer la signification de chaque terme en ajustant deux modèles: un contenant le terme et lautre qui lexclut Tester les changements dans lajustement ( G ou F) associés à lexclusion du terme en question. Modèle A (terme inclus) Modèle B (terme enlevé) G ou F (ex: RMS) Enlever le terme (petit ) Inclure le terme (grand )

11 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 11 Ajustement au modèle: détermination de la signification des termes du modèle Commencer par un modèle dordre supérieur (mos) en incluant le plus de termes possible. Noter SC résidus et CM résidus Ajuster un modèle réduit (mr) et noter SC résidus Tester la signification du terme exclus en calculant: Modèle dordre supérieur Modèle réduit F Terme exclus (p ) Terme inclus (p )

12 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 12 Modèle complet avec 2 variables indépendantes Le modèle complet i est la pente de la régression de Y sur X 1 estimée pour le niveau i de la variable catégorique X 2 i est la différence entre les moyennes de la variable catégorique X 2 pour chaque niveau i et la moyenne générale. Niveau 1 de la variable X 2 Niveau 2 de la variable X 2

13 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 13 Le modèle complet: hypothèses nulles Pour le modèle complet contenant 2 variables indépendantes, on note 3 hypothèses nulles: Niveau 1 de la variable X 2 Niveau 2 de la variable X 2

14 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 14 Y Y Y

15 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 15 Conditions dapplication Les résidus sont indépendants et distribués normalement La variance des résidus est égale pour toutes les valeurs de X et indépendantes des valeurs de la variable discontinue (homoscedasticité) pas derreur sur les variables indépendantes linéarité

16 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 16 Procédure Ajuster le modèle complet, tester pour la différence entre les pentes Si H 02 est rejetée, faire des régressions séparées pour chaque niveau de la variable catégorique Si H 02 est acceptée, ajuster le modèle d ANCOVA. Niveau 1 de la variable X 2 Niveau 2 de la variable X 2 X1X1 Y ANCOVA Régressions séparées H 02 acceptéeH 02 rejetéee

17 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 17 Le modèle complet: est la pente de la régression de Y sur X 1 regroupée pour tous les niveaux de la variable catégorique X 2. i est la différence entre la moyenne pour chaque niveau i et la moyenne générale Le modèle dANCOVA avec 2 variables indépendantes Niveau 1 de la variable X 2 Niveau 2 de la variable X 2

18 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 18 Le modèle dANCOVA: hypothèses nulles Pour une ANCOVA avec 2 variables indépendantes, on note deux hypothèses nulles: Niveau 1 de la variable X 2 Niveau 2 de la variable X 2

19 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 19 Y Y Y

20 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 20 Conditions dapplication du modèle dANCOVA les résidus sont indépendants et distribués normalement la variance des résidus est égale pour toutes les valeurs de X et indépendantes des valeurs de la variable catégorique (homoscedasticité) pas derreur sur les variables indépendantes linéarité les pentes des régressions de Y sur X sont les mêmes pour tous les niveaux de la variable catégorique (ce nest pas une condition dapplication du modèle complet!!)

21 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 21 Procédure Ajuster le modèle dANCOVA, tester pour les différences entre les pentes. Si H 01 est rejetée, séparer les régressions pour chaque niveau de la variable discontinue Si H 01 est acceptée, ajuster une régression commune. Niveau 1 de la variable X 2 Niveau 2 de la variable X 2 X1X1 Y Régression commune Régressions séparées H 01 acceptéeH 01 rejetée

22 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 22 Le modèle: est la pente de la régression de Y sur X 1, regroupée pour tous les niveaux de la variable catégorique X 2. est la moyenne regroupée de X 1. Le modèle de la régression commune avec 2 variables indépendantes Niveau 1 de la variable X 2 Niveau 2 de la variable X 2

23 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 23 La régression commune: hypothèses nulles On a deux hypothèses nulles pour la régression commune: Niveau 1 de la variable X 2 Niveau 2 de la variable X 2

24 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 24 Conditions dapplication de la régression commune Les résidus sont indépendants et distribués normalement la variance des résidus est égale pour toutes les valeurs de X et indépendantes des valeurs de la variable catégorique (homoscedasticité) pas derreur sur les variables indépendantes linéarité

25 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 25 Effets du sexe et de lâge sur les esturgeons de The Pas Mâles Femelles

26 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 26 Analyse Log(forklength)(LFKL) est la variable dépendante, log(age) (LAGE) est la variable indépendante continue, et sex (SEX$) est la variable discontinue (2 niveaux) Q1: la pente de la régression de LFKL sur LAGE est la même pour les deux sexes? Femelles Mâles

27 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 27 Effets du sexe et de lâge sur les esturgeons de The Pas

28 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 28 Analyse Conclusion 1: la pente est la même pour les deux sexes (accepter H 03 ) p(SEX$*LAGE) >.05 Q2: lordonnée à lorigine est-elle la même? Femelles Mâles

29 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 29 Effets du sexe et de lâge sur les esturgeons de The Pas (modèle dANCOVA)

30 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 30 Analyse Conclusion 2: Ordonnée à lorigine est la même pour les deux sexes. H 02 est acceptée. p(SEX$ >.05), le meilleur modèle est la régression commune. Notez que la réduction du R 2 est négligeable (.697 to.696). Le terme nest donc pas utile. Females Males

31 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 31 Effets du sexe et de lâge sur les esturgeons de The Pas (régression commune)

32 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 32 Effets du site et de lâge sur la taille des esturgeons

33 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 33 Analyse Log(forklength)(LFKL) est la variable dépendante, log(age) (LAGE) est la variable indépendante continue, et le site la variable indépendante discontinue (2 sites) Q1: la pente de la relation de LFKL sur LAGE varie- t-elle entre les sites? Nelson River Lake of the Woods

34 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 34 Effets du site et de lâge sur la taille des esturgeons

35 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 35 Analyse Conclusion 1: la pente varie entre les sites (rejeter H 03 ) p(LOCATION$*LAGE) <.05 On devrait ajuster des régressions séparées pour chaque site. Nelson River Lake of the Woods

36 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 36 Que faire si? La variable discontinue a plus de deux niveaux? Suivre les mêmes étapes. Si on rejette lhypothèse dégalité des pentes (H 03 ) on compare les pentes deux à deux. Si on accepte H 03 mais rejette H 02 (égalité des intercepts), comparer les intercepts deux à deux. Ajuster niveau.... Y X

37 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 37 Que faire si? L hypothèse biologique est unilatérale? Suivre les mêmes étapes. Si on rejette lhypothèse dégalité des pentes (H 03 ) on compare les pentes deux à deux (test unilatéral). Si on accepte H 03 mais rejette H 02 (égalité des intercepts), comparer les intercepts deux à deux (test unilatéral). Y X

38 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 38 Analyse de puissance Pour les modèles linéaires, les épreuves dhypothèses utilisent un test de F. Attention: SC erreur et dl erreur dépendent du type d analyse et de l hypothèse éprouvée. Si on connait F, on peut calculer R 2, la proportion de la variance totale de la variable dépendante expliquée par le facteur (variable) considéré.

39 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 39 R 2 total et partiel Le R 2 total (R 2 YB ) est la proportion de la variance de Y expliquée par toutes les variables indépendantes formant l ensemble B Le R 2 partiel (R 2 YA,B - R 2 YA ) est la proportion de la variance expliquée par l ensemble B lorsque leffet des autres facteurs est enlevé. Proportion de la variance expliquée par A et B (R 2 YA,B ) Proportion de la variance expliquée par A (R 2 YA )(R 2 total) Proportion de la variance expliquée par B mais pas par A (R 2 YA,B - R 2 YA ) (R 2 partiel)

40 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 40 Le R 2 total (R 2 YB ) pour lensemble B est égal au R 2 partiel (R 2 YA,B - R 2 YA ) si (1) le R 2 total pour lensemble A (R 2 YA ) est 0 ou (2) si A et B sont indépendants (et alors R 2 YA,B = R 2 YA + R 2 YB ) Proportion de la variance expliquée par B (R 2 YB )(R 2 t otal) Proportion de la variance inexpliquée par A (R 2 YA,B - R 2 YA ) (R 2 partiel) A Y B A Égal si R 2 total et partiel

41 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 41 R 2 total et partiel En régression simple et ANOVA à un critère de classification, il ny a quune variable indépendante X (continue ou discontinue) X Y Water temperature (C) Growth rate (cm/day)

42 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 42 R 2 total et partiel En ANCOVA, il y a plusieurs variables indépendantes Le R 2 partiel peut différer du R 2 total X1X1 Y pH = 6.5 pH = 4.5 Temperature (C) Taux de croissance (cm/jour)

43 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 43 Exemple: R 2 total et partiel en ANCOVA Deux variables indépendantes X 1 (continue) et X 2 (discontinue) X1X1 Y X 2 = L 1 X 2 = L 2

44 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 44 Définition de la taille de leffet en GLM La taille de leffet, f 2 est calculée par le rapport du R 2 facteur sur 1 moins R 2 erreur. Note: R 2 facteur et R 2 erreur dépendent de lhypothèse nulle

45 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 45 Effet du sexe et de lâge sur la taille des esturgeons à The Pas (régression commune)

46 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 46 Définition de la taille de leffet en GLM: Exemple 1 Un ensemble B est relié à Y, et le R 2 total (R 2 YB ) est estimé Le R 2 erreur est alors: 1- R 2 YB H 0 : R 2 YB = 0 Exemple: effet de lâge B ={LAGE}

47 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 47 Effet du sexe et de lâge sur la taille des esturgeons de The Pas

48 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 48 Effet du sexe et de lâge sur la taille des esturgeons de The Pas (modèle ANCOVA)

49 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 49 Définition de la taille de leffet en GLM: Exemple 2 Cas 2: la proportion de la variance de Y dûe à B mais pas à A est déterminée (R 2 YA,B - R 2 YA ) Le R 2 erreur est alors 1- R 2 YA,B H 0 : R 2 YA,B - R 2 YA = 0 Exemple: effet de SEX$*LAGE B ={SEX$*LAGE}, A,B = {SEX$, LAGE, SEX$*LAGE}

50 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 50 Estimation de la puissance À partir de f 2 calculé a priori (hypothèse alternative) ou a posteriori, calculer le paramètre de la distribution de F non-centrale À partir de, du nombre de dl pour le facteur ( 1 ) and error ( 2 ) degrees of freedom, we can determine power from appropriate tables for given. =.05) =.01) 2 décroissant 1- 1 = 2 = =

51 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 51 Exemple: effet du pH et des éléments nutritifs sur le taux de croissance de lachigan Échantillon de 35 lacs 3 niveauxde pH : acide, neutre, basique Taux de croissance estimé pour chaque lac Quelle est la probabilité de détecter un effet partiel du pH de la taille de celui mesuré pour =.05?

52 Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :06 52 Taille de l effet f 2 pour pH =.14 1 = 2 2 = = 29 Exemple: effet du pH et des éléments nutritifs sur le taux de croissance de lachigan


Télécharger ppt "Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:06 1 Les modèles linéaires (Generalized Linear."

Présentations similaires


Annonces Google