Télécharger la présentation
1
Equations d’estimation généralisées: GEE
Michel Chavance 16/03/07
2
Equations d’estimation généralisées (GEE)
Adaptation au cadre du modèle linéaire généralisé de 2 extensions du modèle linéaire Remplacement de l’hypothèse sur la distribution par une hypothèse sur sa moyenne et sa variance (mais on estime toujours les paramètres par les moindres carrés) Prise en compte d’une éventuelle mauvaise spécification de la variance
3
Modèle linéaire Les observations sont supposées normales, indépendantes et de variance constante Les équations du maximum de vraisemblance ont la forme La variance de l’estimateur est l’inverse de la variance des scores
4
Modèle linéaire (2) Si les observations sont normales, indépendantes et de variance constante, l’estimateur des moindres carrés est l’estimateur du maximum de vraisemblance. Il est asymptotiquement sans biais et de variance minimale Si les observations ne sont pas normales, indépendantes et de variance constante, les moindres carrés restent un critère d’optimisation raisonnable, les équations d’estimation sont les mêmes et on obtient l’estimateur linéaire de variance minimale
5
Modèle linéaire généralisé
On connaît la famille de distribution, donc la relation entre moyenne et variance : fonction variance V Les équations du maximum de vraisemblance ont la forme Si V est correctement spécifiée, la variance de l’estimateur est l’inverse de la variance des scores
6
Maximisation de la quasi-vraisemblance
On ne connaît pas la distribution de Y (ni la vraisemblance des paramètres) On connaît la fonction variance V() et on suppose E(Yi) = g() =Xi Var(Yi) = Vi = V(i) L’équation optimise en une « quasi-vraisemblance » et fournit un estimateur de bonne qualité : asymptotiquement sans biais et normal. Il est inutile de connaître l’expression de la log- quasi-vraisemblance (= intégrale du quasi-score / )
7
Maximisation de la quasi-vraisemblance (2)
Les équations du maximum de quasi vraisemblance optimisent en une « quasi-vraisemblance » Variance de l’estimateur: c’est l’inverse de la variance des quasi-scores
8
Maximisation de la quasi-vraisemblance (3)
Si la matrice de variance est mal spécifiée, des simplifications dans le calcul de la variance de ne sont plus possibles, elle devient
9
Exemple : observations corrélées
Si les observations individuelles sont normales, la loi conjointe est multinormale Si les observations individuelles sont binaires ou de comptage pas d’équivalent multivarié de la binomiale ou de la Poisson facile à manipuler Solution : formuler un modèle marginal pour les moyennes, supposer les observations indépendantes, mais utiliser un estimateur robuste (sandwich) pour la variance de
10
Modèle marginal Le modèle stipule - le lien g(ij)
- le prédicteur linéaire g(ij) = Xij - la variance marginale Var(Yij) = Vij - la structure de la matrice des corrélations
11
GEE = équations d’estimation généralisées
On peut espérer obtenir un estimateur plus efficace si l’on tient compte de la structure de corrélation en spécifiant une matrice de corrélation R autre que l’identité et en estimant Liang et Zeger (1986) ont proposé d’alterner Estimation de par Estimation de par la méthode des moments C’est un estimateur asymptotiquement sans biais, même si V est mal spécifiée, à condition que V soit estimable; mais on gagne en efficacité quand V est bien spécifiée
12
Symétrie de composition
Type =independent : = 0 Type=exchangeable
13
Autorégressive Type=AR(1)
14
Type = m-dependent On peut fixer le nombre m de diagonales non nulles
15
Non structurée
16
Enquête de satisfaction
Deux questions Etes vous satisfait de votre logement NON / OUI (Y=0, 1) Etes vous satisfait de son environnement NON / OUI / Très satisfait (X = 0, 1, 2) 20 zones, 3 à 5 foyers par zone Modéliser la relation entre Y et X
17
GEE proc genmod data =mixb descending ; class groupe ;
model domb = voisinage/ dist=binomial link=logit ; repeated subject=groupe / type = cs modelse covb corrw ; =0.82 écart-type sandwich = 0.38 écart-type modèle = 0.34
18
Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Initial Parameter Estimates Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq Intercept voisinage Scale Ce tableau concerne l’estimation par maximisation de la vraisemblance de données supposées indépendantes
19
GEE Model Information Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters Correlation Matrix Dimension Maximum Cluster Size Minimum Cluster Size Covariance Matrix (Model-Based) Prm Prm2 Prm Prm Covariance Matrix (Empirical) Prm Prm
20
GEE Model Information Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters Correlation Matrix Dimension Maximum Cluster Size Minimum Cluster Size Covariance Matrix (Model-Based) Prm Prm2 Prm Prm Covariance Matrix (Empirical) Prm Prm
21
Working Correlation Matrix
Col Col Col Col Col5 Row Row Row Row Row
22
Analysis Of GEE Parameter Estimates
Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept voisinage Model-Based Standard Error Estimates Intercept voisinage Scale
23
Régression logistique alternée
Corrélation entre 2 observations d’un même groupe Pour les observations binaires, Carey, Diggle et Zeger (1993) ont proposé de modéliser les associations intra-groupe à l’aide de l’odds ratio par paires Pratiquement, on estime alternativement, et jusqu’à convergence Le vecteur sachant sachant
24
Régression logistique alternée
proc genmod data =mixb descending ; class groupe ; model domb = voisinage / dist=binomial link=logit ; repeated subject=groupe / logor=exch modelse covb ; vois= sd = 0.38 (sandwich) sd = 0.35 (modèle)
25
Données de comptage corrélées: GEE
Comparaison de 2 traitements (TT) de l’épilepsie Suivi longitudinal du nombre de crises hebdomadaires, visite = rang de l’observation, logsemaines = terme de compensation (offset) pour tenir compte de la durée inégale des délais entre 2 visites Log[E(crises)] = +TT) visite +logsemaines
26
GEE proc genmod data=epilepsie2;
title "EPILEPSIE modele log-lineaire" ; class tt id ; model crises = tt visite tt*visite / offset = logsemaines dist=poisson link=log ; repeated subject=id/ type=ind covb corrw ; Log[E(crises)] = +TT) visite +logsemaines
27
proc genmod data=epilepsie2 order=data ;
title "EPILEPSIE modele log-lineaire" ; class tt id visiteb ; model crises = tt visite tt*visite / offset = logsemaines dist=poisson link=log ; repeated subject=id / withinsubject=visiteb type=ind covb corrw ;
28
Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates
Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept <.0001 tt tt visite visite*tt visite*tt
29
Estimation des ressemblances par quasi-vraisemblance
Estimer la matrice de travail en maximisant une quasi- vraisemblance, non par la méthode des moments (Prentice, 1988) On modélise les probabilités et les corrélations marginales On estime et par GEE
30
Ressemblances intra-groupes: GEE1
Que l’on estime les paramètres de la ressemblance intra- groupe par la méthode des moments, par la régression logistique alternée, ou avec les équations précédentes, les estimateurs de et sont indépendants. Avantage : les erreurs de spécifications de la structure intra- groupe ne biaisent pas l’estimation de Inconvénient: on risque de perdre de l’efficacité par rapport à un estimateur qui saurait prendre en compte les corrélations entre les deux estimateurs
31
Extension : de GEE1 à GEE2 Les Zijk sont supposés indépendants
Les estimateurs de et sont supposés indépendants Il faut donc utiliser l’estimateur sandwich de la variance qui fait maintenant intervenir les moments d’ordre 4 des observations
32
Extension des GEE: GEE2 Les Zijk ne sont pas supposés indépendants :on spécifie une matrice de corrélations de travail Les estimateurs de et ne sont plus supposés indépendants Les erreurs de spécification de la matrice des corrélations vont biaiser l’estimation de puisque celle ci intervient maintenant dans l’estimateur
33
Modèle linéaire généralisé mixte: GLMM
Pour estimer et Gi, il faut intégrer par rapport aux bi On ne sait le faire analytiquement que dans des cas particuliers Y et b normaux, Y Poisson et b ordonnée à l’origine gamma Y binomiale et b ordonnée à l’origine beta
34
GLMM: estimation Que faire dans le cas général: utiliser des méthodes numériques Approcher l’espérance par un développement limité autour de la médiane des bi = 0 (1er ou 2ème ordre) C’est la justification du modèle logistique marginal Utiliser une approximation autour du mode de la distribution des bi (méthode de Laplace) Utiliser une méthode d’intégration numérique Quadrature Quadrature adaptative
35
Biblio Gouriéroux, C, Monfort, A, Trognon, A. Pseudo maximum likelihood methods: theory. Econometrika, 1984;52: Liang KY, Zeger, SL. Longitudinal analysis using generalized linear models. Biometrika, 1986;73:13-22. Prentice RL. Correlated binary regression with covariates specific to each binary observation. Biometrics, 1988;44: Zhao, LP, Prentice SL. Correlated binary regression using a quadratic exponential model. Biometrika,1990;77:
36
Carey, VJ, Zeger, SL, Diggle, PJ
Carey, VJ, Zeger, SL, Diggle, PJ., Modelling multivariate binary data with alternating logistic regression. Biometrika, 1993;80:
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.