Equations d’estimation généralisées: GEE Michel Chavance 16/03/07
Equations d’estimation généralisées (GEE) Adaptation au cadre du modèle linéaire généralisé de 2 extensions du modèle linéaire Remplacement de l’hypothèse sur la distribution par une hypothèse sur sa moyenne et sa variance (mais on estime toujours les paramètres par les moindres carrés) Prise en compte d’une éventuelle mauvaise spécification de la variance
Modèle linéaire Les observations sont supposées normales, indépendantes et de variance constante Les équations du maximum de vraisemblance ont la forme La variance de l’estimateur est l’inverse de la variance des scores
Modèle linéaire (2) Si les observations sont normales, indépendantes et de variance constante, l’estimateur des moindres carrés est l’estimateur du maximum de vraisemblance. Il est asymptotiquement sans biais et de variance minimale Si les observations ne sont pas normales, indépendantes et de variance constante, les moindres carrés restent un critère d’optimisation raisonnable, les équations d’estimation sont les mêmes et on obtient l’estimateur linéaire de variance minimale
Modèle linéaire généralisé On connaît la famille de distribution, donc la relation entre moyenne et variance : fonction variance V Les équations du maximum de vraisemblance ont la forme Si V est correctement spécifiée, la variance de l’estimateur est l’inverse de la variance des scores
Maximisation de la quasi-vraisemblance On ne connaît pas la distribution de Y (ni la vraisemblance des paramètres) On connaît la fonction variance V() et on suppose E(Yi) = g() =Xi Var(Yi) = Vi = V(i) L’équation optimise en une « quasi-vraisemblance » et fournit un estimateur de bonne qualité : asymptotiquement sans biais et normal. Il est inutile de connaître l’expression de la log- quasi-vraisemblance (= intégrale du quasi-score / )
Maximisation de la quasi-vraisemblance (2) Les équations du maximum de quasi vraisemblance optimisent en une « quasi-vraisemblance » Variance de l’estimateur: c’est l’inverse de la variance des quasi-scores
Maximisation de la quasi-vraisemblance (3) Si la matrice de variance est mal spécifiée, des simplifications dans le calcul de la variance de ne sont plus possibles, elle devient
Exemple : observations corrélées Si les observations individuelles sont normales, la loi conjointe est multinormale Si les observations individuelles sont binaires ou de comptage pas d’équivalent multivarié de la binomiale ou de la Poisson facile à manipuler Solution : formuler un modèle marginal pour les moyennes, supposer les observations indépendantes, mais utiliser un estimateur robuste (sandwich) pour la variance de
Modèle marginal Le modèle stipule - le lien g(ij) - le prédicteur linéaire g(ij) = Xij - la variance marginale Var(Yij) = Vij - la structure de la matrice des corrélations
GEE = équations d’estimation généralisées On peut espérer obtenir un estimateur plus efficace si l’on tient compte de la structure de corrélation en spécifiant une matrice de corrélation R autre que l’identité et en estimant Liang et Zeger (1986) ont proposé d’alterner Estimation de par Estimation de par la méthode des moments C’est un estimateur asymptotiquement sans biais, même si V est mal spécifiée, à condition que V soit estimable; mais on gagne en efficacité quand V est bien spécifiée
Symétrie de composition Type =independent : = 0 Type=exchangeable
Autorégressive Type=AR(1)
Type = m-dependent On peut fixer le nombre m de diagonales non nulles
Non structurée
Enquête de satisfaction Deux questions Etes vous satisfait de votre logement NON / OUI (Y=0, 1) Etes vous satisfait de son environnement NON / OUI / Très satisfait (X = 0, 1, 2) 20 zones, 3 à 5 foyers par zone Modéliser la relation entre Y et X
GEE proc genmod data =mixb descending ; class groupe ; model domb = voisinage/ dist=binomial link=logit ; repeated subject=groupe / type = cs modelse covb corrw ; =0.82 écart-type sandwich = 0.38 écart-type modèle = 0.34
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 94 124.9594 1.3294 Scaled Deviance 94 124.9594 1.3294 Pearson Chi-Square 94 96.0305 1.0216 Scaled Pearson X2 94 96.0305 1.0216 Log Likelihood -62.4797 Analysis Of Initial Parameter Estimates Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq Intercept 1 -0.9761 0.3994 -1.7588 -0.1933 5.97 0.0145 voisinage 1 1.0007 0.3761 0.2635 1.7379 7.08 0.0078 Scale 0 1.0000 0.0000 1.0000 1.0000 Ce tableau concerne l’estimation par maximisation de la vraisemblance de données supposées indépendantes
GEE Model Information Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters 20 Correlation Matrix Dimension 5 Maximum Cluster Size 5 Minimum Cluster Size 3 Covariance Matrix (Model-Based) Prm1 Prm2 Prm1 0.17135 -0.10377 Prm2 -0.10377 0.11502 Covariance Matrix (Empirical) Prm1 0.19373 -0.13163 Prm2 -0.13163 0.14464
GEE Model Information Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters 20 Correlation Matrix Dimension 5 Maximum Cluster Size 5 Minimum Cluster Size 3 Covariance Matrix (Model-Based) Prm1 Prm2 Prm1 0.17135 -0.10377 Prm2 -0.10377 0.11502 Covariance Matrix (Empirical) Prm1 0.19373 -0.13163 Prm2 -0.13163 0.14464
Working Correlation Matrix Col1 Col2 Col3 Col4 Col5 Row1 1.0000 0.1979 0.1979 0.1979 0.1979 Row2 0.1979 1.0000 0.1979 0.1979 0.1979 Row3 0.1979 0.1979 1.0000 0.1979 0.1979 Row4 0.1979 0.1979 0.1979 1.0000 0.1979 Row5 0.1979 0.1979 0.1979 0.1979 1.0000
Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept -0.8106 0.4401 -1.6732 0.0521 -1.84 0.0655 voisinage 0.8204 0.3803 0.0750 1.5658 2.16 0.0310 Model-Based Standard Error Estimates Intercept -0.8106 0.4139 -1.6219 0.0008 -1.96 0.0502 voisinage 0.8204 0.3391 0.1557 1.4851 2.42 0.0156 Scale 1.0000 . . . . .
Régression logistique alternée Corrélation entre 2 observations d’un même groupe Pour les observations binaires, Carey, Diggle et Zeger (1993) ont proposé de modéliser les associations intra-groupe à l’aide de l’odds ratio par paires Pratiquement, on estime alternativement, et jusqu’à convergence Le vecteur sachant sachant
Régression logistique alternée proc genmod data =mixb descending ; class groupe ; model domb = voisinage / dist=binomial link=logit ; repeated subject=groupe / logor=exch modelse covb ; vois= 0.84 sd = 0.38 (sandwich) sd = 0.35 (modèle)
Données de comptage corrélées: GEE Comparaison de 2 traitements (TT) de l’épilepsie Suivi longitudinal du nombre de crises hebdomadaires, visite = rang de l’observation, logsemaines = terme de compensation (offset) pour tenir compte de la durée inégale des délais entre 2 visites Log[E(crises)] = +TT) visite +logsemaines
GEE proc genmod data=epilepsie2; title "EPILEPSIE modele log-lineaire" ; class tt id ; model crises = tt visite tt*visite / offset = logsemaines dist=poisson link=log ; repeated subject=id/ type=ind covb corrw ; Log[E(crises)] = +TT) visite +logsemaines
proc genmod data=epilepsie2 order=data ; title "EPILEPSIE modele log-lineaire" ; class tt id visiteb ; model crises = tt visite tt*visite / offset = logsemaines dist=poisson link=log ; repeated subject=id / withinsubject=visiteb type=ind covb corrw ;
Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept 1.3810 0.1586 1.0700 1.6919 8.70 <.0001 tt 1 -0.1523 0.1939 -0.5322 0.2277 -0.79 0.4323 tt 0 0.0000 0.0000 0.0000 0.0000 . . visite 0.0185 0.0400 -0.0598 0.0969 0.46 0.6426 visite*tt 1 -0.0865 0.0573 -0.1988 0.0258 -1.51 0.1311 visite*tt 0 0.0000 0.0000 0.0000 0.0000 . .
Estimation des ressemblances par quasi-vraisemblance Estimer la matrice de travail en maximisant une quasi- vraisemblance, non par la méthode des moments (Prentice, 1988) On modélise les probabilités et les corrélations marginales On estime et par GEE
Ressemblances intra-groupes: GEE1 Que l’on estime les paramètres de la ressemblance intra- groupe par la méthode des moments, par la régression logistique alternée, ou avec les équations précédentes, les estimateurs de et sont indépendants. Avantage : les erreurs de spécifications de la structure intra- groupe ne biaisent pas l’estimation de Inconvénient: on risque de perdre de l’efficacité par rapport à un estimateur qui saurait prendre en compte les corrélations entre les deux estimateurs
Extension : de GEE1 à GEE2 Les Zijk sont supposés indépendants Les estimateurs de et sont supposés indépendants Il faut donc utiliser l’estimateur sandwich de la variance qui fait maintenant intervenir les moments d’ordre 4 des observations
Extension des GEE: GEE2 Les Zijk ne sont pas supposés indépendants :on spécifie une matrice de corrélations de travail Les estimateurs de et ne sont plus supposés indépendants Les erreurs de spécification de la matrice des corrélations vont biaiser l’estimation de puisque celle ci intervient maintenant dans l’estimateur
Modèle linéaire généralisé mixte: GLMM Pour estimer et Gi, il faut intégrer par rapport aux bi On ne sait le faire analytiquement que dans des cas particuliers Y et b normaux, Y Poisson et b ordonnée à l’origine gamma Y binomiale et b ordonnée à l’origine beta
GLMM: estimation Que faire dans le cas général: utiliser des méthodes numériques Approcher l’espérance par un développement limité autour de la médiane des bi = 0 (1er ou 2ème ordre) C’est la justification du modèle logistique marginal Utiliser une approximation autour du mode de la distribution des bi (méthode de Laplace) Utiliser une méthode d’intégration numérique Quadrature Quadrature adaptative
Biblio Gouriéroux, C, Monfort, A, Trognon, A. Pseudo maximum likelihood methods: theory. Econometrika, 1984;52:681-700 Liang KY, Zeger, SL. Longitudinal analysis using generalized linear models. Biometrika, 1986;73:13-22. Prentice RL. Correlated binary regression with covariates specific to each binary observation. Biometrics, 1988;44:1033-1048. Zhao, LP, Prentice SL. Correlated binary regression using a quadratic exponential model. Biometrika,1990;77:642-648.
Carey, VJ, Zeger, SL, Diggle, PJ Carey, VJ, Zeger, SL, Diggle, PJ., Modelling multivariate binary data with alternating logistic regression. Biometrika, 1993;80:517-526.