Modèle Linéaire Généralisé (Proc Genmod) Michel Tenenhaus
I. Les données Y = Variable à expliquer X1,…, Xp = Variables explicatives
II. La famille exponentielle Loi de Y - Les fonctions a, b, c sont fixées. - est un paramètre de dispersion ou « nuisance parameter ». - a() = pour des données individuelles, = /w pour des données groupées (w = effectif du groupe)
Résultats 1. = E(Y) = b´() 2. Dans la pratique b´() est monotone : 3. Var(Y) = a()b() 4. b() = b(gc()) = () gc est la fonction de lien canonique. = gc() Var(Y) = a() () () est la fonction-variance.
1. Loi de Poisson De : on déduit : = Log(), b() = , a() = 1 D’où : E(Y) = Var(Y) =
E(Y) = et Var(Y) = (1 - )/m 2. Loi binomiale De : on déduit : D’où : E(Y) = et Var(Y) = (1 - )/m
3. Loi normale De : on déduit : D’où : E(Y) = et Var(Y) = 2
E(Y) = , Var(Y) = 2/, et CV = 4. Loi gamma De : on déduit : D’où : E(Y) = , Var(Y) = 2/, et CV =
E(Y) = , Var(Y) = 32, et CV = 5. Loi de Gauss inverse De : on déduit : D’où : E(Y) = , Var(Y) = 32, et CV =
III. Fonction de lien canonique on déduit :
Autres fonctions de lien usuelles Complementary Log Log Power Probit
IV. Le modèle Linéaire Généralisé Les données - Individuelles : (yi, x1i,…, xpi), i = 1,…, n - Groupées : , i = 1,…, n Loi de Yi Le modèle Généralisation au niveau de la fonction de réponse (g(i) au lieu de i , et au niveau de la loi de Yi (famille exponentielle au lieu de la loi normale).
Estimation des j par maximum de vraisemblance La loi de Yi peut s’écrire en fonction de 1,…, p en remplaçant i par : puisque .
Résultats de la maximisation de la vraisemblance on déduit : À maximiser sur et éventuellement sur . D ’où : puisque .
« Estimating Equations » On définit la log-vraisemblance On obtient en annulant le vecteur Score . avec . i
Déviance normalisée D* (Scaled deviance) Modèle étudié : Modèle saturé : Déviance normalisée : si le modèle étudié est exact (approximation médiocre). puisque .
Déviance D des lois standards La déviance D est égale à D* Une fois fixé, le maximum de vraisemblance conduit à minimiser la déviance D.
Étude de Loi de Intervalle de confiance de (Wald)
Intervalle de confiance de « Profile likelihood function » Intervalle de confiance de
Intervalle de confiance de i on déduit l’intervalle de i à 95% :
Test de l ’hypothèse linéaire générale H0 : L´ = 0 WALD suit un 2(rang L) sous l’hypothèse H0. LRT (Likelihood Ratio Test) suit un 2(rang L) sous l’hypothèse H0. LRT est meilleur que Wald
Analyse des résidus Résidu observé Résidu-Pearson Résidu-déviance
Les résidus normalisés Les résidu-Pearson et résidu-déviance sont normalisés en les divisant par leurs écarts-types. Résidu-vraisemblance normalisé où rPi* et rDi* sont les résidu-Pearson et résidu-déviance normalisés, et hi le levier de l’observation i. Les résidus normalisés peuvent être comparés à 2.
Estimation du paramètre de dispersion pour les lois binomiale et Poisson théorique = 1 ~ 2(n-p) E(D) = E(P2) = n - p (p = nombre de paramètres)
Estimation du paramètre de dispersion pour les lois normales, Gamma et Gauss inverse Les paramètres 1,…, p et sont estimés par maximum de vraisemblance.
La sur-dispersion dans les modèles Poisson et Binomiale ( ) Réponse Yi Poisson ou Binomiale Poisson : Var(Yi) = i Binomiale : Var(Yi) = i(1- i) Matrice d’information de Fisher : Loi de : N(,J-1)
Prise en compte de la sur-dispersion Approche WALD Poisson : Var(Yi) = Binomiale : Var(Yi) = J divisé par J-1 multiplié par ~ N(, J-1) Var( ) est multipliée par Résultats moins significatifs
Prise en compte de la sur-dispersion Approche LRT Loi de Yi : Poisson et Binomiale : a() = 1 Pour prendre en compte la sur-dispersion on pose a() = Les tests LRT sont divisés par . Les résultats sont moins significatifs.
Exemple Mélanome
Exemple Mélanome Modèle 1 Yi ~ Poisson (i) avec : Yi = ni = Nombre de cas observés parmi Ni personnes soumises au risque Modèle 1 Yi ~ Poisson (i) avec : Log(i) = Log(Ni) + 0 + 1(Age<35) + … + 11(Age(65-74)*Nord)
Exemple Mélanome : Code SAS pour le Modèle 1 data melanome; input id $ age $ region $ cas pop; logpop=log(pop); cards; n,<35 <35 n 61 2880262 s,<35 <35 s 64 1074246 . n,>74 >74 n 80 161850 s,>74 >74 s 27 34233 ; proc genmod data=melanome order=data; class age region; model cas=age region age*region /dist=poisson link=log offset=logpop type3 ; run;
Exemple Mélanome : Résultat pour le Modèle 1 Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 0 0.0000 . Scaled Deviance 0 0.0000 . Pearson Chi-Square 0 0.0000 . Scaled Pearson X2 0 0.0000 . Log Likelihood 2698.0337 LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq age 5 715.99 <.0001 region 1 108.19 <.0001 age*region 5 6.21 0.2859
Exemple Mélanome : Modèle 2 Yi ~ Poisson (i) avec :
Exemple Mélanome : résultat du Modèle 2 Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 5 6.2149 1.2430 Scaled Deviance 5 6.2149 1.2430 Pearson Chi-Square 5 6.1151 1.2230 Scaled Pearson X2 5 6.1151 1.2230 Log Likelihood 2694.9262 LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq age 5 796.74 <.0001 region 1 124.22 <.0001
Exemple Mélanome : résultat du Modèle 2 Analysis Of Parameter Estimates Standard Wald 95% Parameter DF Estimate Error Confidence Limits Intercept 1 -6.8941 0.1079 -7.1057 -6.6826 age <35 1 -2.9447 0.1320 -3.2035 -2.6859 age 35-44 1 -1.1473 0.1268 -1.3958 -0.8988 age 45-54 1 -1.0316 0.1242 -1.2750 -0.7881 age 55-64 1 -0.7029 0.1240 -0.9458 -0.4599 age 65-74 1 -0.5790 0.1364 -0.8464 -0.3115 age >74 0 0.0000 0.0000 0.0000 0.0000 region n 1 -0.8195 0.0710 -0.9587 -0.6803 region s 0 0.0000 0.0000 0.0000 0.0000 Scale 0 1.0000 0.0000 1.0000 1.0000 Chi- Parameter Square Pr > ChiSq Intercept 4080.10 <.0001 age <35 497.30 <.0001 age 35-44 81.89 <.0001 age 45-54 68.98 <.0001 age 55-64 32.15 <.0001 age 65-74 18.00 <.0001 age >74 . . region n 133.11 <.0001 region s . . Scale NOTE: The scale parameter was held fixed.
Exemple Mélanome : Contrastes Test « 35-44 vs 45-54 » : H0 : 2 = 3 Test « 55-64 vs 65-74 » : H0 : 4 = 5 proc genmod data=melanome order=data; class age region; model cas=age region/dist=poisson link=log offset=logpop type3 ; contrast '35-44 vs 45-54' age 0 -1 1 0 0 0; contrast '55-64 vs 65-74' age 0 0 0 -1 1 0; contrast '35-44 vs 45-54' age 0 -1 1 0 0 0 / wald; contrast '55-64 vs 65-74' age 0 0 0 -1 1 0 / wald; run;
Exemple Mélanome : Contrastes Contrast Results Chi- Contrast DF Square Pr > ChiSq Type 35-44 vs 45-54 1 1.06 0.3033 LR 55-64 vs 65-74 1 1.00 0.3179 LR 35-44 vs 45-54 1 1.06 0.3036 Wald 55-64 vs 65-74 1 1.01 0.3157 Wald Conclusion : On peut simplifier le modèle.
Exemple Mélanome : Modèle 3 Yi ~ Poisson (i) avec :
Exemple Mélanome : Estimation du modèle 3 data b; set melanome; age1=(age = "<35"); age2=(age = "35-44") or (age="45-54"); age3=(age = "55-64") or (age="65-74"); proc genmod data=b order=data; class region; model cas=age1 age2 age3 region/dist=poisson link=log offset=logpop type3; contrast 'age' age1 1, age2 1, age3 1 /e; age3 1 / wald; run;
Exemple Mélanome : Estimation du modèle 3 Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 7 8.2709 1.1816 Scaled Deviance 7 8.2709 1.1816 Pearson Chi-Square 7 8.2329 1.1761 Scaled Pearson X2 7 8.2329 1.1761 Log Likelihood 2693.8982 Analysis Of Parameter Estimates Likelihood Ratio Standard 95% Confidence Parameter DF Estimate Error Limits Intercept 1 -6.8962 0.1079 -7.1132 -6.6898 age1 1 -2.9443 0.1320 -3.2026 -2.6843 age2 1 -1.0880 0.1122 -1.3041 -0.8640 age3 1 -0.6558 0.1140 -0.8759 -0.4284 region n 1 -0.8165 0.0710 -0.9551 -0.6767 region s 0 0.0000 0.0000 0.0000 0.0000
Exemple Mélanome : Estimation du modèle 3 Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept 4081.63 <.0001 age1 497.17 <.0001 age2 94.09 <.0001 age3 33.07 <.0001 region n 132.24 <.0001 region s . . Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age 3 794.69 <.0001 LR age 3 606.00 <.0001 Wald
Exemple Mélanome : Modèle 4 Yi ~ Binomiale (Ni , pi ) Ni grand et pi petit impliquent : Yi Poisson (i = Nipi) D’où le modèle Yi ~ Binomiale (Ni , pi ) avec :
Exemple Mélanome : Estimation du modèle 4 proc genmod data=b order=data; class region; model cas/pop=age1 age2 age3 region/dist=bin link=log type3; contrast 'age' age1 1, age2 1, age3 1; run;
Exemple Mélanome : Estimation du modèle 4 Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 7 8.2745 1.1821 Scaled Deviance 7 8.2745 1.1821 Pearson Chi-Square 7 8.2368 1.1767 Scaled Pearson X2 7 8.2368 1.1767 Log Likelihood -7793.1578 Analysis Of Parameter Estimates Standard Wald 95% Confidence Parameter DF Estimate Error Limits Intercept 1 -6.8963 0.1079 -7.1077 -6.6848 age1 1 -2.9442 0.1320 -3.2030 -2.6855 age2 1 -1.0880 0.1121 -1.3077 -0.8682 age3 1 -0.6558 0.1140 -0.8792 -0.4323 region n 1 -0.8164 0.0710 -0.9556 -0.6773 region s 0 0.0000 0.0000 0.0000 0.0000
Exemple Mélanome : Estimation du modèle 4 Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept 4084.47 <.0001 age1 497.34 <.0001 age2 94.13 <.0001 age3 33.09 <.0001 region n 132.28 <.0001 region s . . Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age 3 794.81 <.0001 LR
Exemple Mélanome : Modèle 5 Yi ~ Binomiale (Ni , pi ) Comme la probabilité pi est petite : D ’où le modèle Yi ~ Binomiale (Ni , pi ) avec : Régression de Poisson = régression logistique lorsque pi est petit et Ni est grand.
Exemple Mélanome : Estimation du modèle 5 proc genmod data=b order=data; class region; model cas/pop=age1 age2 age3 region/dist=bin link=logit type3; contrast 'age' age1 1, age2 1, age3 1; run;
Exemple Mélanome : Estimation du modèle 5 Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 7 8.2667 1.1810 Scaled Deviance 7 8.2667 1.1810 Pearson Chi-Square 7 8.2292 1.1756 Scaled Pearson X2 7 8.2292 1.1756 Log Likelihood -7793.1539 Analysis Of Parameter Estimates Standard Wald 95% Confidence Parameter DF Estimate Error Limits Intercept 1 -6.8954 0.1080 -7.1070 -6.6838 age1 1 -2.9449 0.1321 -3.2038 -2.6860 age2 1 -1.0884 0.1122 -1.3083 -0.8685 age3 1 -0.6561 0.1141 -0.8797 -0.4325 region n 1 -0.8167 0.0710 -0.9559 -0.6775 region s 0 0.0000 0.0000 0.0000 0.0000
Exemple Mélanome : Estimation du modèle 5 Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept 4077.88 <.0001 age1 497.19 <.0001 age2 94.11 <.0001 age3 33.08 <.0001 region n 132.28 <.0001 region s . . Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age 3 794.82 <.0001 LR
Exemple Coléoptères Yi = ni = Nombre de morts parmi Ni coléoptères soumis au risque à la dose xi de disulfide de carbone
Les modèles Loi de Yi : Binomiale (Ni , pi) Fonction de lien g(pi) : - Logit : Log(pi/(1-pi)) - Probit : Fractile d’ordre pi d’une loi normale réduite - Complementary Log Log : Log(-Log(1-pi)) Modèle : g(pi) = 0 + 1xi
Résultats : Modèle Logit Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 6 11.2322 1.8720 Scaled Deviance 6 11.2322 1.8720 Pearson Chi-Square 6 10.0268 1.6711 Scaled Pearson X2 6 10.0268 1.6711 Log Likelihood -186.2354 Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept 1 -60.7175 5.1807 -70.8715 -50.5634 137.36 <.0001 dose 1 34.2703 2.9121 28.5626 39.9780 138.49 <.0001 Scale 0 1.0000 0.0000 1.0000 1.0000 NOTE: The scale parameter was held fixed.
Résultats : Modèle Probit Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 6 10.1198 1.6866 Scaled Deviance 6 10.1198 1.6866 Pearson Chi-Square 6 9.5134 1.5856 Scaled Pearson X2 6 9.5134 1.5856 Log Likelihood -185.6792 Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept 1 -34.9353 2.6395 -40.1086 -29.7619 175.18 <.0001 dose 1 19.7279 1.4841 16.8192 22.6366 176.71 <.0001 Scale 0 1.0000 0.0000 1.0000 1.0000 NOTE: The scale parameter was held fixed.
Résultats : Modèle Cloglog Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 6 3.4464 0.5744 Scaled Deviance 6 3.4464 0.5744 Pearson Chi-Square 6 3.2947 0.5491 Scaled Pearson X2 6 3.2947 0.5491 Log Likelihood -182.3425 Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept 1 -39.5723 3.2290 -45.9012 -33.2435 150.19 <.0001 dose 1 22.0412 1.7931 18.5268 25.5556 151.10 <.0001 Scale 0 1.0000 0.0000 1.0000 1.0000 NOTE: The scale parameter was held fixed.
Comparaison des modèles
Comparaison des modèles
Exemple SIDA Yi = Nombre de morts du Sida par trimestre de 83 à 86 en Australie
Les modèles Loi de Yi : Poisson (i) Fonction de lien : g(i) = Log(i) Modèles : Log(i) = 0 + 1xi avec : (1) = 1 (2) = Deviance / (n-p)
Résultats : = 1 Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 12 17.0917 1.4243 Scaled Deviance 12 17.0917 1.4243 Pearson Chi-Square 12 15.9884 1.3324 Scaled Pearson X2 12 15.9884 1.3324 Log Likelihood 478.3435 Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept 1 -1.9442 0.5116 -2.9469 -0.9415 14.44 0.0001 lquarter 1 2.1748 0.2151 1.7533 2.5963 102.27 <.0001 Scale 0 1.0000 NOTE: The scale parameter was held fixed.
Analyse des résidus ( = 1) Obs lquarter deaths Pred 1 0 0 0.143 2 0.693 1 0.646 3 1.098 2 1.560 4 1.386 3 2.917 5 1.609 1 4.739 6 1.791 4 7.046 7 1.945 9 9.852 8 2.079 18 13.173 9 2.197 23 17.018 10 2.302 31 21.401 11 2.397 20 26.330 12 2.484 25 31.815 13 2.564 37 37.865 14 2.639 45 44.487
Analyse des résidus ( = 1) Obs Stresdev Streschi Reslik 1 -0.545298 -0.385584 -0.540168 2 0.425791 0.460390 0.428869 3 0.359465 0.375283 0.361426 4 0.051868 0.052111 0.051902 5 -2.259547 -1.857236 -2.205949 6 -1.345573 -1.235173 -1.331022 7 -0.294398 -0.290055 -0.293870 8 1.332723 1.407734 1.340985 9 1.448224 1.526636 1.456101 10 2.049098 2.188013 2.063521 11 -1.375673 -1.316788 -1.368616 12 -1.377658 -1.325524 -1.368990 13 -0.162825 -0.162201 -0.162671 14 0.096241 0.096425 0.096309
Résultats : = Deviance/(n-p) Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 12 17.0917 1.4243 Scaled Deviance 12 12.0000 1.0000 Pearson Chi-Square 12 15.9884 1.3324 Scaled Pearson X2 12 11.2254 0.9355 Log Likelihood 335.8435 Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept 1 -1.9442 0.6106 -3.1408 -0.7475 10.14 0.0015 lquarter 1 2.1748 0.2567 1.6718 2.6778 71.80 <.0001 Scale 0 1.1934 NOTE: The scale parameter was estimated by the square root of DEVIANCE/DOF
Analyse des résidus ( = Deviance/(n-p)) Obs Stresdev Streschi Reslik 1 -0.456912 -0.323086 -0.452614 2 0.356776 0.385766 0.359354 3 0.301200 0.314454 0.302843 4 0.043461 0.0436647 0.043489 5 -1.893302 -1.556201 -1.848391 6 -1.127472 -1.034967 -1.115279 7 -0.246680 -0.243040 -0.246237 8 1.116705 1.179557 1.123628 9 1.213484 1.279187 1.220085 10 1.716965 1.833363 1.729050 11 -1.152694 -1.103353 -1.146780 12 -1.154357 -1.110673 -1.147094 13 -0.136433 -0.135910 -0.136304 14 0.080642 0.080796 0.080698
Prévision du nombre de morts du sida en Australie observation 10
Exemple LEUCÉMIE Yi = Durée de vie entre le diagnostic et le décès en semaines Xi = Log10(Nombre de globules blanc initial)
Les modèles Loi de Yi : (1) Loi gamma (2) Loi exponentielle (= gamma avec = 1) Fonction de lien : g(i) = Log(i) Modèle : Log(i) = 0 + 1xi
Résultat (Loi gamma) Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 15 19.4565 1.2971 Scaled Deviance 15 19.6076 1.3072 Pearson Chi-Square 15 14.0830 0.9389 Scaled Pearson X2 15 14.1923 0.9462 Log Likelihood -83.8767 Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept 1 8.4775 1.7046 5.1365 11.8185 24.73 <.0001 logcount 1 -1.1093 0.4120 -1.9168 -0.3018 7.25 0.0071 Scale 1 1.0078 0.3046 0.5573 1.8222 NOTE: The scale parameter was estimated by maximum likelihood.
Résultat (Loi exponentielle) Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 15 19.4565 1.2971 Scaled Deviance 15 19.4565 1.2971 Pearson Chi-Square 15 14.0830 0.9389 Scaled Pearson X2 15 14.0830 0.9389 Log Likelihood -83.8770 Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept 1 8.4775 1.7112 5.1235 11.8315 24.54 <.0001 logcount 1 -1.1093 0.4136 -1.9199 -0.2987 7.19 0.0073 Scale 0 1.0000 NOTE: The scale parameter was held fixed.
Modélisation Leucémie