Modèle Linéaire Généralisé (Proc Genmod)

Modèle Linéaire Généralisé (Proc Genmod)
Michel Tenenhaus

I. Les données Y = Variable à expliquer
X1,…, Xp = Variables explicatives

II. La famille exponentielle
Loi de Y - Les fonctions a, b, c sont fixées. -  est un paramètre de dispersion ou « nuisance parameter ». - a() =  pour des données individuelles, = /w pour des données groupées (w = effectif du groupe)

Résultats 1.  = E(Y) = b´() 2. Dans la pratique b´() est monotone :
3. Var(Y) = a()b() 4. b() = b(gc()) = () gc est la fonction de lien canonique.  = gc() Var(Y) = a() () () est la fonction-variance.

1. Loi de Poisson De : on déduit :  = Log(), b() =  , a() = 1
D’où : E(Y) = Var(Y) = 

E(Y) =  et Var(Y) =  (1 - )/m
2. Loi binomiale De : on déduit : D’où : E(Y) =  et Var(Y) =  (1 - )/m

3. Loi normale De : on déduit : D’où : E(Y) =  et Var(Y) = 2

E(Y) =  , Var(Y) = 2/, et CV =
4. Loi gamma De : on déduit : D’où : E(Y) =  , Var(Y) = 2/, et CV =

E(Y) =  , Var(Y) = 32, et CV =
5. Loi de Gauss inverse De : on déduit : D’où : E(Y) =  , Var(Y) = 32, et CV =

III. Fonction de lien canonique
on déduit :

Autres fonctions de lien usuelles
Complementary Log Log Power Probit

IV. Le modèle Linéaire Généralisé
Les données - Individuelles : (yi, x1i,…, xpi), i = 1,…, n - Groupées : , i = 1,…, n Loi de Yi Le modèle Généralisation au niveau de la fonction de réponse (g(i) au lieu de i , et au niveau de la loi de Yi (famille exponentielle au lieu de la loi normale).

Estimation des j par maximum de vraisemblance
La loi de Yi peut s’écrire en fonction de 1,…, p en remplaçant i par : puisque

Résultats de la maximisation de la vraisemblance
on déduit : À maximiser sur  et éventuellement sur . D ’où : puisque

« Estimating Equations »
On définit la log-vraisemblance On obtient en annulant le vecteur Score avec i

Déviance normalisée D* (Scaled deviance)
Modèle étudié : Modèle saturé : Déviance normalisée : si le modèle étudié est exact (approximation médiocre). puisque

Déviance D des lois standards
La déviance D est égale à D* Une fois  fixé, le maximum de vraisemblance conduit à minimiser la déviance D.

Étude de Loi de Intervalle de confiance de (Wald)

Intervalle de confiance de
« Profile likelihood function » Intervalle de confiance de

Intervalle de confiance de i
on déduit l’intervalle de i à 95% :

Test de l ’hypothèse linéaire générale H0 : L´ = 0
WALD suit un 2(rang L) sous l’hypothèse H0. LRT (Likelihood Ratio Test) suit un 2(rang L) sous l’hypothèse H0. LRT est meilleur que Wald

Analyse des résidus Résidu observé Résidu-Pearson Résidu-déviance

Les résidus normalisés
Les résidu-Pearson et résidu-déviance sont normalisés en les divisant par leurs écarts-types. Résidu-vraisemblance normalisé où rPi* et rDi* sont les résidu-Pearson et résidu-déviance normalisés, et hi le levier de l’observation i. Les résidus normalisés peuvent être comparés à 2.

Estimation du paramètre de dispersion  pour les lois binomiale et Poisson
 théorique = 1 ~ 2(n-p) E(D) = E(P2) = n - p (p = nombre de paramètres)

Estimation du paramètre de dispersion  pour les lois normales, Gamma et Gauss inverse
Les paramètres 1,…, p et  sont estimés par maximum de vraisemblance.

La sur-dispersion dans les modèles Poisson et Binomiale ( )
Réponse Yi Poisson ou Binomiale Poisson : Var(Yi) = i Binomiale : Var(Yi) = i(1- i) Matrice d’information de Fisher : Loi de : N(,J-1)

Prise en compte de la sur-dispersion
Approche WALD Poisson : Var(Yi) = Binomiale : Var(Yi) = J divisé par J-1 multiplié par ~ N(, J-1) Var( ) est multipliée par Résultats moins significatifs

Prise en compte de la sur-dispersion
Approche LRT Loi de Yi : Poisson et Binomiale : a() = 1 Pour prendre en compte la sur-dispersion on pose a() = Les tests LRT sont divisés par Les résultats sont moins significatifs.

Exemple Mélanome

Exemple Mélanome Modèle 1 Yi ~ Poisson (i) avec :
Yi = ni = Nombre de cas observés parmi Ni personnes soumises au risque Modèle 1 Yi ~ Poisson (i) avec : Log(i) = Log(Ni) + 0 + 1(Age<35) + … + 11(Age(65-74)*Nord)

Exemple Mélanome : Code SAS pour le Modèle 1
data melanome; input id $ age $ region $ cas pop; logpop=log(pop); cards; n,<35 <35 n s,<35 <35 s . n,>74 >74 n s,>74 >74 s ; proc genmod data=melanome order=data; class age region; model cas=age region age*region /dist=poisson link=log offset=logpop type3 ; run;

Exemple Mélanome : Résultat pour le Modèle 1
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq age <.0001 region <.0001 age*region

Exemple Mélanome : Modèle 2
Yi ~ Poisson (i) avec :

Exemple Mélanome : résultat du Modèle 2
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq age <.0001 region <.0001

Exemple Mélanome : résultat du Modèle 2
Analysis Of Parameter Estimates Standard Wald 95% Parameter DF Estimate Error Confidence Limits Intercept age < age age age age age > region n region s Scale Chi- Parameter Square Pr > ChiSq Intercept <.0001 age < <.0001 age <.0001 age <.0001 age <.0001 age <.0001 age > region n <.0001 region s Scale NOTE: The scale parameter was held fixed.

Exemple Mélanome : Contrastes
Test « 35-44 vs 45-54 » : H0 : 2 = 3 Test « 55-64 vs 65-74 » : H0 : 4 = 5 proc genmod data=melanome order=data; class age region; model cas=age region/dist=poisson link=log offset=logpop type3 ; contrast '35-44 vs 45-54' age ; contrast '55-64 vs 65-74' age ; contrast '35-44 vs 45-54' age / wald; contrast '55-64 vs 65-74' age / wald; run;

Exemple Mélanome : Contrastes
Contrast Results Chi- Contrast DF Square Pr > ChiSq Type 35-44 vs LR 55-64 vs LR 35-44 vs Wald 55-64 vs Wald Conclusion : On peut simplifier le modèle.

Yi ~ Poisson (i) avec :

Exemple Mélanome : Estimation du modèle 3
data b; set melanome; age1=(age = "<35"); age2=(age = "35-44") or (age="45-54"); age3=(age = "55-64") or (age="65-74"); proc genmod data=b order=data; class region; model cas=age1 age2 age3 region/dist=poisson link=log offset=logpop type3; contrast 'age' age1 1, age2 1, age3 1 /e; age3 1 / wald; run;

Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Likelihood Ratio Standard % Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR age < Wald

Yi ~ Binomiale (Ni , pi ) Ni grand et pi petit impliquent : Yi  Poisson (i = Nipi) D’où le modèle Yi ~ Binomiale (Ni , pi ) avec :

proc genmod data=b order=data; class region; model cas/pop=age1 age2 age3 region/dist=bin link=log type3; contrast 'age' age1 1, age2 1, age3 1; run;

Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Standard Wald 95% Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR

Yi ~ Binomiale (Ni , pi ) Comme la probabilité pi est petite : D ’où le modèle Yi ~ Binomiale (Ni , pi ) avec : Régression de Poisson = régression logistique lorsque pi est petit et Ni est grand.

proc genmod data=b order=data; class region; model cas/pop=age1 age2 age3 region/dist=bin link=logit type3; contrast 'age' age1 1, age2 1, age3 1; run;

Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Standard Wald 95% Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR

Exemple Coléoptères Yi = ni = Nombre de morts parmi Ni coléoptères soumis au risque à la dose xi de disulfide de carbone

Les modèles Loi de Yi : Binomiale (Ni , pi) Fonction de lien g(pi) :
- Logit : Log(pi/(1-pi)) - Probit : Fractile d’ordre pi d’une loi normale réduite - Complementary Log Log : Log(-Log(1-pi)) Modèle : g(pi) = 0 + 1xi

Résultats : Modèle Logit
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 dose <.0001 Scale NOTE: The scale parameter was held fixed.

Résultats : Modèle Probit

Résultats : Modèle Cloglog

Comparaison des modèles

Exemple SIDA Yi = Nombre de morts du Sida par trimestre de 83 à 86 en Australie

Les modèles Loi de Yi : Poisson (i)
Fonction de lien : g(i) = Log(i) Modèles : Log(i) = 0 + 1xi avec : (1)  = 1 (2)  = Deviance / (n-p)

Résultats :  = 1 Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept lquarter <.0001 Scale NOTE: The scale parameter was held fixed.

Analyse des résidus ( = 1)
Obs lquarter deaths Pred

Analyse des résidus ( = 1)
Obs Stresdev Streschi Reslik

Résultats :  = Deviance/(n-p)
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept lquarter <.0001 Scale NOTE: The scale parameter was estimated by the square root of DEVIANCE/DOF

Analyse des résidus ( = Deviance/(n-p))
Obs Stresdev Streschi Reslik

Prévision du nombre de morts du sida en Australie
observation 10

Exemple LEUCÉMIE Yi = Durée de vie entre le diagnostic et le décès en semaines Xi = Log10(Nombre de globules blanc initial)

Les modèles Loi de Yi : (1) Loi gamma
(2) Loi exponentielle (= gamma avec  = 1) Fonction de lien : g(i) = Log(i) Modèle : Log(i) = 0 + 1xi

Résultat (Loi gamma) Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 logcount Scale NOTE: The scale parameter was estimated by maximum likelihood.

Résultat (Loi exponentielle)
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 logcount Scale NOTE: The scale parameter was held fixed.

Modélisation Leucémie

Modèle Linéaire Généralisé (Proc Genmod)

Présentations similaires

Présentation au sujet: "Modèle Linéaire Généralisé (Proc Genmod)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Modèle Linéaire Généralisé (Proc Genmod)

Présentations similaires

Présentation au sujet: "Modèle Linéaire Généralisé (Proc Genmod)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back