Modèle Linéaire Généralisé (Proc Genmod)

Présentations similaires


Présentation au sujet: "Modèle Linéaire Généralisé (Proc Genmod)"— Transcription de la présentation:

1 Modèle Linéaire Généralisé (Proc Genmod)
Michel Tenenhaus

2 I. Les données Y = Variable à expliquer
X1,…, Xp = Variables explicatives

3 II. La famille exponentielle
Loi de Y - Les fonctions a, b, c sont fixées. -  est un paramètre de dispersion ou « nuisance parameter ». - a() =  pour des données individuelles, = /w pour des données groupées (w = effectif du groupe)

4 Résultats 1.  = E(Y) = b´() 2. Dans la pratique b´() est monotone :
3. Var(Y) = a()b() 4. b() = b(gc()) = () gc est la fonction de lien canonique.  = gc() Var(Y) = a() () () est la fonction-variance.

5 1. Loi de Poisson De : on déduit :  = Log(), b() =  , a() = 1
D’où : E(Y) = Var(Y) = 

6 E(Y) =  et Var(Y) =  (1 - )/m
2. Loi binomiale De : on déduit : D’où : E(Y) =  et Var(Y) =  (1 - )/m

7 3. Loi normale De : on déduit : D’où : E(Y) =  et Var(Y) = 2

8 E(Y) =  , Var(Y) = 2/, et CV =
4. Loi gamma De : on déduit : D’où : E(Y) =  , Var(Y) = 2/, et CV =

9 E(Y) =  , Var(Y) = 32, et CV =
5. Loi de Gauss inverse De : on déduit : D’où : E(Y) =  , Var(Y) = 32, et CV =

10 III. Fonction de lien canonique
on déduit :

11 Autres fonctions de lien usuelles
Complementary Log Log Power Probit

12 IV. Le modèle Linéaire Généralisé
Les données - Individuelles : (yi, x1i,…, xpi), i = 1,…, n - Groupées : , i = 1,…, n Loi de Yi Le modèle Généralisation au niveau de la fonction de réponse (g(i) au lieu de i , et au niveau de la loi de Yi (famille exponentielle au lieu de la loi normale).

13 Estimation des j par maximum de vraisemblance
La loi de Yi peut s’écrire en fonction de 1,…, p en remplaçant i par : puisque

14 Résultats de la maximisation de la vraisemblance
on déduit : À maximiser sur  et éventuellement sur . D ’où : puisque

15 « Estimating Equations »
On définit la log-vraisemblance On obtient en annulant le vecteur Score avec i

16 Déviance normalisée D* (Scaled deviance)
Modèle étudié : Modèle saturé : Déviance normalisée : si le modèle étudié est exact (approximation médiocre). puisque

17 Déviance D des lois standards
La déviance D est égale à D* Une fois  fixé, le maximum de vraisemblance conduit à minimiser la déviance D.

18 Étude de Loi de Intervalle de confiance de (Wald)

19 Intervalle de confiance de
« Profile likelihood function » Intervalle de confiance de

20 Intervalle de confiance de i
on déduit l’intervalle de i à 95% :

21 Test de l ’hypothèse linéaire générale H0 : L´ = 0
WALD suit un 2(rang L) sous l’hypothèse H0. LRT (Likelihood Ratio Test) suit un 2(rang L) sous l’hypothèse H0. LRT est meilleur que Wald

22 Analyse des résidus Résidu observé Résidu-Pearson Résidu-déviance

23 Les résidus normalisés
Les résidu-Pearson et résidu-déviance sont normalisés en les divisant par leurs écarts-types. Résidu-vraisemblance normalisé où rPi* et rDi* sont les résidu-Pearson et résidu-déviance normalisés, et hi le levier de l’observation i. Les résidus normalisés peuvent être comparés à 2.

24 Estimation du paramètre de dispersion  pour les lois binomiale et Poisson
 théorique = 1 ~ 2(n-p) E(D) = E(P2) = n - p (p = nombre de paramètres)

25 Estimation du paramètre de dispersion  pour les lois normales, Gamma et Gauss inverse
Les paramètres 1,…, p et  sont estimés par maximum de vraisemblance.

26 La sur-dispersion dans les modèles Poisson et Binomiale ( )
Réponse Yi Poisson ou Binomiale Poisson : Var(Yi) = i Binomiale : Var(Yi) = i(1- i) Matrice d’information de Fisher : Loi de : N(,J-1)

27 Prise en compte de la sur-dispersion
Approche WALD Poisson : Var(Yi) = Binomiale : Var(Yi) = J divisé par J-1 multiplié par ~ N(, J-1) Var( ) est multipliée par Résultats moins significatifs

28 Prise en compte de la sur-dispersion
Approche LRT Loi de Yi : Poisson et Binomiale : a() = 1 Pour prendre en compte la sur-dispersion on pose a() = Les tests LRT sont divisés par Les résultats sont moins significatifs.

29 Exemple Mélanome

30 Exemple Mélanome Modèle 1 Yi ~ Poisson (i) avec :
Yi = ni = Nombre de cas observés parmi Ni personnes soumises au risque Modèle 1 Yi ~ Poisson (i) avec : Log(i) = Log(Ni) + 0 + 1(Age<35) + … + 11(Age(65-74)*Nord)

31 Exemple Mélanome : Code SAS pour le Modèle 1
data melanome; input id $ age $ region $ cas pop; logpop=log(pop); cards; n,<35 <35 n s,<35 <35 s . n,>74 >74 n s,>74 >74 s ; proc genmod data=melanome order=data; class age region; model cas=age region age*region /dist=poisson link=log offset=logpop type3 ; run;

32 Exemple Mélanome : Résultat pour le Modèle 1
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq age <.0001 region <.0001 age*region

33 Exemple Mélanome : Modèle 2
Yi ~ Poisson (i) avec :

34 Exemple Mélanome : résultat du Modèle 2
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq age <.0001 region <.0001

35 Exemple Mélanome : résultat du Modèle 2
Analysis Of Parameter Estimates Standard Wald 95% Parameter DF Estimate Error Confidence Limits Intercept age < age age age age age > region n region s Scale Chi- Parameter Square Pr > ChiSq Intercept <.0001 age < <.0001 age <.0001 age <.0001 age <.0001 age <.0001 age > region n <.0001 region s Scale NOTE: The scale parameter was held fixed.

36 Exemple Mélanome : Contrastes
Test « 35-44 vs 45-54 » : H0 : 2 = 3 Test « 55-64 vs 65-74 » : H0 : 4 = 5 proc genmod data=melanome order=data; class age region; model cas=age region/dist=poisson link=log offset=logpop type3 ; contrast '35-44 vs 45-54' age ; contrast '55-64 vs 65-74' age ; contrast '35-44 vs 45-54' age / wald; contrast '55-64 vs 65-74' age / wald; run;

37 Exemple Mélanome : Contrastes
Contrast Results Chi- Contrast DF Square Pr > ChiSq Type 35-44 vs LR 55-64 vs LR 35-44 vs Wald 55-64 vs Wald Conclusion : On peut simplifier le modèle.

38 Exemple Mélanome : Modèle 3
Yi ~ Poisson (i) avec :

39 Exemple Mélanome : Estimation du modèle 3
data b; set melanome; age1=(age = "<35"); age2=(age = "35-44") or (age="45-54"); age3=(age = "55-64") or (age="65-74"); proc genmod data=b order=data; class region; model cas=age1 age2 age3 region/dist=poisson link=log offset=logpop type3; contrast 'age' age1 1, age2 1, age3 1 /e; age3 1 / wald; run;

40 Exemple Mélanome : Estimation du modèle 3
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Likelihood Ratio Standard % Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

41 Exemple Mélanome : Estimation du modèle 3
Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR age < Wald

42 Exemple Mélanome : Modèle 4
Yi ~ Binomiale (Ni , pi ) Ni grand et pi petit impliquent : Yi  Poisson (i = Nipi) D’où le modèle Yi ~ Binomiale (Ni , pi ) avec :

43 Exemple Mélanome : Estimation du modèle 4
proc genmod data=b order=data; class region; model cas/pop=age1 age2 age3 region/dist=bin link=log type3; contrast 'age' age1 1, age2 1, age3 1; run;

44 Exemple Mélanome : Estimation du modèle 4
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Standard Wald 95% Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

45 Exemple Mélanome : Estimation du modèle 4
Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR

46 Exemple Mélanome : Modèle 5
Yi ~ Binomiale (Ni , pi ) Comme la probabilité pi est petite : D ’où le modèle Yi ~ Binomiale (Ni , pi ) avec : Régression de Poisson = régression logistique lorsque pi est petit et Ni est grand.

47 Exemple Mélanome : Estimation du modèle 5
proc genmod data=b order=data; class region; model cas/pop=age1 age2 age3 region/dist=bin link=logit type3; contrast 'age' age1 1, age2 1, age3 1; run;

48 Exemple Mélanome : Estimation du modèle 5
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Standard Wald 95% Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

49 Exemple Mélanome : Estimation du modèle 5
Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR

50 Exemple Coléoptères Yi = ni = Nombre de morts parmi Ni coléoptères soumis au risque à la dose xi de disulfide de carbone

51 Les modèles Loi de Yi : Binomiale (Ni , pi) Fonction de lien g(pi) :
- Logit : Log(pi/(1-pi)) - Probit : Fractile d’ordre pi d’une loi normale réduite - Complementary Log Log : Log(-Log(1-pi)) Modèle : g(pi) = 0 + 1xi

52 Résultats : Modèle Logit
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 dose <.0001 Scale NOTE: The scale parameter was held fixed.

53 Résultats : Modèle Probit
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 dose <.0001 Scale NOTE: The scale parameter was held fixed.

54 Résultats : Modèle Cloglog
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 dose <.0001 Scale NOTE: The scale parameter was held fixed.

55 Comparaison des modèles

56 Comparaison des modèles

57 Exemple SIDA Yi = Nombre de morts du Sida par trimestre de 83 à 86 en Australie

58 Les modèles Loi de Yi : Poisson (i)
Fonction de lien : g(i) = Log(i) Modèles : Log(i) = 0 + 1xi avec : (1)  = 1 (2)  = Deviance / (n-p)

59 Résultats :  = 1 Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept lquarter <.0001 Scale NOTE: The scale parameter was held fixed.

60 Analyse des résidus ( = 1)
Obs lquarter deaths Pred

61 Analyse des résidus ( = 1)
Obs Stresdev Streschi Reslik

62 Résultats :  = Deviance/(n-p)
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept lquarter <.0001 Scale NOTE: The scale parameter was estimated by the square root of DEVIANCE/DOF

63 Analyse des résidus ( = Deviance/(n-p))
Obs Stresdev Streschi Reslik

64 Prévision du nombre de morts du sida en Australie
observation 10

65 Exemple LEUCÉMIE Yi = Durée de vie entre le diagnostic et le décès en semaines Xi = Log10(Nombre de globules blanc initial)

66 Les modèles Loi de Yi : (1) Loi gamma
(2) Loi exponentielle (= gamma avec  = 1) Fonction de lien : g(i) = Log(i) Modèle : Log(i) = 0 + 1xi

67 Résultat (Loi gamma) Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 logcount Scale NOTE: The scale parameter was estimated by maximum likelihood.

68 Résultat (Loi exponentielle)
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 logcount Scale NOTE: The scale parameter was held fixed.

69 Modélisation Leucémie


Télécharger ppt "Modèle Linéaire Généralisé (Proc Genmod)"
Annonces Google