La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Modèle Linéaire Généralisé (Proc Genmod)

Présentations similaires


Présentation au sujet: "Modèle Linéaire Généralisé (Proc Genmod)"— Transcription de la présentation:

1 Modèle Linéaire Généralisé (Proc Genmod)
Michel Tenenhaus

2 I. Les données Y = Variable à expliquer
X1,…, Xp = Variables explicatives

3 II. La famille exponentielle
Loi de Y - Les fonctions a, b, c sont fixées. -  est un paramètre de dispersion ou « nuisance parameter ». - a() =  pour des données individuelles, = /w pour des données groupées (w = effectif du groupe)

4 Résultats 1.  = E(Y) = b´() 2. Dans la pratique b´() est monotone :
3. Var(Y) = a()b() 4. b() = b(gc()) = () gc est la fonction de lien canonique.  = gc() Var(Y) = a() () () est la fonction-variance.

5 1. Loi de Poisson De : on déduit :  = Log(), b() =  , a() = 1
D’où : E(Y) = Var(Y) = 

6 E(Y) =  et Var(Y) =  (1 - )/m
2. Loi binomiale De : on déduit : D’où : E(Y) =  et Var(Y) =  (1 - )/m

7 3. Loi normale De : on déduit : D’où : E(Y) =  et Var(Y) = 2

8 E(Y) =  , Var(Y) = 2/, et CV =
4. Loi gamma De : on déduit : D’où : E(Y) =  , Var(Y) = 2/, et CV =

9 E(Y) =  , Var(Y) = 32, et CV =
5. Loi de Gauss inverse De : on déduit : D’où : E(Y) =  , Var(Y) = 32, et CV =

10 III. Fonction de lien canonique
on déduit :

11 Autres fonctions de lien usuelles
Complementary Log Log Power Probit

12 IV. Le modèle Linéaire Généralisé
Les données - Individuelles : (yi, x1i,…, xpi), i = 1,…, n - Groupées : , i = 1,…, n Loi de Yi Le modèle Généralisation au niveau de la fonction de réponse (g(i) au lieu de i , et au niveau de la loi de Yi (famille exponentielle au lieu de la loi normale).

13 Estimation des j par maximum de vraisemblance
La loi de Yi peut s’écrire en fonction de 1,…, p en remplaçant i par : puisque

14 Résultats de la maximisation de la vraisemblance
on déduit : À maximiser sur  et éventuellement sur . D ’où : puisque

15 « Estimating Equations »
On définit la log-vraisemblance On obtient en annulant le vecteur Score avec i

16 Déviance normalisée D* (Scaled deviance)
Modèle étudié : Modèle saturé : Déviance normalisée : si le modèle étudié est exact (approximation médiocre). puisque

17 Déviance D des lois standards
La déviance D est égale à D* Une fois  fixé, le maximum de vraisemblance conduit à minimiser la déviance D.

18 Étude de Loi de Intervalle de confiance de (Wald)

19 Intervalle de confiance de
« Profile likelihood function » Intervalle de confiance de

20 Intervalle de confiance de i
on déduit l’intervalle de i à 95% :

21 Test de l ’hypothèse linéaire générale H0 : L´ = 0
WALD suit un 2(rang L) sous l’hypothèse H0. LRT (Likelihood Ratio Test) suit un 2(rang L) sous l’hypothèse H0. LRT est meilleur que Wald

22 Analyse des résidus Résidu observé Résidu-Pearson Résidu-déviance

23 Les résidus normalisés
Les résidu-Pearson et résidu-déviance sont normalisés en les divisant par leurs écarts-types. Résidu-vraisemblance normalisé où rPi* et rDi* sont les résidu-Pearson et résidu-déviance normalisés, et hi le levier de l’observation i. Les résidus normalisés peuvent être comparés à 2.

24 Estimation du paramètre de dispersion  pour les lois binomiale et Poisson
 théorique = 1 ~ 2(n-p) E(D) = E(P2) = n - p (p = nombre de paramètres)

25 Estimation du paramètre de dispersion  pour les lois normales, Gamma et Gauss inverse
Les paramètres 1,…, p et  sont estimés par maximum de vraisemblance.

26 La sur-dispersion dans les modèles Poisson et Binomiale ( )
Réponse Yi Poisson ou Binomiale Poisson : Var(Yi) = i Binomiale : Var(Yi) = i(1- i) Matrice d’information de Fisher : Loi de : N(,J-1)

27 Prise en compte de la sur-dispersion
Approche WALD Poisson : Var(Yi) = Binomiale : Var(Yi) = J divisé par J-1 multiplié par ~ N(, J-1) Var( ) est multipliée par Résultats moins significatifs

28 Prise en compte de la sur-dispersion
Approche LRT Loi de Yi : Poisson et Binomiale : a() = 1 Pour prendre en compte la sur-dispersion on pose a() = Les tests LRT sont divisés par Les résultats sont moins significatifs.

29 Exemple Mélanome

30 Exemple Mélanome Modèle 1 Yi ~ Poisson (i) avec :
Yi = ni = Nombre de cas observés parmi Ni personnes soumises au risque Modèle 1 Yi ~ Poisson (i) avec : Log(i) = Log(Ni) + 0 + 1(Age<35) + … + 11(Age(65-74)*Nord)

31 Exemple Mélanome : Code SAS pour le Modèle 1
data melanome; input id $ age $ region $ cas pop; logpop=log(pop); cards; n,<35 <35 n s,<35 <35 s . n,>74 >74 n s,>74 >74 s ; proc genmod data=melanome order=data; class age region; model cas=age region age*region /dist=poisson link=log offset=logpop type3 ; run;

32 Exemple Mélanome : Résultat pour le Modèle 1
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq age <.0001 region <.0001 age*region

33 Exemple Mélanome : Modèle 2
Yi ~ Poisson (i) avec :

34 Exemple Mélanome : résultat du Modèle 2
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq age <.0001 region <.0001

35 Exemple Mélanome : résultat du Modèle 2
Analysis Of Parameter Estimates Standard Wald 95% Parameter DF Estimate Error Confidence Limits Intercept age < age age age age age > region n region s Scale Chi- Parameter Square Pr > ChiSq Intercept <.0001 age < <.0001 age <.0001 age <.0001 age <.0001 age <.0001 age > region n <.0001 region s Scale NOTE: The scale parameter was held fixed.

36 Exemple Mélanome : Contrastes
Test « 35-44 vs 45-54 » : H0 : 2 = 3 Test « 55-64 vs 65-74 » : H0 : 4 = 5 proc genmod data=melanome order=data; class age region; model cas=age region/dist=poisson link=log offset=logpop type3 ; contrast '35-44 vs 45-54' age ; contrast '55-64 vs 65-74' age ; contrast '35-44 vs 45-54' age / wald; contrast '55-64 vs 65-74' age / wald; run;

37 Exemple Mélanome : Contrastes
Contrast Results Chi- Contrast DF Square Pr > ChiSq Type 35-44 vs LR 55-64 vs LR 35-44 vs Wald 55-64 vs Wald Conclusion : On peut simplifier le modèle.

38 Exemple Mélanome : Modèle 3
Yi ~ Poisson (i) avec :

39 Exemple Mélanome : Estimation du modèle 3
data b; set melanome; age1=(age = "<35"); age2=(age = "35-44") or (age="45-54"); age3=(age = "55-64") or (age="65-74"); proc genmod data=b order=data; class region; model cas=age1 age2 age3 region/dist=poisson link=log offset=logpop type3; contrast 'age' age1 1, age2 1, age3 1 /e; age3 1 / wald; run;

40 Exemple Mélanome : Estimation du modèle 3
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Likelihood Ratio Standard % Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

41 Exemple Mélanome : Estimation du modèle 3
Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR age < Wald

42 Exemple Mélanome : Modèle 4
Yi ~ Binomiale (Ni , pi ) Ni grand et pi petit impliquent : Yi  Poisson (i = Nipi) D’où le modèle Yi ~ Binomiale (Ni , pi ) avec :

43 Exemple Mélanome : Estimation du modèle 4
proc genmod data=b order=data; class region; model cas/pop=age1 age2 age3 region/dist=bin link=log type3; contrast 'age' age1 1, age2 1, age3 1; run;

44 Exemple Mélanome : Estimation du modèle 4
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Standard Wald 95% Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

45 Exemple Mélanome : Estimation du modèle 4
Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR

46 Exemple Mélanome : Modèle 5
Yi ~ Binomiale (Ni , pi ) Comme la probabilité pi est petite : D ’où le modèle Yi ~ Binomiale (Ni , pi ) avec : Régression de Poisson = régression logistique lorsque pi est petit et Ni est grand.

47 Exemple Mélanome : Estimation du modèle 5
proc genmod data=b order=data; class region; model cas/pop=age1 age2 age3 region/dist=bin link=logit type3; contrast 'age' age1 1, age2 1, age3 1; run;

48 Exemple Mélanome : Estimation du modèle 5
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Analysis Of Parameter Estimates Standard Wald 95% Confidence Parameter DF Estimate Error Limits Intercept age age age region n region s

49 Exemple Mélanome : Estimation du modèle 5
Analysis Of Parameter Estimates Chi- Parameter Square Pr > ChiSq Intercept <.0001 age <.0001 age <.0001 age <.0001 region n <.0001 region s Contrast Results Chi- Contrast DF Square Pr > ChiSq Type age < LR

50 Exemple Coléoptères Yi = ni = Nombre de morts parmi Ni coléoptères soumis au risque à la dose xi de disulfide de carbone

51 Les modèles Loi de Yi : Binomiale (Ni , pi) Fonction de lien g(pi) :
- Logit : Log(pi/(1-pi)) - Probit : Fractile d’ordre pi d’une loi normale réduite - Complementary Log Log : Log(-Log(1-pi)) Modèle : g(pi) = 0 + 1xi

52 Résultats : Modèle Logit
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 dose <.0001 Scale NOTE: The scale parameter was held fixed.

53 Résultats : Modèle Probit
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 dose <.0001 Scale NOTE: The scale parameter was held fixed.

54 Résultats : Modèle Cloglog
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 dose <.0001 Scale NOTE: The scale parameter was held fixed.

55 Comparaison des modèles

56 Comparaison des modèles

57 Exemple SIDA Yi = Nombre de morts du Sida par trimestre de 83 à 86 en Australie

58 Les modèles Loi de Yi : Poisson (i)
Fonction de lien : g(i) = Log(i) Modèles : Log(i) = 0 + 1xi avec : (1)  = 1 (2)  = Deviance / (n-p)

59 Résultats :  = 1 Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept lquarter <.0001 Scale NOTE: The scale parameter was held fixed.

60 Analyse des résidus ( = 1)
Obs lquarter deaths Pred

61 Analyse des résidus ( = 1)
Obs Stresdev Streschi Reslik

62 Résultats :  = Deviance/(n-p)
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept lquarter <.0001 Scale NOTE: The scale parameter was estimated by the square root of DEVIANCE/DOF

63 Analyse des résidus ( = Deviance/(n-p))
Obs Stresdev Streschi Reslik

64 Prévision du nombre de morts du sida en Australie
observation 10

65 Exemple LEUCÉMIE Yi = Durée de vie entre le diagnostic et le décès en semaines Xi = Log10(Nombre de globules blanc initial)

66 Les modèles Loi de Yi : (1) Loi gamma
(2) Loi exponentielle (= gamma avec  = 1) Fonction de lien : g(i) = Log(i) Modèle : Log(i) = 0 + 1xi

67 Résultat (Loi gamma) Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 logcount Scale NOTE: The scale parameter was estimated by maximum likelihood.

68 Résultat (Loi exponentielle)
Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X Log Likelihood Algorithm converged. Analysis Of Parameter Estimates Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 logcount Scale NOTE: The scale parameter was held fixed.

69 Modélisation Leucémie


Télécharger ppt "Modèle Linéaire Généralisé (Proc Genmod)"

Présentations similaires


Annonces Google