La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus.

Présentations similaires


Présentation au sujet: "1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus."— Transcription de la présentation:

1 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

2 2

3 3 Un exemple dapplication Test de lefficacité du diffuseur diode RHODIFUSE Conséquences biologiques du déficit en iode : Chez lenfant : -Retard mental -Troubles musculaire -Paralysie -Crétinisme Chez ladulte : -Goitre -Adynamie -Crétinisme -Hypoproductivité

4 4 Classification des goitres selon l OMS Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet. Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension. Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale. Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale. Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.

5 5 Lexpérimentation NDjiba Sebabougou Sirablo (Témoin) Woloni Bamako Niger

6 6 Les données Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II X 1 = Village :1 = Sirablo (Témoin), 2 = Woloni 3 = N Djiba, 4 = Sebabougou X 2 = Sexe :1 = Homme, 2 = Femme X 3 = Jour :0 = 0, 1 = 180, 2 = 360 X 4 = Iode :1 = Absence, 2 = Présence

7 7 Les données (en effectif)

8 8 Les données (en fréquence) Fréquence de répartition des goitres SirabloHomme0Absence SirabloHomme180Absence SirabloHomme360Absence SirabloFemme0Absence SirabloFemme180Absence SirabloFemme360Absence WoloniHomme0Absence WoloniHomme180Présence WoloniHomme360Présence WoloniFemme0Absence WoloniFemme 180 Présence WoloniFemme360Présence N'DjibaHomme VILLAGESEXEJOURIODEGoitre 1Goitre 2Goitre 3Goitre 4

9 9 Évolution des niveaux moyens de goitre

10 10 Le problème Étudier la liaison entre la variable dépendante Y = Niveau de goitre et les variables indépendantes X 1 = Village, X 2 = Sexe, X 3 = Jour, et X 4 = Iode. Étudier la loi de probabilité Prob(Y = y | X 1 = x 1, X 2 = x 2, X 3 = x 3, X 4 = x 4 ) de Y conditionnellement à des valeurs prises par les X j.

11 11 Hypothèses à tester H 1 :La répartition des niveaux de goitre au temps 0 ne dépend pas du village. H 2 :La répartition des niveaux de goitre dépend du sexe : la situation est plus grave chez les femmes que chez les hommes. H 3 :La répartition des goitres dépend des jours et de liode : la situation se détériore dans le village témoin de SIRABLO au cours du temps, alors quelle saméliore dans les autres villages au cours du temps.

12 12 Analyse statistique I.Analyse des correspondances du tableau des goitres II.Typologie des profils-lignes III.Modélisation de la loi de probabilité des goitres en fonction des variables Village, Sexe, Jour, et Iode à laide du modèle linéaire généralisé

13 13 Analyse des correspondances

14 14 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E Label Num SiH180 2 òø NDF òú WoF òôòòòø SiH360 3 ò÷ ó SiH0 1 òø ùòòòòòòòòòòòòòòòòòø SeF òú ó ó WoH0 7 òôòòò÷ ó SeF òú ó WoF òú ó NDF òú ùòòòòòòòòòòòòòòòòòòòòòòòòòø SeH0 19 ò÷ ó ó NDH òø ó ó SeH òú ó ó WoH180 8 òú ó ó WoH360 9 òôòòòòòòòòòòòòòòòòòòòòò÷ ó SeH òú ó NDH òú ó NDH0 13 ò÷ ó SiF180 5 òø ó SiF360 6 òú ó WoF0 10 òú ó NDF0 16 òôòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ SiF0 4 òú SeF0 22 ò÷ Typologie

15 15 Visualisation de la typologie Femmes non traitées Hommes non traités (hors NDjiba) et femmes traitées Hommes traités et hommes non traités de NDjiba

16 16 En résumé La gravité des goitres est plus importante chez les femmes. Lamélioration due au traitement iodé est nette aussi bien chez les femmes que chez les hommes. Leffet du traitement paraît plus important dans les six premiers mois. Le traitement iodé rend la gravité des goitres chez les femmes comparable à celle des hommes avant traitement.

17 17 Utilisation du modèle linéaire généralisé Le modèle linéaire généralisé permet d étudier la liaison entre une variable qualitative Y (à r modalités) et un ensemble de variables explicatives X 1, …, X k qualitatives ou quantitatives. Exemple :Y = Niveau de goitre (r = 4) X 1 = Village X 2 = Sexe X 3 = Jour X 4 = Iode

18 18 Le modèle linéaire généralisé dans la Proc CATMOD de SAS Les s croisements disponibles (x i1, …, x ik ) des variables X 1, …, X k définissent s populations. On note i la loi de probabilité de Y sur la population i. On cherche à relier linéairement q (= s (r-1)) fonctions de réponse F h ( i ) aux caractéristiques de la population i : F h ( i ) = x i h où x i = vecteur-ligne caractérisant la population i et h = vecteur-colonne de paramètres

19 19 Exemple des goitres Choix de la fonction de réponse Identité : F h ( i ) = ih,h = 1 à 3 Logit généralisé :F h ( i ) = Log( ih / i4 ),h = 1 à 3 Logit cumulé : F h ( i ) = h = 1 à 3 Moyenne : F h ( i ) =

20 20 Choix du modèle Pour h = 1 à 3 : F h ( i ) = Village, Sexe, Village*Sexe Iode(Village = 2), Iode(Village = 3) Iode(Village = 4), Sexe*Iode, Jour(Iode = Absence), Jour(Iode = Présent) Idem pour la fonction de réponse « Moyenne »

21 21 Les problèmes Le modèle probabiliste Estimation des paramètres du modèle -GLS ou WLS en général -ML pour le logit généralisé Test sur les variables explicatives Test dadéquation du modèle Étude des contrastes

22 22 Le modèle probabiliste pipi ij = Prob(Y = j dans la population i)

23 23 La loi multinomiale p i = (p i1, …, p ir ) Prob (p i ) = E(p i ) = i = ( i1, …, ir ) Estimée par V i en remplaçant les ij par p ij

24 24 Loi du vecteur des proportions p p = (p 1, …, p s ) Prob (p) = E(p) = = ( 1, …, s ) Estimée par V en remplaçant les V(p i ) par V i Indépendance entre les populations

25 25 Modélisation des ij

26 26 Estimation des La méthode GLS (Generalized Least Squares) prend en compte le fait que les p ij ont des variances inégales et sont corrélées entre elles. On minimise la Somme des Carrés Résiduelle : où : F = [F 1 (p),…,F q (p)] = estimation des F h (p) à laide du modèle étudié estimation des F h (p) à laide du modèle saturé Var(F) = estimation de Var(F)

27 27 Utilisation de la Proc CATMOD Réponse = Identité data goitre; input village sexe jour iode goitre freq; cards; ; proc catmod data=goitre; weight freq; response marginal; model goitre=village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2)/predict addcell=1 ; run; quit;

28 28 Utilisation de la Proc CATMOD Population Profiles Adjusted Sample village sexe iode jour Sample Size ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

29 29 Utilisation de la Proc CATMOD Réponse = Identité Response Functions Sample ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

30 30 Utilisation de la Proc CATMOD La matrice X Design Matrix Sample ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

31 31 Utilisation de la Proc CATMOD Estimation des paramètres Analysis of Weighted Least Squares Estimates Function Standard Chi- Parameter Number Estimate Error Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Intercept < < <.0001 village < < sexe < <.0001 village*sexe <

32 32 Utilisation de la Proc CATMOD Estimation des paramètres Function Standard Chi- Parameter Number Estimate Error Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ iode(village=2) < <.0001 iode(village=3) iode(village=4) < < sexe*iode jour(iode=1) < jour(iode=2) < < jour(iode=2)

33 33 Exemple : Calcul de p 11 = (106+1)/(175+4) =.5977

34 34 Comparaison observé /prédit Predicted Values for Response Functions Observed Predicted----- Function Standard Standard village sexe iode jour Number Function Error Function Error Residual ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

35 35 Test sur les variables explicatives Exemple : Village*Sexe Test : H 0 : 5 h = 6 h = 7 h = 0, h = 1, 2, 3 Statistique de Wald : Sous H 0 : Q suit un 2 (9) Remarque : Q = SCR(Modèle sans « Village*Sexe ») - SCR(Modèle complet) Analogie avec les sommes de carrés de type III du GLM

36 36 Test sur les variables explicatives Résultats Analysis of Variance Source DF Chi-Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Intercept <.0001 village <.0001 sexe <.0001 village*sexe iode(village=2) <.0001 iode(village=3) <.0001 iode(village=4) <.0001 sexe*iode <.0001 jour(iode=1) <.0001 jour(iode=2) 3* <.0001 Residual NOTE: Effects marked with '*' contain one or more redundant or restricted parameters

37 37 Test d adéquation du modèle Test : H 0 : Modèle étudié exact Statistique : Sous H 0 : n = Nombre de fonctions de réponses = 3 24 = 72 d = Nombre de paramètres du modèle = 3 15 = 45

38 38 Modélisation de F h ( i ) = Log( ih / ir ) De on peut déduire le modèle

39 39 Calcul de ih Soit : x i =Caractéristique du profil i h =vecteur des j h Alors : et

40 40 Estimation des par maximum de vraisemblance Multinomiale : Modèle : Vraisemblance : On recherche maximisant la vraisemblance.

41 41 Le modèle saturé Si le nombre de paramètres indépendant j h est égal au nombre de probabilités indépendantes ih le modèle est dit saturé. Alors : et on a :

42 42 Test d adéquation du modèle Test : H 0 : Modèle étudié exact Statistique : Sous H 0 : où : n = Nombre de fonctions de réponses = 3 24 = 72 d = Nombre de paramètres du modèle = 3 15 = 45

43 43 Test sur les variables explicatives Exemple : Village*Sexe Test : H 0 : 5 h = 6 h = 7 h = 0, h = 1, 2, 3 Statistique LRT : Sous H 0 : D suit un 2 (9)

44 44 Modélisation du logit généralisé par maximum de vraisemblance proc catmod data=goitre; weight freq; model goitre=village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2); run; quit; Le logit généralisé est la fonction de réponse par défaut.

45 45 Résultat des tests pour la modélisation du logit généralisé par maximum de vraisemblance Maximum Likelihood Analysis of Variance Source DF Chi-Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Intercept <.0001 village <.0001 sexe <.0001 village*sexe iode(village=2) <.0001 iode(village=3) <.0001 iode(village=4) <.0001 sexe*iode jour(iode=1) <.0001 jour(iode=2) 3* <.0001 Likelihood Ratio NOTE: Effects marked with '*' contain one or more redundant or restricted parameters.

46 46 Étude du modèle « Moyenne »

47 47 Étude du modèle « Moyenne » proc catmod data=goitre; weight freq; response mean; model goitre=village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2) /predict addcell=1; run;

48 48 Résultats SAS pour le modèle « Moyenne » Tests Analysis of Variance Source DF Chi-Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Intercept <.0001 village <.0001 sexe <.0001 village*sexe iode(village=2) <.0001 iode(village=3) <.0001 iode(village=4) <.0001 sexe*iode jour(iode=1) jour(iode=2) 1* Residual NOTE: Effects marked with '*' contain one or more redundant or restricted parameters.

49 49 Résultats SAS pour le modèle « Moyenne » Estimation Analysis of Weighted Least Squares Estimates Standard Chi- Parameter Estimate Error Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Intercept <.0001 village < sexe <.0001 village*sexe iode(village=2) <.0001 iode(village=3) <.0001 iode(village=4) <.0001 sexe*iode jour(iode=1) jour(iode=2)

50 50 Estimation du modèle « Moyenne »

51 51 Résultats SAS pour le modèle « Moyenne » prévision Predicted Values for Response Functions Observed Predicted----- Function Standard Standard village sexe iode jour Number Function Error Function Error Residual ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

52 52 Étude des contrastes Test : H 0 : L = 0 Statistique : Sous H 0 : Modèle : [F 1 ( i ),…,F r ( i )] = x i

53 53 Test 1 Le niveau moyen des goitres sur toute la durée de l expérimentation est significativement supérieur dans le village témoin de Sirablo par rapport aux autres villages. Solution Test Statistique de Wald On rejette H 0 au profit de H 1.

54 54 Test 2 Les trois villages où le Rhodifuse Iode a été installé sont équivalents. Solution Test Statistique de Wald On accepte H 0

55 55 Étude du contraste « Test 2 » proc catmod data=goitre; weight freq; response mean; model goitre = village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2) /predict addcell=1 contrast 'village test' village , village 1 2 1; run; Analysis of Contrasts Contrast DF Chi-Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ village test

56 56 Test 3 Il y a un effet « Iode » dans chaque village. Cet effet est un peu moins fort dans le village de N DJIBA. Solution Statistique de Wald On rejette H 0 Test

57 57 Étude du contraste « Test 3 » proc catmod data=goitre; weight freq; response mean; model goitre=village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2)/predict addcell=1; contrast 'iode n''djiba iode(village=2) 1 iode(village=3) -2 iode(village=4) 1; run; Analysis of Contrasts Contrast DF Chi-Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ iode n'djiba

58 58 Test 4 Comparaison des villages en J0. Statistique de Wald On accepte lhomogénéité des 4 villages en J0. Solution Test

59 59 Étude du contraste « Test 4 » proc catmod data=goitre; weight freq; response mean; model goitre=village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2) /predict addcell=1; contrast 'villages j0 village iode(village=2) -1, village iode(village=3) -1, village iode(village=4) -1; run; Analysis of Contrasts Contrast DF Chi-Square Pr > ChiSq ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ villages j

60 60 Utilisation du modèle linéaire généralisé de SPSS régression logistique ordinale

61 61 Etude au temps 0

62 62 Etude au temps 0

63 63 Modèle 1 Sur toute la période

64 64 Modèle 1

65 65 Modèle 2

66 66 Modèle 3

67 67 Modèle 3


Télécharger ppt "1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus."

Présentations similaires


Annonces Google